Press "Enter" to skip to content

352 search results for "计算机视觉"

美国十大数据科学初创公司

数据科学已经成为一个有前途的领域。超越了它能够改变人类社会的理论预测,许多初创公司已经展示了它的巨大潜力。本文列举了美国顶级数据科学初创公司。 美国顶级数据科学初创公司 初创公司名称 融资金额 创业年限 搜索增长 Logz.Io $121.9M (E轮) 9 达到顶峰 Featurespace $107.9M (拨款) 15 达到顶峰 Zencity $51.2M (未透露轮次) 8 爆发式增长 ComplyAdvantage $108.2M (C轮) 9…

Leave a Comment

语言模型能够改变放射学吗?认识一下放射学Llama2:一个通过指令调整过程专门为放射学定制的大型语言模型

基于Transformer构建的大型语言模型(LLM),包括ChatGPT和GPT-4,展示了惊人的自然语言处理能力。Transformer-based NLP模型的创建引发了在计算机视觉和其他模态中设计和使用基于Transformer的模型的进展。自2022年11月以来,受到ChatGPT多样化特性和广泛赞誉的启发,LLM已经在临床研究、药学、放射学、阿尔茨海默病、农业和脑科学研究中得到应用,然而,它们在专业领域如医疗保健中的应用尚未广泛采用。首先,由于隐私法律的限制,医院无法将数据交换或上传到商业模型如ChatGPT或GPT-4,因此,本地化的大型语言模型对于现实世界的医疗保健至关重要。 需要在临床上有意义的领域数据上得到充分训练的模型,因为在特定领域如放射学这样的领域中,经过ChatGPT、GPT-4和PaLM 2等广域领域训练的LLM需要更多的医学专业知识。此外,虽然像ChatGPT这样的模型的Radiology-Llama2能够准确模仿放射学家的语言模式,但它们提供的回复更像维基百科,而不是实际放射学家使用的清晰简明的语言,这加快了信息传递的速度。最后,他们的研究为根据每位医生的偏好定制放射学助手铺平了道路。 通过指令调整来为放射学提供放射学印象的Radiology-Llama2 LLM填补了文献中的这一空白。研究表明,它在生成的印象的连贯性、简洁性和临床实用性方面优于标准LLM。 • 最先进的性能:在MIMIC-CXR和OpenI数据集上,超过所有其他语言模型以生成临床印象,创立了新的标准。 • 灵活性和动态性:与基于BERT的竞争对手不同,放射学-Llama2不受特定输入结构的限制,可以适应更广泛的输入和各种放射学任务,包括复杂的推理。 • 具有对话能力的临床可用性:生成式LLM具有内置的对话能力,可以回应查询并提供类似人类的上下文信息。这提高了诊断和报告的能力,使Radiology-Llama2对医学从业者在临床背景下非常有帮助。 图1显示了Radiology-Llama2的整体结构 当适当构建时,本地化的LLM可以革命性地改变放射学,就像Radiology-Llama2所展示的那样。 如果受到适当的监管,它对于临床决策辅助和其他用途具有很大的潜力。这项研究的结果为其他医学专业领域中的专门LLM打开了大门。总之,Radiology-Llama2是在医学中使用LLM的重要进展。这样的专门LLM可以通过对模型构建和评估的持续研究促进医疗人工智能的进步。

Leave a Comment

CMU研究人员提出了一种带有槽位主导模型(Slot-TTA)的测试时间自适应方法:一种半监督模型,配备有槽位主导的瓶颈,可以同时对场景进行分割和重构

计算机视觉中最具挑战和关键性的任务之一是实例分割。在图像或三维点云中精确描绘和分类对象的能力对于各种应用至关重要,从自动驾驶到医学图像分析。多年来,在开发最先进的实例分割模型方面取得了巨大进展。然而,这些模型通常需要应对与其训练分布不同的各种真实场景和数据集。将分割模型调整以处理这些分布范围之外(OOD)的情况的挑战推动了创新研究。一种引起重大关注的开创性方法是Slot-TTA(测试时间调整)。 在快速发展的计算机视觉领域中,实例分割模型取得了显著进展,使机器能够识别和精确分割图像和三维点云中的对象。这些模型已成为许多应用的基础,从医学图像分析到无人驾驶汽车。然而,它们面临着一个常见而严峻的对手-适应各种真实世界的场景和超出其训练数据范围的数据集。无法无缝地从一个领域过渡到另一个领域在有效部署这些模型方面构成了重大障碍。 卡内基梅隆大学、Google Deepmind和Google Research的研究人员推出了一种突破性解决方案,称为Slot-TTA,以解决这一挑战。这种创新方法旨在实现实例分割的测试时间调整(TTA)。Slot-TTA将基于槽位的图像和点云渲染组件的能力与最先进的分割技术相结合。Slot-TTA的核心思想是使实例分割模型能够动态适应OOD场景,从而显著提高其准确性和多功能性。 Slot-TTA基于调整的兰德指数(ARI)作为其主要分割评估指标。它在一系列数据集上进行了严格的训练和评估,包括多视图姿势的RGB图像、单视图的RGB图像和复杂的三维点云。Slot-TTA的区别特征在于其能够利用重建反馈进行测试时间调整。这一创新涉及对以前未见过的视点和数据集的分割和渲染质量进行迭代改进。 在多视图姿势的RGB图像中,Slot-TTA显示出强大的竞争力。通过对MultiShapeNetHard(MSN)数据集进行全面评估,证明了其适应性。该数据集包含超过51,000个ShapeNet对象,精心渲染在真实世界的HDR背景下。MSN数据集中的每个场景都有九个姿势RGB渲染图像,被策略性地分为Slot-TTA的训练和测试的输入和目标视图。研究人员特别注意确保训练集和测试集之间的对象实例之间没有重叠,并且场景中存在的对象数量没有重叠。这种严格的数据集构建对于评估Slot-TTA的鲁棒性至关重要。 在评估中,Slot-TTA与几个基准进行了比较,包括Mask2Former、Mask2Former-BYOL、Mask2Former-Recon和Semantic-NeRF。这些基准是用于比较Slot-TTA在训练分布内外的性能的基准。结果令人瞩目。 首先,Slot-TTA在OOD场景中使用TTA超过了Mask2Former,这是一种最先进的2D图像分割器。这表明Slot-TTA在适应各种真实场景方面的优势。 其次,在Mask2Former-BYOL中添加来自Bartler等人(2022年)的自监督损失未能带来改进,突显出并非所有TTA方法都同样有效。 第三,Slot-TTA没有分割监督,仅用于类似于OSRT(Sajjadi等人,2022a)的跨视图图像合成的变体,与像Mask2Former这样的有监督分割器相比效果显著下降。这一观察结果强调了在训练过程中进行分割监督对于有效的TTA的必要性。 Slot-TTA的强大之处还包括合成和分解新颖的未见RGB图像视图。使用与之前相同的数据集和训练-测试划分,研究人员评估了Slot-TTA的像素精确重构质量和分割ARI准确性,用于五个新颖的未见视点。此评估包括在TTA训练期间未见过的视图。结果令人震惊。 Slot-TTA在这些未知视点上的渲染质量显著提高,展示了它在新颖场景中增强分割和渲染质量的能力。相比之下,强大的竞争对手Semantic-NeRF在这些未知视点上很难推广,突出了Slot-TTA的适应性和潜力。 总之,Slot-TTA在计算机视觉领域代表了一次重大飞跃,解决了将分割模型适应多样的现实场景的挑战。通过结合以槽为中心的渲染技术、先进的分割方法和测试时适应性,Slot-TTA在分割准确性和多功能性方面取得了显著的改进。这项研究不仅揭示了模型的局限性,还为计算机视觉领域的未来创新铺平了道路。Slot-TTA承诺在不断变化的计算机视觉领域提升实例分割模型的适应性。

Leave a Comment

目标检测排行榜

欢迎来到我们最新的排行榜和模型评估领域的深入探索。在之前的一篇文章中,我们探索了对大型语言模型进行评估的方法。今天,我们将转向一个不同但同样具有挑战性的领域-目标检测。 最近,我们发布了我们的目标检测排行榜,根据一些指标对Hub中可用的目标检测模型进行排名。在这篇博客中,我们将演示模型是如何进行评估的,并揭示目标检测中常用的指标,从交并比(IoU)到平均精度(AP)和平均召回率(AR)。更重要的是,我们将重点介绍在评估过程中可能出现的差异和陷阱,确保您具备不仅能理解而且能够批判性评估模型性能的知识。 每个开发者和研究人员都希望拥有一个能够准确检测和描绘对象的模型。我们的目标检测排行榜是找到最适合其应用需求的开源模型的正确地方。但在这个背景下,“准确”到底意味着什么?应该相信哪些指标?它们是如何计算的?而且,更关键的是,为什么一些模型在不同的报告中可能呈现出不同的结果?所有这些问题将在本博客中得到回答。 因此,让我们一起展开这次探索,揭开目标检测排行榜的秘密!如果您想跳过介绍,直接了解如何计算目标检测指标,请前往指标部分。如果您想了解如何根据目标检测排行榜选择最佳模型,请查看目标检测排行榜部分。 目录 介绍 什么是目标检测 指标 什么是平均精度,如何计算? 什么是平均召回率,如何计算? 平均精度和平均召回率的变体有哪些? 目标检测排行榜 根据指标选择最佳模型的方法 哪些参数可能会影响平均精度的结果? 结论 其他资源 什么是目标检测? 在计算机视觉领域,目标检测是指在图像中识别和定位各个对象的任务。与图像分类不同,图像分类的任务是确定图像中占主导地位的对象或场景,目标检测不仅对出现的对象类别进行分类,还提供空间信息,绘制出每个检测到的对象的边界框。一个目标检测器还可以对每个检测到的对象输出一个“分数”(或“置信度”)。它表示根据模型预测,检测到的对象属于每个边界框预测类别的概率。 例如,下面的图像显示了五个检测结果:一个“球”置信度为98%,以及四个“人”置信度分别为98%、95%、97%和97%。 目标检测模型具有各种各样的应用,涵盖各个领域。其中一些用例包括自动驾驶中的视觉、人脸检测、监控和安全、医学成像、增强现实、体育分析、智慧城市、手势识别等。 Hugging Face Hub拥有数百个目标检测模型,它们在不同的数据集上进行了预训练,能够识别和定位各种对象类别。 一种特殊类型的目标检测模型称为零样本模型,它可以接收额外的文本查询,以搜索在文本中描述的目标对象。这些模型可以检测到它们在训练期间没有见过的对象,而不仅仅局限于训练时使用的类别集合。 检测器的多样性不仅限于它们能识别的输出类别范围。它们在底层架构、模型大小、处理速度和预测准确性等方面都有所不同。…

Leave a Comment

麻省理工学院的研究人员创建了一个新的带注释的合成图像数据集,该数据集描绘了各种场景,以帮助机器学习模型理解场景中的概念

大规模预训练的视觉与语言模型在众多应用中展示出了非凡的性能,使得可以用无需指定固定的支持类别,而是通过(几乎任意的)自然语言查询进行零样本开放词汇推理。然而,最近的研究揭示了这些模型的一个根本缺陷。例如,它们无法理解超越名词的视觉语言概念(VLC),如非物体词语(例如属性、动作、关系、状态等)的意义,或者它们在组合推理方面的困难,如理解句子中词语顺序的重要性。 视觉与语言模型是强大的机器学习算法,可以学习将文本与图像匹配,当被要求生成视频标题或摘要时,它们展示出了非凡的结果。尽管这些模型擅长区分物体,但它们经常需要帮助理解概念,例如物体的属性或场景中物品的排列。例如,一个视觉与语言模型可能会看到图像中的杯子和桌子,但无法理解杯子在桌子上方的概念。 麻省理工学院的研究人员展示了一种利用计算机生成数据来帮助视觉与语言模型克服这个缺陷的新技术。具体而言,他们提出增强生成的视觉和文本数据的VLC和组合性方面,然后使用这些数据来微调VL模型,指导它们更加关注这些特征。此外,与实际数据始终伴随的隐私问题相比,合成数据不仅本质上是免费和无限可扩展的,而且可以不受隐私问题的限制。创建能够有效用于增强在大量实际数据上预训练的VL模型的VLC和组合性方面的合成数据,还面临其他技术挑战。与大多数以前关于生成合成视觉数据的工作不同,他们必须开发描述场景的组合元素的图像和文本。此外,他们生成利用真实物理3D模拟的合成视频,例如多样的3D环境和多样的3D物体、人体动作和动作资产,与物体的交互以及不同的摄像机角度。 以前的工作利用动作资产生成合成数据,但视觉数据没有伴随文本标题,并且需要考虑组合性。研究人员为合成视觉概念(SyViC)做出贡献,这是一个大规模(百万级)生成的合成VL数据集,具有丰富的文本标题,可以通过数据合成代码轻松扩展,以及所有先前生成的百万级合成数据。 贡献 研究人员贡献了SyViC – 一个百万级的合成数据集,具有丰富的文本注释,旨在增强VL模型的VLC理解和组合推理能力,以及其合成和潜在可扩展性的方法和生成代码库2。 有效的通用VL模型微调,利用SyViC数据改善强大的预训练VL模型的特性,而不损害其零样本性能。 实验结果和全面的消融研究表明,在最新的VL-Checklist、ARO和Winoground基准测试中,VLC理解和组合推理有显著改善(在某些情况下超过10%),并在最流行的CLIP模型及其衍生模型(例如最新的CyCLIP)上得到验证。 结果 使用所提出的方法和SyViC合成数据生成了所有模型的变体。在对SyViC进行微调之前,将每个模型与其分别在大规模实际数据上训练的源模型进行了比较。根据研究人员的发现,无论是SyViC合成数据还是提出的微调方法,都相对于各自的源基线表现出显著的改进。此外,研究人员还展示了在VL-Checklist和ARO基准测试中为CLIP获得的个别VLC指标改进,分别达到9.1%和12.6%的绝对改进。这证明了该方法和SyViC合成数据在提高VL模型的VLC理解和组合推理能力方面的效率和潜力。 在这里尝试 https://synthetic-vic.github.io/ 局限性 尽管研究人员在三个不同的基准测试中获得了相当有希望的结果,但他们的工作还存在一些限制。例如,图形模拟器对照片亮度、传感器噪声和反射函数的模型与实际世界相比较简化,可能影响颜色恒定性的稳健性。更复杂的领域适应和渲染技术可能需要进一步提高结果。此外,对合成数据的缩放规律进行更深入的研究将是充分发挥该工作潜力的一种优秀方式。 总结 大型视觉和语言模型决定了计算机视觉和多模态感知的现状,在多个困难的基准测试中取得了尖端的成果。然而,现有模型在组合推理和理解物体名词之外的概念(如属性和关系)方面需要帮助。这是第一次研究合成数据是否可以减轻这些不足。麻省理工学院的研究人员提出了一个数据生成流水线,用于创建一个百万级的合成图像数据集和相应的标题,并提供了一种高效的微调策略和全面的分析,以提高多模态模型的组合和概念理解能力,同时不影响它们的零样本分类性能。

Leave a Comment

2023年10个用于照片和视频的AI深度伪造生成器

使用AI深度伪造生成器和使用人工智能的软件工具可以创建人们从未说过或做过的视频和音频录音。为了实现这一点,使用了大量包含目标个体的真实媒体来训练神经网络。网络被训练以识别个人并模仿他们的外貌、言语和行为。 AI深度伪造生成器有广泛的潜在用途,可以用于制作喜剧视频或教学材料。以下是一些用于照片和视频的AI深度伪造生成器。 Zao 我们的首选是Zao,这是一个移动深度伪造工具,对于替换电影中的人脸表现出色。该软件使用计算机视觉自动从视频中提取人脸。用户可以从他们的图库或视频源中选择一个人脸,并轻松将其融入到自拍视频中。Zao以其逼真的换脸能力脱颖而出,得益于其精湛的跟踪和平滑技术。即使用户移动头部或照明变化,该软件也可以可靠地工作。用户可以访问许多名人、虚构角色和模因主题的克隆模板。Zao在深度伪造体验方面具有专业的易用性设计,尤其适用于移动设备。 Reface 在换脸和融合方面,Reface表现出色,是最好的深度伪造工具之一。其简单的设计和快速的渲染速度使其成为长盛不衰的喜爱之选。Reface使用户能够简单地选择一个目标脸,并将其平滑地插入到视频中。即使对齐不完美,效果的质量仍然很好。Reface的用户可以选择各种名人面部模板、GIF和病毒式模因。自动平滑功能可以使效果保持稳定。此外,用户可以利用人工智能将他们最喜欢的名人的相貌叠加到自拍照上,产生类似漫画的效果。尽管缺乏某些专业应用所需的精细调整的手动控制,Reface因其惊人的速度和简单性而成为热门选择。免费版本有广告,但专业版本的价格合理,适合需要深度伪造基本知识的个人使用。 Deep Face Lab Deep Face Lab由才华横溢的数据科学家IPerov策划,使用先进的算法创建逼真的换脸效果。用户可以根据自己的需求进行广泛的手动设置,对深度伪造进行精细调整。该工具不仅具有处理多目标电影的能力,还具有GAN训练、颜色校正、稳定化、语音克隆等功能,令人印象深刻。使用批处理功能,用户可以自动在整个文件夹或视频集合中无缝交换人脸。丰富的GitHub社区不断添加新模型和教程,以改进DeepFaceLab服务。然而,由于其复杂性和用户需要下载额外的库和更改设置,DeepFaceLab并不适合新手使用。愿意花时间和精力去掌握这个复杂程序的视频编辑者可以创建令人信服的深度伪造效果。 Avatarify Avatarify为Zoom、Skype和Google Meet等服务提供实时深度伪造面部滤镜。它使用新的WebGL实现在浏览器中运行深度学习模型。当用户选择一个要操作的脸并允许应用访问他们的相机时,Avatarify可以无缝地将定制的面部动画叠加到实时视频中。该软件特别适用于实时操纵,因为它可以轻松地从一个脸部复制表情到另一个脸部。这个有趣而互动的功能允许用户在实时通话中创建模因面孔和名人形象。由于其浏览器兼容性,分发非常简单。需要注意的是,使用Avatarify需要Python和Node.js。在性能较低的系统上,性能可能不稳定。即使到目前为止,Avatarify仍然是最广泛可用的用于在线视频聊天和广播的深度伪造工具之一。这是一个社区驱动的开源项目。 Deep Nostalgia Deep Nostalgia使用深度学习算法,通过重新创建简单的面部表情,为以前静态的图像赋予了运动感。当用户向应用程序提供一张面部图片时,Deep Nostalgia会自动生成该人眨眼、微笑和转动的GIF序列。尽管其实用性有限,Deep Nostalgia因其能够为复古照片注入新的生机而变得著名。该应用的吸引力在于它能够让历史照片和亲人的照片栩栩如生,引起观看者强烈的情感。该应用的功能很简单:用户必须上传他们的面部可见的自拍照。MyHeritage的受欢迎程度部分源于其基于云的处理服务的便捷性和低成本。结果的质量仍然相当基本,许多相同的模板动作被反复使用。Deep Nostalgia没有社交功能、手动控制和个性化空间。无论如何,Deep Nostalgia是一个有助于在复古图像中添加怀旧情怀的有趣工具。 Wombo Wombo是一款流行的人工智能(AI)驱动的头像和嘴唇同步应用,拥有超过7000万用户。用户拍摄的自拍照片和其他照片可以根据歌曲的节奏进行动画处理。该软件使用深度学习模型,将嘴部动作与声音完美同步。它还可以自动制作复制人类面部表情的动画。Wombo的技术还有待改进,但它能够完成其工作并提供可用的视觉和听觉同步效果。用户可以通过将音乐添加到自己的动画GIF中制作有趣的社交媒体视频。然而,由Wombo创建的头像可能会给人一种机器人的感觉。在个性化面部表情和情感方面还需要更多的灵活性。Wombo是一款易于使用的移动软件,利用人工智能帮助初学者制作舞蹈头像和嘴唇同步电影。该应用程序的用户界面包括方便的预设、滤镜和共享选项。…

Leave a Comment

Google DeepMind研究人员提出了一种名为优化通过提示(OPRO)的方法:将大型语言模型作为优化器

随着人工智能领域的不断进步,其子领域,包括自然语言处理、自然语言生成、自然语言理解和计算机视觉,正变得越来越受欢迎。最近引起很多关注的大型语言模型(LLMs)被用作优化器。它们的能力被用于自然语言理解,以增强优化过程。优化在许多不同的行业和背景中具有实际意义。基于导数的优化方法在处理各种问题方面历史上表现良好。 这也带来了一些挑战,因为在实际情况下,梯度可能只有时而可用,这带来了困难的问题。为了解决这些问题,Google DeepMind的研究人员提出了一种名为OPRO(Optimisation by PROmpting)的独特方法作为解决方案。通过使用LLMs作为优化器,OPRO提供了一种简单而强大的技术。在这种情况下,主要的创新点是使用日常语言来表达优化任务,使流程更简单、更易于理解。 OPRO首先通过自然语言描述优化问题。这意味着问题是用简单的语言表达,而不是复杂的数学公式,这样更容易理解。其次,它提供了一个迭代的解决方案生成过程。LLM根据给定的自然语言提示为每个优化步骤创建新的候选解。这个提示是重要的,它包含了先前创建的解以及它们的相关值的详细信息。这些传统选项作为进一步发展的起点。 然后,更新和评估这些解,并评估它们的性能或质量。在经过检查的解后,下一个优化步骤的提示将包含这些解。随着迭代过程的进行,解逐渐改进。一些实际的例子被用来说明OPRO的有效性。首先,OPRO被用来解决两个众所周知的优化问题:线性回归问题和旅行推销员问题。这些问题是显著的,并作为评估该方法有效性的标准。OPRO展示了其识别出这些问题的优秀解的能力。 其次,它被用于提示优化。OPRO不仅仅解决特定的优化问题,还涉及到优化提示本身的问题。目标是找到能够提高任务准确性的指令。这对于涉及自然语言处理的任务尤其重要,因为提示的结构和内容对结果有很大影响。 团队表明OPRO优化的提示通常优于人类创建的提示。在一个例子中,它使Big-Bench Hard工作负载的性能提高了高达惊人的50%,在GSM8K基准测试中提高了8%。这显示了OPRO在改善优化结果方面的巨大潜力。 总之,OPRO提供了一种利用大型语言模型进行优化的革命性方法。OPRO通过用普通语言解释优化任务并反复生成和改进解来展示其在解决常见优化问题和改善提示方面的效率。结果表明,与传统方法相比,尤其是在梯度信息不可用或难以收集的情况下,性能提升显著。

Leave a Comment

如何测量神经辐射场的不确定性?介绍BayesRays:一种为NeRFs提供的革命性后处理框架

创建3D模型可以比2D图像提供更沉浸式和逼真的场景表现。它们允许观众从不同角度探索和与场景进行交互,提供对空间布局和信息深度的更好理解。 这对虚拟现实(VR)和增强现实(AR)应用非常重要。它们可以将数字信息叠加到真实世界上(AR),或创建完全虚拟的环境(VR),提升游戏、教育、培训和各种行业的用户体验。 神经辐射场(NeRFs)是一种用于3D场景重建和渲染的计算机视觉技术。NeRF将场景视为一个3D体积,其中体积中的每个点都有相应的颜色(辐射)和密度。神经网络通过基于不同视角拍摄的2D图像预测每个点的颜色和密度。 NeRFs具有多个应用,例如视图合成和深度估计,但从多视图图像中学习具有固有的不确定性。目前用于量化不确定性的方法要么是启发式的,要么是计算开销很大的。Google DeepMind、Adobe Research和多伦多大学的研究人员引入了一种名为BayesRays的新技术。 它由一个框架组成,用于评估任何预训练的NeRF的不确定性,而无需修改训练过程。通过使用空间扰动和贝叶斯拉普拉斯近似添加体积不确定性场,他们能够克服NeRFs的局限性。贝叶斯拉普拉斯近似是一种用简单的多变量高斯分布近似复杂概率分布的数学方法。 他们计算出的不确定性在统计学上是有意义的,并且可以渲染为额外的颜色通道。他们的方法在关键指标(如与重建深度误差的相关性)上也优于先前的工作。他们使用了一种即插即用的概率方法来量化任何预训练的NeRF的不确定性,而不受其架构的影响。他们的工作提供了一种实时去除预训练NeRFs中伪影的阈值。 他们表示,他们构建他们的方法的灵感来自使用体积场对3D场景建模。体积变形场通常用于操作隐式表示的对象。他们的工作也类似于摄影测量学,其中重建不确定性通常通过在已识别的空间位置上放置高斯分布来建模。 最后,他们表示他们的算法仅限于量化NeRFs的不确定性,并且不能简单地转化为其他框架。然而,他们未来的工作涉及针对更近期的空间表示(如3D高斯喷洒)制定类似基于变形的拉普拉斯近似的方法。

Leave a Comment

使用机器学习改进资产健康和电网韧性

机器学习(ML)正在改变每一个行业、流程和业务,但成功的道路并不总是一帆风顺在这篇博文中,我们展示了杜克能源(Duke Energy)与亚马逊云服务(AWS)机器学习解决方案实验室(MLSL)合作,利用计算机视觉自动化检测木杆设施,帮助预防停电、财产损失甚至人员受伤杜克能源是一家总部位于北卡罗来纳夏洛特市的财富500强企业

Leave a Comment

利用生成模型提升半监督学习

介绍 在机器学习这个充满活力的世界中,一个不断面临的挑战是如何充分利用有限的标记数据的潜力。这就是半监督学习的领域——一种巧妙的方法,将少量标记数据与大量未标记数据相结合。在本文中,我们将探索一种具有改变游戏规则的策略:利用生成模型,特别是变分自动编码器(VAEs)和生成对抗网络(GANs)。通过本文的精彩旅程,您将理解这些生成模型如何极大地提升半监督学习算法的性能,就像扣人心弦的故事中的巧妙转折一样。 来源:researchgate.net 学习目标 我们将首先深入探讨半监督学习,了解它的重要性,以及它在实际机器学习场景中的应用。 接下来,我们将介绍令人着迷的生成模型世界,重点介绍VAEs和GANs。我们将了解它们如何为半监督学习增添活力。 准备好动手实践吧,我们将指导您如何将这些生成模型整合到真实世界的机器学习项目中,从数据准备到模型训练。 我们将强调一些好处,如改进模型泛化能力和节省成本。此外,我们还将展示这种方法如何适用于不同领域。 每段旅程都会面临挑战,我们将应对这些挑战。我们还将看到重要的伦理考虑,确保您有能力在半监督学习中负责任地使用生成模型。 本文作为数据科学博客马拉松的一部分发表。 半监督学习简介 在广阔的机器学习领域中,获取标记数据可能是一项艰巨的任务。它常常涉及耗时且昂贵的工作来对数据进行注释,这可能限制了监督学习的可扩展性。这时就需要半监督学习,这是一种巧妙的方法,弥合了标记和未标记数据领域之间的差距。它认识到,虽然标记数据非常重要,但大量的未标记数据常常处于休眠状态,可以被利用起来。 想象一下,您的任务是教会计算机识别图像中的各种动物,但对每个动物进行标记是一项艰巨的任务。这就是半监督学习发挥作用的地方。它建议将少量标记图像与大量未标记图像混合在一起,用于训练机器学习模型。这种方法使模型能够利用未标记数据的潜力,提高其性能和适应性。就像在一个信息星系中有一些指引星星,帮助您导航。 来源:festinais.medium.com 在我们探索半监督学习的旅程中,我们将探讨其重要性、基本原理和创新策略,特别关注生成模型如VAEs和GANs如何增强其能力。让我们与生成模型一起释放半监督学习的力量。 生成模型:增强半监督学习 在引人入胜的机器学习世界中,生成模型成为真正的游戏改变者,为半监督学习注入新的活力。这些模型具有独特的才能——它们不仅可以理解数据的复杂性,还可以生成与其所学内容相似的新数据。在这个领域中表现最好的模型之一是变分自动编码器(VAEs)和生成对抗网络(GANs)。让我们踏上一段旅程,了解这些生成模型如何成为催化剂,推动半监督学习的界限。 VAEs擅长捕捉数据分布的本质。它通过将输入数据映射到隐藏空间,然后精心重构数据来实现。在半监督学习中,这种能力有着深远的意义,因为VAEs鼓励模型提炼有意义且简洁的数据表示。这些表示不需要大量标记数据的培养,却能提供改进的泛化能力,即使面对有限的标记示例。在另一方面,GANs进行着引人入胜的对抗舞蹈。在这里,生成器努力创建与真实数据几乎无法区分的数据,而鉴别器则扮演警惕的批评家的角色。这个动态二重奏导致数据增强,并为生成全新的数据值铺平了道路。正是通过这些引人入胜的表演,VAEs和GANs获得了关注,开启了半监督学习的新时代。 实际实施步骤 现在我们已经探索了理论方面,是时候卷起袖子,深入探讨使用生成模型的半监督学习的实际实施了。这是魔术发生的地方,我们将想法转化为现实解决方案。以下是将这种协同效应变为现实的必要步骤: 来源:google-cloud.com 第一步:数据准备 – 设置舞台 就像任何成功的制作一样,我们需要一个好的基础。首先收集你的数据。你应该有一小部分有标签的数据和大量未标记的数据。确保你的数据干净、组织良好,并准备好上场。…

Leave a Comment

认识SMPLitex:一种用于从单张图像估计3D人体纹理的生成AI模型和数据集

在不断发展的计算机视觉和图形领域中,一个重要的挑战是从2D图像中创建逼真的3D人体表示。这不仅仅是技术上的障碍,也是从沉浸式虚拟环境到高级视频编辑等众多应用的入口。为了应对这一挑战,研究团队提出了一种突破性的解决方案,称为“SMPLitex”。该研究深入探讨了问题本身、提出的方法论、其复杂性以及SMPLitex的出色性能。 从单个图像中创建3D人体表示是计算机图形和计算机视觉中的一个长期愿景。虽然我们在捕捉3D形状方面取得了重大进展,但赋予物体逼真外观的纹理仍然是一个艰巨的领域。想象一下,只需拍摄一个人的单张照片,就能够重新创建他们的3D形状和详细的皮肤纹理、服装甚至配饰。这正是SMPLitex研究团队要解决的挑战。 在深入研究SMPLitex之前,了解现有方法及其局限性是至关重要的。传统方法通常依赖于耗时的手动纹理映射或3D扫描等工艺,这对于现实世界的应用来说可能更具可扩展性。这些方法在处理被遮挡或不完整的被拍摄对象时也会遇到困难,限制了它们的实用性。 研究团队通过引入SMPLitex,一种从单个图像中估计和操作完整3D人体外观的革命性方法,迈出了大胆的一步。SMPLitex的独特之处在于将最初设计用于2D图像的生成模型集成到3D领域中。关键创新在于根据输入图像建立像素到表面的对应关系,然后用于重建3D纹理。 该方法的核心是一种专门设计用于完整3D人体外观的生成模型。该模型经过广泛训练,学习了人体纹理在3D空间中的表现方式。但真正的魔力发生在该模型基于输入图像中可见部分的条件下。 通过计算出令人瞩目的精确的像素到表面的对应关系,将2D图像映射到其3D对应物。通过利用这种对应关系,SMPLitex可以生成一个完整的3D纹理映射,忠实地呈现被拍摄对象的外观。生成模型对图像中可见部分的适应性确保了即使在处理部分遮挡的对象时,SMPLitex也能产生逼真的3D纹理。 SMPLitex不仅承诺实现范式转变,而且实现了。研究团队在三个公开可用的数据集上进行了严格的定量和定性评估。结果令人惊叹,SMPLitex在人体纹理估计方面显著优于现有方法,展示了其强大的能力。 SMPLitex的一个突出特点是其多功能性。它在准确的纹理估计方面表现出色,并为更广泛的任务打开了大门。从编辑和合成到操作,SMPLitex可以无缝地将3D纹理集成到各种应用中,丰富了计算机图形和计算机视觉领域。 总之,SMPLitex代表了从单个图像中提取逼真的3D人体纹理的巨大进步。通过弥合2D图像和逼真3D重建之间的差距,该方法具有巨大的潜力。其潜在应用涵盖了娱乐、游戏、医疗保健和时尚等各个领域。SMPLitex展示了未来捕捉3D人体外观就像拍照一样简单的前景,研究团队的创新为更具沉浸感的体验、增强内容创作以及新的计算机视觉和图形领域铺平了道路。 随着技术的进步,我们只能期待像SMPLitex这样的方法所能带来的令人难以置信的可能性。将生成模型和精确的像素到表面对应相结合,可以彻底改变行业,并重新定义我们与人体形态的数字表示的互动。由于SMPLitex及其有远见的研究团队,从2D到3D的旅程迈出了重要的一步。

Leave a Comment

“完美组合:阿迪达斯和Covision Media利用人工智能、NVIDIA RTX创建逼真的3D内容”

创建物理产品的3D扫描可能非常耗时。企业通常使用传统方法,如基于摄影测量的应用和扫描仪,但这些方法可能需要数小时甚至数天的时间。它们也并不总能提供制作模型所需的3D质量和细节水平,使其在所有应用中看起来逼真。 总部位于意大利的初创公司Covision Media利用人工智能和NVIDIA RTX技术来增强3D扫描过程和基于3D的内容创建。 Covision Media开发了基于人工智能的3D扫描仪,允许客户创建任何产品的数字孪生,包括鞋类、眼镜、运动装备、玩具、工具和家居用品。该公司是NVIDIA Inception的成员,这是一个免费计划,为初创企业提供最新资源和技术。 使用Covision的技术,客户可以快速创建3D扫描,并自动保留详细的纹理、材料、颜色、几何形状等,使图像尽可能逼真。 该技术运行在NVIDIA RTX上,使用户能够创建高质量、详细、逼真的3D模型。Covision Media还使用神经辐射场(NeRFs)来提高3D模型的质量,同时解决准确捕捉照明、反射和透明表面等典型挑战。 阿迪达斯及其合作伙伴NUREG(一个内容创作工作室)是最早使用Covision Media的3D扫描技术来自动化和扩展电子商务内容生产的公司之一。 利用RTX和AI开启3D的新可能 Covision的3D扫描仪连接到运行NVIDIA RTX A5000和RTX A6000 GPU的多个工作站上,这两款GPU提供高性能的光线追踪和强大的人工智能功能。 NVIDIA OptiX框架的光线追踪性能,结合NVIDIA RT Cores,使Covision能够精确测量扫描对象的照明情况。这是允许客户将其扫描的产品放入任何虚拟环境的最大独特因素之一。Covision还利用NVIDIA的软件基础设施开发先进的人工智能解决方案,用于其神经纹理方法。 “如果没有NVIDIA RTX…

Leave a Comment

“光环效应:人工智能深入探索珊瑚礁保护”

随着全球珊瑚礁的迅速衰退,夏威夷大学马诺阿分校的研究人员开创了一种基于人工智能的勘测工具,可以从天空监测珊瑚礁的健康状况。 利用由NVIDIA GPU提供动力的深度学习模型和高分辨率卫星图像,研究人员开发出一种新的方法,可以发现和追踪珊瑚礁光环——围绕珊瑚礁的一圈贫瘠沙地。 这项研究最近发表在《遥感环境》杂志上,可能为实时珊瑚礁监测和全球保护工作带来转机。 “珊瑚礁光环可能是生态系统健康的潜在指标,”夏威夷大学的博士后研究员阿梅利亚·迈尔说道,她也是这项研究的合著者。“这些光环模式可以从太空中看到,为科学家和保护人士提供了观察广阔而遥远地区的独特机会。借助人工智能,我们可以定期评估光环的存在和大小,以确定生态系统的健康状况。” 明晰海洋:揭示珊瑚礁健康 根据研究人员最近的发现,以前认为仅由鱼类觅食造成的珊瑚礁光环也可以指示一个健康的捕食者-被捕食者生态系统。一些食草鱼类在保护珊瑚礁周边的海藻或海草上觅食,而捕食者则在海底挖掘寄生无脊椎动物,使周围的沙地裸露。 这些动态表明该区域为维持多样化的海洋生物种群提供了丰富的食物资源。当光环的形状发生变化时,表明海洋食物链存在失衡,可能指示一个不健康的珊瑚礁环境。 身陷困境 虽然珊瑚礁在海洋中仅占不到1%,但它们为超过100万种水生物种提供了栖息地、食物和育种场所。这也具有巨大的商业价值——每年约有3750亿美元的商业捕捞、旅游和沿海风暴保护,以及为药物研发研究提供抗病毒化合物。 然而,过度捕捞、养分污染和海洋酸化威胁着珊瑚礁的健康。加剧的气候变化以及来自变暖海洋的热应激也会加剧珊瑚白化和传染病的发生。 全球超过一半的珊瑚礁已经消失或严重受损,科学家预测到2050年所有的珊瑚礁都将面临威胁,其中很多处于危险之中。 借助人工智能开创新的视野 发现珊瑚礁光环的变化对于全球保护工作至关重要。然而,追踪这些变化是一项耗时且需要大量人力的任务,限制了研究人员每年进行的勘测数量。偏远地区珊瑚礁的可及性也带来了挑战。 研究人员创建了一个人工智能工具,可以从全球卫星图像中识别和测量珊瑚礁光环,使保护人士有机会主动应对珊瑚礁退化问题。 他们使用Planet SkySat图像,开发了一个双模型框架,采用了两种类型的卷积神经网络(CNNs)。依靠图像分割的计算机视觉方法,他们训练了一个Mask R-CNN模型,逐像素检测珊瑚礁和光环的边缘。一个U-Net模型则被训练用于区分珊瑚礁和光环的区域,并进行分类和预测。 研究区域概述(A),包含光环的SkySat卫星图像示例(B)以及光环的放大子集(C)。 团队使用TensorFlow、Keras和PyTorch库对珊瑚礁模型进行了数千个注释的训练和测试。 为了应对任务的大量计算需求,CNNs在一台NVIDIA RTX A6000 GPU上运行,借助cuDNN加速的PyTorch框架。研究人员通过NVIDIA学术硬件赠款计划获得了A6000 GPU。…

Leave a Comment

亚马逊研究人员推出了一种名为“HandsOff”的方法,可以消除手动注释合成图像数据的需求

使用机器学习(ML)模型进行计算机视觉任务通常严重依赖于标记的训练数据。然而,收集和注释这些数据可能需要时间和精力。合成数据已经成为解决这个问题的可行方法,但是即使生成合成数据也经常需要人工分析员费力地手动注释。 现有的解决此问题的方法通常涉及使用生成对抗网络(GAN)创建合成图像。GAN由一个鉴别器和一个生成器组成,其中生成器学习生成能够欺骗鉴别器认为它们是真实的图像。虽然GAN在生成合成数据方面显示出了潜力,但它们仍然需要大量标记数据进行训练,限制了它们在有限注释数据的情况下的有效性。 亚马逊研究人员提出了一种名为“HandsOff”的创新解决方案,该解决方案在计算机视觉和模式识别会议(CVPR)上进行了演示。HandsOff通过利用一小组标记图像和GAN,消除了对合成图像数据的手动注释的需求。 HandsOff采用了一种称为GAN反演的新颖方法。研究人员不是修改GAN本身的参数,而是训练一个单独的GAN反演模型,将真实图像映射到GAN的潜在空间中的点。这使得他们能够基于标记图像创建一个小的点和标签数据集,可以用来训练第三个能够标记GAN潜在空间中的点的模型。 HandsOff的关键创新在于使用学习感知图像块相似性(LPIPS)损失来微调GAN反演模型。LPIPS通过比较计算机视觉模型(如目标检测器)在每个模型层的输出来衡量图像之间的相似性。通过优化GAN反演模型,以最小化真实潜在向量与输入图像的估计潜在向量之间的LPIPS差异,研究人员确保了即使对于不完全重构的想法,也能够保证标签的准确性。 HandsOff在语义分割、关键点检测和深度估计等重要的计算机视觉任务上展示了最先进的性能。值得注意的是,这是在少于50个现有标记图像的情况下实现的,突显了该框架在最小手动注释的情况下生成高质量合成数据的能力。 总之,HandsOff框架在计算机视觉和机器学习领域取得了令人振奋的突破。消除对合成数据大量手动注释的需求显著减少了训练ML模型所需的资源和时间。GAN反演与LPIPS优化的使用展示了该方法在确保生成数据的标签准确性方面的有效性。虽然文章没有详细探讨具体的定量指标,但实现最先进性能的声明是有希望的,值得进一步研究。 总体而言,HandsOff通过使高质量标记数据更易获取和更适用于各个领域和行业,有望推动计算机视觉研究和应用的发展。

Leave a Comment

Can't find what you're looking for? Try refining your search: