Press "Enter" to skip to content

Tag: Artificial intelligence

揭秘语言模型中的逆向缩放

Published December 25, 2023 by 四海吧

一个重要的方面是要考虑到反比例缩放问题，这可能会影响更大的LLM的表现虽然这可能会带来挑战，但也为改进和优化提供了机会通过解决这个问题，我们可以增强这些模型的整体能力，使它们更有效地处理各种任务这些潜在的改进突显了更大的LLM在人工智能领域的价值和潜力

Continue reading

Leave a Comment

聊天机器人是否在鼓励学校作弊？新研究揭示出令人惊讶的结果

Published December 25, 2023 by 四海吧

根据斯坦福研究人员的发现，使用诸如ChatGPT等人工智能工具并没有导致高中作弊率的上升这一发现有助于证明这类工具的有效性和道德使用的重要性

Continue reading

Leave a Comment

机器狗刷新了世界速度纪录

Published December 25, 2023 by 四海吧

The Korea Advanced Institute of Science and Technology has been recognized by Guinness World Records for their incredible achievement in creating a quadrupedal robot with dog-like abilities. This groundbreaking accomplishment has been hailed as the fastest of its kind, demonstrating the team’s unwavering dedication and exceptional skills.

Continue reading

Leave a Comment

令人惊叹的发现：人工智能如何解决未解数学问题

Published December 25, 2023 by 四海吧

虽然面临需要丢弃大部分生产物品的困境，但仍然能在似乎毫无用处的废料中发现宝贵的宝石这显示出公司在生产过程中的高品质和精益求精的能力，让他们能够从废弃物中获得额外的价值

Continue reading

Leave a Comment

拜登政府提出的人工智能医疗应用标签系统的建议

Published December 25, 2023 by 四海吧

美国拜登政府推出了一种新的标记系统，用于评估具有人工智能功能的医疗应用程序，旨在优先保障这些应用程序的安全可靠性这一举措将有助于提升医疗应用程序的质量，使其更加可靠和安全，为用户提供更好的医疗体验

Continue reading

Leave a Comment

谷歌AI提出PixelLLM：一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

Published December 18, 2023 by 四海吧

大型语言模型（LLMs）成功利用了人工智能（AI）的子领域，包括自然语言处理（NLP），自然语言生成（NLG）和计算机视觉。借助LLMs，我们能够创建能够复杂推理关于图像的视觉语言模型，回答与图像相关的问题，并用自然语言描述图像。然而，LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。为了克服这个挑战，谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM，可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发，尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示，目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此，添加了一个微小的多层感知机（MLP），它能够对每个单词的像素位置进行回归。使用了低秩微调（LoRA），允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示，使其能够提供符合提示的输出。该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入，并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出，适应各种视觉语言活动。团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标，包括RefCOCO引用定位上的89.8 P@0.5，Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要，这在对RefCOCO进行的消融实验中得到了证明，相对于其他的定位公式，它取得了3.7个百分点的提升。因此，PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。团队总结了他们的主要贡献如下：引入了一个名为PixelLLM的新的视觉语言模型，可以生成单词定位和图片标题。该模型支持文本或可选的位置提示，除图片输入外。使用了定位的叙述数据集进行每个单词定位的训练。该模型能够适应各种视觉语言任务，包括分割、位置条件字幕、引用定位和密集字幕。该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas

Published December 18, 2023 by 四海吧

这是与MongoDB的Babu Srinivasan共同撰写的客座文章随着今天快节奏的商业环境中行业的发展，无法进行实时预测给那些高度依赖精准及时洞察力的行业带来了重大挑战在各个行业中缺乏实时预测存在着紧迫的业务挑战，这可能会对决策产生重大影响

Continue reading

Leave a Comment

NeurIPS 2023的亮点和贡献

Published December 18, 2023 by 四海吧

“神经信息处理系统学术会议，NeurIPS 2023，是学术探索和创新的巅峰这一备受人工智能研究界推崇的首要活动再次汇集了最聪明的头脑，推动知识和技术的边界今年，NeurIPS展示了一系列令人印象深刻的研究成果，标志着…”

Continue reading

Leave a Comment

5个DALLE-3的使用案例

Published December 18, 2023 by 四海吧

学习如何使用DALL-E 3使你的生活变得更轻松一点（或者更多）

Continue reading

Leave a Comment

这篇AI论文提出了一种不需要已知摄像机参数的COLMAP-Free 3D高斯飞溅（CF3DGS）方法，用于新视角合成

Published December 18, 2023 by 四海吧

神经渲染的进展在重建场景和生成新视点方面取得了显着突破。然而，其有效性很大程度上取决于相机姿态的精确预计算。为了减少这个问题，许多努力已经被做出来，以无需预计算相机姿态来训练神经辐射场（NeRFs）。然而，NeRFs的隐式表示使得同时优化3D结构和相机姿态变得困难。来自UC San Diego、NVIDIA和UC Berkeley的研究人员引入了COLMAP-Free 3D Gaussian Splatting（CF-3DGS），它增强了两个关键要素：从视频中的时间连续性和显式的点云表示。CF-3DGS不是一次优化所有帧，而是以连续的形式构建场景的3D高斯，随着摄像机的移动，逐个“增长”一个结构。CF-3DGS为每个帧提取一个局部3D高斯集，并维护整个场景的全局3D高斯集。 https://arxiv.org/abs/2312.07504 使用不同的3D场景表示来生成真实的图像，包括平面、网格、点云和多平面图像。由于其出色的逼真渲染能力，NeRFs（神经辐射场）在该领域中备受关注。3DGS（三维高斯喷溅）方法利用纯显式表示和差分点基喷溅方法实现对视图的实时渲染。 CF-3DGS合成未知相机参数的视图。它同时优化3D高斯喷溅（3DGS）和相机姿态。它使用局部3DGS方法从附近帧中估计相对相机姿态，使用全局3DGS过程从未观察到的视图中逐步扩展3D高斯。CF-3DGS利用显式的点云来表示场景，并利用视频流中的连续性。它按顺序处理输入帧，逐步扩展3D高斯以重建场景。这种方法实现了快速训练和推理速度。 https://arxiv.org/abs/2312.07504 CF-3DGS方法在姿态估计和新视图合成的稳健性方面优于先前最先进的方法。该方法在CO3D视频上进行验证，这些视频呈现了更复杂和具有挑战性的相机移动，并且在视图合成质量方面胜过了Nope-NeRF方法。该方法在CO3D V2数据集上的相机姿态估计的所有指标上一直超过Nope-NeRFe，表明它在估计相机姿态方面的稳健性和准确性，尤其是在具有复杂相机移动的场景中。综上所述，CF-3DGS是一种有效且稳健的方法，利用视频的时间连续性和显式点云表示合成视图，无需进行结构运动（SfM）预处理。它同时优化相机姿态和3DGS，主要适用于视频流或有序图像集合。它还具有未来扩展的潜力，以适应无序图像集合。

Leave a Comment

全球通用模型：Runway AI研究启动新的长期研究工作

Published December 18, 2023 by 四海吧

“`html 世界模型是一种旨在构建对环境的内部了解并利用这些知识来预测该空间内未来事件的人工智能系统。研究人员主要在受控环境中测试这些世界模型，如视频游戏或特定任务，例如驾驶。最终目标是雄心勃勃的 – 创建可以处理遇到的各种情况的模型，这些情况在不可预测的现实世界中发生。早期尝试创建这种系统的一个例子是Gen-2视频生成系统。它就像一个初入行的艺术家，试图制作展示基本物体运动理解的短视频。然而，它在更复杂的任务中有困难，对于涉及快速相机移动或复杂物体行为的情景挣扎不已。这揭示了当前世界模型的局限性，促使研究人员深入研究和改进这些系统。构建有效的世界模型之路面临着几个挑战。一个关键方面是这些模型需要生成准确一致的环境地图。它不仅仅是识别运动，还要在给定空间内进行导航和互动。此外，这些模型不仅必须理解世界的动态，还必须理解和模拟其居民的行为，包括真实的人类行为。这个多方面的挑战需要不断的研究和创新。研究人员正在积极努力克服这些挑战，致力于增强世界模型的适应性和能力。就像升级视频游戏中的角色一样 – 这些模型需要在生成可靠的地图和在不同复杂情景中进行导航时进行升级。目标是使它们具备处理现实世界的不可预测性的能力。为了衡量这些世界模型的有效性，研究人员采用了一些度量标准。这些度量标准衡量了模型生成一致准确地图的能力，其在不同环境中导航的熟练程度以及其对人类行为的逼真模拟。这些可量化的测量方法作为基准，让研究人员评估这些不断发展的世界模型的进展和能力。总之，开发通用世界模型是一个充满挑战和令人兴奋前景的持续过程。随着研究人员不断完善这些模型，承诺在各种现实情景中进行更好的模拟和预测。这些模型的演变不仅推动了人工智能能力的界限，还有可能深入理解复杂环境并改进人工智能与我们的动态世界的互动。 The post General World Models: Runway AI Research Starting a New Long-Term Research Effort…

Continue reading

Leave a Comment

医疗景观人工智能模型列表（2023年）

Published December 18, 2023 by 四海吧

鉴于人工智能（AI）在今年取得的许多进展，AI已成为2023年的一个重要讨论点并不足为奇。现在，几乎在每个领域中都可以找到AI的应用案例，其中之一就是在医疗保健和医学领域的令人兴奋和有用的应用。从药物发现到转录医学文件，甚至协助手术，它正在改变医疗专业人员的生活，还有助于减少错误并提高其效率。本文讨论了2023年几个有可能改变医学界的AI模型。 Med-PaLM 2 Med-PaLM由Google Research设计用于医学领域，能够对医学问题提供高质量的答案。该模型利用了Google的LLM的强大性能，并是其中一个在回答USMLE样式问题时达到人类专家水平的首个模型。在评估时，该模型展示了理解症状、进行复杂推理并选择适当治疗的能力。此外，它在研究中基于MedQA医学考试基准测试中取得了86.5%的准确率。尽管显示出了有前途的能力，研究人员希望进行更严格的评估，以确保该模型可以在关键安全领域部署。 Bioformer Bioformer是BERT的一个紧凑版本，可用于生物医学文本挖掘。虽然BERT在NLP应用中取得了最先进的性能，但通过减少参数可以提高计算效率，对性能的影响很小。Bioformer研究人员采用这种方法开发了一个模型，其模型尺寸比BERT大大减小（减少60%）。该模型是在PubMed摘要和PubMed Central全文文章上训练的，并使用了生物医学词汇表。研究人员发布了两个版本的模型-Bioformer8L和Bioformer16L，在命名实体识别、关系抽取、问题回答和文档分类等参数评估中表现良好，即使参数更少。 MedLM MedLM是由Google开发的一套针对医疗保健用例进行调优的基础模型。MedLM中的两个模型旨在处理复杂任务并扩展到各种任务中。这些模型的主要目的是自动化任务，以节省时间，提高效率并改善患者整体健康状况，Google的研究人员与德勤合作以试行MedLM的能力。MedLM还与其他AI系统集成，如BenchSci的ASCEND，以提高临床研究和开发的质量和速度。 RoseTTAFold RoseTTAFold是一款通过有限信息预测蛋白质结构的深度学习软件。它能够研究蛋白质序列的模式、蛋白质氨基酸的相互作用以及它们的三维结构。该模型使研究人员能够模拟蛋白质和小分子药物彼此之间的相互作用，促进药物发现研究。该模型的研究人员还公开了其代码，以造福整个社区。 AlphaFold AlphaFold是由DeepMind开发的功能强大的AI模型，可以根据蛋白质的氨基酸序列预测其三维结构。DeepMind与EMBL的欧洲生物信息研究所（EMBL-EBI）合作共同发布了一个包含超过2亿个AI生成的蛋白质结构预测结果的数据库，以促进科学研究。在CASP14中，AlphaFold在高准确性的情况下超过了其他模型，产生了令人满意的结果。此外，它具有更好地帮助研究人员理解蛋白质结构和推进生物研究的潜力。 ChatGLM-6B ChatGLM是一个双语模型（中英文），它在中文医疗对话数据库上进行了精细调整。该模型在相对较短的时间内（13小时）进行了精细调整，使其成为非常实惠且适用于医疗目的的LLM。该模型还具有更长的序列长度，因此支持更长的对话和应用程序。该模型使用了监督式精细调整、RLHF等技术进行训练，从而使其能够更好地理解人类指令。因此，该模型具有出色的对话和问答能力。本文最初发表在MarkTechPost上，文章标题为：医疗领域人工智能模型清单（2023年）。

Leave a Comment

亚马逊研究人员利用深度学习增强用于复杂表格数据分析的神经网络

Published December 18, 2023 by 四海吧

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-17-at-10.19.56-PM-1024×512.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-17-at-10.19.56-PM-150×150.png”/><p>神经网络，作为现代计算的奇迹，面对包含异质列的表格数据时遇到了重大障碍。这个挑战的实质在于网络无法有效处理表格内的多样化数据结构。为了解决这个问题，该论文探索了创新方法，以增强神经网络在处理这种复杂数据结构时的性能。</p><p>带有行和列的表格数据通常看似简单。然而，当这些列之间在性质和统计特征上有显著差异时，复杂性就出现了。传统神经网络由于对特定类型信息的固有偏向而难以理解和处理这些异质数据集。这种偏见限制了它们对表格数据中的复杂微妙之处的把握和解码能力。网络频谱偏向低频分量而非高频分量，从而进一步加剧了这个挑战。这些异质表格数据内部错综复杂的互联特征对于这些网络的把握和处理构成了一种巨大挑战。</p><p>在这篇<a href=”https://www.xiaozhuai.com/microsoft-introduces-a-new-approach-to-training-language-models-in-ai-research-the-method-mimics.html”>论文</a>中，来自亚马逊的研究人员提出了一种新方法，以克服这个挑战，该方法将表格特征转化为低频表示。这种转变技术旨在减轻神经网络的频谱偏见，使其能够捕捉嵌入在这些异质表格数据中的复杂信息所必需的高频成分。实验中对表格和图像数据集的傅里叶分量进行了严格分析，以提供关于频谱和网络解码能力的见解。所提议的解决方案的一个关键方面是在减少频率以提高网络理解力之间的微妙平衡，以及在改变数据表示时可能丧失重要信息或对优化产生负面影响的潜在风险。</p><p>该论文提供了全面的分析，说明频率减少转换对神经网络解读表格数据的影响。图表和经验数据展示了这些转换如何显著增强网络性能，特别是在解码合成数据中的目标函数方面。探索还扩展到评估常用的数据处理方法及其对频谱和后续网络学习的影响。这种细致的研究揭示了这些方法在不同数据集上的不同影响，强调了所建议的频率减少方法的卓越性能和计算效率。</p><p>论文的关键要点：</p><ul><li>神经网络在理解异质表格数据方面面临的固有挑战，包括偏见和频谱限制。</li><li>所提出的频率减少转换的方法增强了神经网络解码这些数据集内的复杂信息的能力。</li><li>全面的分析和实验验证了所提出方法在增强网络性能和计算效率方面的有效性。</li></ul>

Leave a Comment

未中标：在人工智能进展竞赛中操控度量指标的陷阱

Published December 18, 2023 by 四海吧

从共产主义的指甲工厂到资本主义的机器人战斗，本文强调了虚假基准和狭隘炒作周期对深化进步造成的永恒风险

Continue reading

Leave a Comment

斯坦福大学研究人员利用GLOW和IVES进行深度学习，改变了分子对接和配体结合姿势预测的方式

Published December 17, 2023 by 四海吧

深度学习有潜力通过改进评分函数来增强分子对接。当前的采样协议通常需要先验信息以生成准确的配体结合位姿，这限制了评分函数的准确性。斯坦福大学的研究人员开发的两个新协议，GLOW和IVES，解决了这个挑战，展示了增强位姿采样效果的能力。通过在包括AlphaFold生成的蛋白质结构在内的各种蛋白质结构上进行基准测试，验证了这些方法。深度学习在分子对接中通常依赖于刚性蛋白质对接数据集，忽视了蛋白质的柔性。虽然柔性对接考虑了蛋白质的柔性，但准确性较低。GLOW和IVES是解决这些局限性的高级采样协议，持续优于基准方法，尤其在动态结合口袋中。这对于提高蛋白质-配体对接中的配体位姿采样至关重要，同时也对于提高基于深度学习的评分函数的准确性至关重要。分子对接预测在药物发现中至关重要，它可以预测配体在蛋白质结合位点的位置。传统方法在生成准确的配体位姿方面面临挑战。深度学习可以提高准确性，但依赖于有效的位姿采样。GLOW和IVES为挑战性的情景提供了改进的采样协议，提高了准确性。适用于无配体或预测蛋白质结构，包括AlphaFold生成的结构，它们提供了精选的数据集和开源Python代码。 GLOW和IVES是分子对接中的两个配体位姿采样协议。GLOW使用软化的范德华势生成配体位姿，而IVES通过合并多个蛋白质构象来提高准确性。与基准方法的性能比较表明GLOW和IVES的优越性。在交叉对接案例中，通过测试集评估正确位姿的百分比。对于有效的IVES来说，种子位姿质量至关重要，SMINA对接评分和用于选择的评分也很关键。 GLOW和IVES在准确采样配体位姿方面优于基准方法，在具有明显蛋白质构象变化的挑战性情景和AlphaFold基准测试中表现出色。对测试集的评估确认了它们正确采样的姿态的可能性更大。IVES通过生成多个蛋白质构象，在几个构象数上达到了与Schrodinger IFD-MD相媲美的几何深度学习性能。由GLOW和IVES生成的5000个蛋白质-配体对的配体位姿数据集提供了宝贵的资源，有助于开发和评估分子对接中基于深度学习的评分函数。 https://arxiv.org/abs/2312.00191 总之，GLOW和IVES是两种功能强大的位姿采样方法，相比基本技术，特别是在困难情景和AlphaFold基准测试中更加有效。IVES可以生成多个蛋白质构象，这对于几何深度学习非常有优势。此外，GLOW和IVES提供的数据集包含5000个蛋白质-配体对的配体位姿，是分子对接中基于深度学习的评分函数的研究人员的宝贵资源。

Leave a Comment

这篇人工智能论文调查了大型语言模型（LLMs）在医学中的作用：它们面临的挑战、原则和应用

Published December 17, 2023 by 四海吧

自然语言处理（NLP）在过去几个月里取得了长足的进步，尤其是引入了大型语言模型（LLM）。像GPT、PaLM、LLaMA等模型由于其在文本生成、摘要生成和问题回答等多种NLP任务方面的能力，已经获得了很大的流行度。研究人员一直致力于将LLM的力量用于医疗领域。医疗LLM包括ChatDoctor、MedAlpaca、PMC-LLaMA、BenTsao、MedPaLM和Clinical Camel，用于改善患者护理和支持医疗从业人员。尽管当前的医疗LLM已经显示出良好的结果，但仍然存在一些需要解决的挑战。许多模型忽视了类似对话和问答等临床环境中的生物医学NLP任务的实际价值。医疗LLM在诸如电子病历（EHR）、出院小结生成、健康教育和护理计划等临床情景中的潜力已成为最近努力的研究课题；然而，这些模型经常缺乏共同的评估数据集。另一个缺点是目前使用的大多数医疗LLMs仅根据其回答医疗问题的能力来评估候选人，忽视了其他重要的生物医学任务，如信息检索、文本生成、关系抽取和文本摘要。为了克服这些问题，一组研究人员在探索医疗LLM的不同方面时进行了一项研究，回答了以下五个主要问题。创建医疗LLMs：第一个问题旨在调查创建医疗LLMs的方法和因素。这包括理解创建这些模型背后的思想，以及它们的结构、训练集和其他相关要素。评估医疗LLMs在下游任务中的表现：第二个问题集中于评估医疗LLMs在实际情况下的实际结果或表现。这包括评估这些模型在真实世界情况下的表现，特别是在临床医学相关任务方面。在实际临床实践中使用医疗LLMs：第三个问题探讨了医疗LLMs在临床环境中的实际使用情况。这包括调查如何将这些模型纳入医疗从业人员的常规工作流程中，以改善沟通、决策和患者护理。应用医疗LLMs带来的问题：第四个问题认识到使用医疗LLMs存在障碍，就像使用任何其他技术一样。为了在医疗环境中负责任地和成功地实施这些模型，可能需要解决一些障碍，包括道德问题、模型中的潜在偏见和可解释性问题。成功构建和应用医疗LLMs：最后一个问题询问未来，以阐明改进医疗LLMs的设计和应用，以确保医疗LLMs继续成为医疗行业中有用的工具。总之，本调查广泛分析了医疗领域中的LLMs。它总结了从10种不同的生物医学活动中获得的评估，并详细概述了它们的应用。通过解决关键问题，该研究旨在提供对医疗LLMs的全面了解，鼓励更深入的分析、团队合作和医疗AI领域的更快发展。

Leave a Comment

NTU研究人员发布尊尚视频：先导性的文本引导潜隐扩散技术，提升视频超分辨率

Published December 17, 2023 by 四海吧

视频超分辨率旨在将低质量视频提升到高保真度，面临的挑战是解决现实世界场景中常见的多样化且复杂的退化问题。与以前关注合成或特定相机相关退化不同，该复杂性源于多个未知因素，如降采样、噪声、模糊、闪烁和视频压缩。虽然最近的基于CNN的模型在缓解这些问题方面显示出了希望，但由于有限的生成能力，它们在生成逼真纹理方面仍然存在局限性，导致过度平滑。本研究探讨了利用扩散模型来解决这些限制并增强视频超分辨率的方法。现实世界视频增强的复杂性要求采用超越传统方法的解决方案，以应对多方面的退化问题。尽管基于CNN的模型在缓解多种退化形式方面展示出实力，但它们的局限性在于生成逼真纹理，往往导致过度平滑的输出结果。扩散模型已成为一个希望的象征，在生成高质量图像和视频方面展示出令人印象深刻的能力。然而，将这些模型应用于视频超分辨率仍然是一个艰巨的挑战，原因是扩散采样中存在固有的随机性，导致低级纹理的时间不连续性和闪烁。为了应对这些挑战，本研究中的NTU研究人员采用了潜在扩散框架内的局部-全局时间一致性策略。在局部层面上，预训练的放大模型通过额外的时间层进行微调，整合了3D卷积和时间注意力层。这种微调显著提高了局部序列的结构稳定性，减少了纹理闪烁等问题。同时，一个新颖的流引导的循环潜在传播模块在全局层面上操作，通过逐帧传播和推断期间的潜在融合，确保了更长视频的整体稳定性。图1：AI生成和现实世界视频的超分辨率对比。建议的Upscale-A-Video展示了出色的放大性能。通过使用正确的文本提示，它以更多的视觉逼真度和更精细的细节呈现惊人的效果。本研究探索了创新的方向，通过引入文本提示来指导纹理生成，使模型能够产生更加逼真和高质量的细节。此外，将噪声注入输入可以增强模型对于重度或未知退化的鲁棒性，从而在恢复和生成之间实现控制。较低的噪声水平优先考虑恢复能力，而较高的噪声水平则鼓励更精细的细节生成，实现保真度和质量之间的权衡。主要贡献在于制定了一种强大的实际视频超分辨率方法，将局部-全局时间策略结合到隐藏扩散框架中。通过整合时间一致性机制和对噪声水平和文本提示的创新控制，模型在基准测试上表现出卓越的视觉逼真度和时间连贯性，展示出了最新技术水平。

Leave a Comment

这篇AI论文介绍了Perseus：一种开创性的框架，可将大规模机器学习和AI模型训练的能源浪费降低多达30％

Published December 17, 2023 by 四海吧

大型语言模型（例如 GPT-3）由于在训练和推理过程中的计算需求而需要大量能量。能源使用情况根据模型的大小、任务复杂性、硬件规格和操作持续时间等因素而存在显著差异。训练这些模型需要大量的计算资源，通常涉及高性能 GPU 或 TPU，导致长时间的大量能量消耗。估计训练像 GPT-3 这样的大型语言模型可能使用相当于多个家庭在几天或几周内消耗的电量。优化能源消耗至关重要，且需要在不降低模型效率的情况下进行。研究人员旨在减少大语言模型训练中没有吞吐量损失可以消除的能量消耗。分布式执行规划中，每个流水线阶段的计算量是一个重要问题。由于深度神经网络(DNN)是粗粒度的张量运算，计算量各不相同，因此平衡每个阶段是不可能的。密歇根大学和华盛顿大学的研究人员发现，在训练过程中，并非所有能量消耗都直接对整体训练吞吐量有贡献，可以大幅减少能量消耗而不会减缓训练速度。他们发现能量膨胀的内在和外在原因，并提出了一个名为“Perseus”的单一优化框架来最小化它们。内在能量膨胀的原因是计算不平衡，而外在能量膨胀是多个流水线并行运行，同步扩展到庞大的数据集进行训练。快于行动迟钝算法的流水线是快速的，浪费了不会影响整体训练吞吐量的能量。 Perseus以高效的方式预先表征整个迭代时间的能量，在正常操作条件下最小化内在能量膨胀。通过次优能量减少，它减轻了外在能量膨胀。它通过精确地减慢流水线中的计算来寻找非阻塞流水线的能量最优迭代时间。研究人员在各种强扩展配置中使用混合并行性来模拟训练大型模型的迟行者。他们测量了能量膨胀的数量和Perseus的外在能量节省。在计算完成后，其他非迟行者等待迟行者完成计算，导致外在能量膨胀。他们减少了微批次的数量和每个流水线迭代的开头和结尾的流水线气泡比例。这消除了内在能量膨胀，从而减少了能量消耗。将Perseus集成到训练工作流程中对人工智能发展的未来具有重要影响。他们的工作有潜力极大地增强LLM和GenAI的分布式训练的可持续性。

Leave a Comment

这篇AI论文通过深度学习探索大脑的蓝图：利用神经科学和snnTorch Python库教程推进神经网络

Published December 17, 2023 by 四海吧

神经科学和人工智能的交叉点已经取得了非凡的进展，尤其是通过开发一款名为”snnTorch”的开源Python库。这个创新性的代码模拟了受到大脑高效数据处理方法启发的尖峰神经网络，由加州圣克鲁兹大学的团队努力而来。在过去的四年里，该团队的Python库”snnTorch”取得了显著的发展，拥有超过10万次的下载量。它的应用不仅限于学术界，还广泛用于各种项目，包括NASA的卫星追踪工作和半导体公司的人工智能芯片优化。 IEEE会议的最新出版是对snnTorch编码库的文档化，也是一个为学生和对脑启发式人工智能感兴趣的编程爱好者量身定制的教育资源。这篇论文提供了对神经科学原则和深度学习方法相互融合的坦诚见解。 snnTorch开发团队强调尖峰神经网络的重要性，突出了它们模拟大脑高效信息处理机制的特点。他们的主要目标是将脑部的高效处理能力与人工智能的功能结合起来，从而发挥两个领域的优势。 snnTorch在大流行病期间作为一个激情项目而开始，是由团队对Python编码和优化计算芯片以提高功耗效率的渴望发起的。如今，snnTorch已成为全球许多编程项目中的基本工具，支持卫星追踪到芯片设计等各个领域的项目。 snnTorch的独特之处在于其代码以及与开发相伴的全面教育资源。团队的文档和可交互的编码材料已成为社区中宝贵的资产，为对神经形态工程和尖峰神经网络感兴趣的人提供了一个入门点。由团队撰写的IEEE论文是snnTorch代码的全面指南。这篇论文以非传统的代码块和有主见的叙述方式，真实地描绘了神经形态计算的未定性。它意在避免学生对编程决策的理论基础不完全理解而感到沮丧。除了作为教育资源的角色外，该论文还提供了沟通脑启发式学习机制和传统深度学习模型之间鸿沟的视角。研究人员深入探讨了将AI模型与大脑功能对齐的挑战，强调了神经网络中的实时学习和“一起发射、一起连线”这一有趣概念。此外，团队与加州圣克鲁兹大学的基因组学研究所合作，探索脑器官oid以揭示大脑信息处理的见解。这种合作象征着生物学和计算范式的交汇，有望通过snnTorch对器官oid的仿真能力在理解以脑为灵感的计算中迈出重要一步。研究人员的工作体现了合作精神，构建了多个领域之间的桥梁，推动脑启发式人工智能走向实际应用。通过繁荣的Discord和Slack频道专门讨论snnTorch，这一倡议继续促进产学合作，甚至影响着寻求精通snnTorch的工作描述。加州圣克鲁兹大学的团队在脑启发式人工智能方面迈出的开创性步伐预示着一个重塑深度学习、神经科学和计算范式的变革时代。

Leave a Comment

这篇AI论文介绍了一种突破性的方法，利用多视角视频对建模3D场景动态进行建模

Published December 17, 2023 by 四海吧

NVFi致力于解决理解和预测3D场景在时间上演变的复杂挑战，这对增强现实、游戏和电影制作等应用至关重要。虽然人类轻而易举地理解此类场景的物理学和几何学，但现有的计算模型难以从多视点视频中明确学习这些属性。核心问题在于现有方法（包括神经辐射场及其衍生品）不能根据学习到的物理规律提取和预测未来的运动。 NVFi的雄心是通过纯粹从多视点视频帧中派生出的分解速度场，来填补这一差距，这在以前的框架中尚未研究过。 3D场景的动态性给计算带来了深远的挑战。虽然神经辐射场的最新进展在插值观察时间范围内的视图方面表现出了非凡的能力，但它们无法学习到显式的物理特征，如物体速度。这种限制阻碍了它们准确预测未来运动模式的能力。目前的研究将物理学与神经表示结合起来，在重建场景几何、外观、速度和黏度场方面表现出了希望。然而，这些学习的物理属性通常与特定场景元素交织在一起，或者需要补充的前景分割掩码，限制了它们在场景之间的可转移性。 NVFi的开创性目标是解开和理解整个3D场景内的速度场，进一步扩展训练观察之外的预测能力。香港理工大学的研究人员引入了一个全面的框架NVFi，包括三个基本组成部分。首先，关键帧动态辐射场促进了对3D空间中每个点的时间相关体积密度和外观的学习。其次，帧间速度场捕获了每个点的时间相关3D速度。最后，由物理知识约束增强的关键帧和帧间元素的联合优化策略组织了训练过程。该框架采用现有的时间相关NeRF架构进行动态辐射场建模时具有灵活性，同时使用相对简单的神经网络（如MLP）进行速度场建模。其核心创新在于第三个组件，联合优化策略和特定的损失函数使得无需额外的物体特定信息或掩码，能够精确学习到分解速度场。 NVFi的创新之处在于它能够纯粹从多视角视频帧中对3D场景的动态进行建模，消除了对特定对象数据或掩码的需求。它精心关注于分解速度场，这是掌控场景运动动力学的关键，它为众多应用提供了关键。在多个数据集上，NVFi展示了它在推断未来帧、语义场景分解和不同场景之间速度传递方面的能力。这些实验验证证实了NVFi在各种实际应用场景中的适应性和优越性能表现。主要贡献和要点：引入NVFi，一种新颖的从多视角视频中建模动态3D场景的框架，无需先验对象信息。设计和实现了一个神经速度场，并结合联合优化策略进行有效的网络训练。成功展示了NVFi在各种数据集上的能力，展示了在未来帧预测、语义场景分解和场景间速度传递方面的优越性能。

Leave a Comment

彻底改变癌症诊断：深度学习如何准确识别和重新分类合并肝癌，以优化治疗决策

Published December 16, 2023 by 四海吧

原发性肝癌，包括肝细胞癌（HCC）和肝内胆管癌（ICCA），由于其独特的特点而带来了重大挑战。同时存在肝细胞-胆管癌混合型（cHCC-CCA），具有HCC和ICCA两者特征的患者，给临床诊断和管理带来了复杂度。这种罕见情况使得制定精确的治疗策略变得困难，从而导致不良的患者结果。为了解决这一难题，本研究探讨了人工智能（AI）在将cHCC-CCA肿瘤重新分类为纯HCC或ICCA方面的应用，旨在提供改进的预后评估和分子洞察力。作为肝癌的一种罕见亚型，cHCC-CCA由于其肝细胞和胆管的形态融合而令病理学家困扰。这种复杂的融合常常使得诊断具有挑战性，导致临床管理存在模糊性。此外，缺乏共识指南进一步复杂化了治疗决策。这种复杂性来自于HCC和ICCA之间的模糊界限，cHCC-CCA的遗传特征类似于这两种类型，引发了关于其分子特征的争议。该研究依赖于充分利用AI作为病理图像分析中的有力工具，以区分和潜在地重新分类cHCC-CCA肿瘤为HCC或ICCA。该研究旨在揭示这种分类是否与临床预后和分子遗传模式相一致，帮助更清晰地理解cHCC-CCA。来自全球各地的研究人员开展的这项研究采用了一个AI流程，该流程基于自监督特征提取器和基于注意力的聚合模型进行训练。这种AI框架旨在识别纯HCC和ICCA，并在发现组中展示了令人印象深刻的交叉验证接收器操作特征曲线下面积（AUROC）达到0.99，展示出两类之间的强大区分能力。随后对独立TCGA队列的验证进一步证实了模型的功效，实现了0.94的AUROC，标志着高度的泛化能力。值得注意的是，AI模型在强调类似ICCA表型的特征方面表现出很强的侧重，表明其能够识别细微的组织学细节。 AI模型在区分纯HCC和ICCA方面的能力促使我们进一步探索其在临床和分子方面的影响。这种区分为cHCC-CCA患者的精确定位和治疗个性化提供了新的可能性，可能弥合对该疾病治疗效果不佳的差距。此外，对ICCA类似特征的关注提示了模型捕捉到了细微的组织结构，与已知的ICCA的病理特征相吻合。这些发现强调了AI在指导更准确的诊断和cHCC-CCA预后标志上的潜力。论文的关键要点：诊断潜力：AI在将cHCC-CCA重新分类为HCC或ICCA的过程中表现出了潜在的诊断突破。临床意义：AI驱动的分类在指导cHCC-CCA患者个性化治疗策略和预测中具有潜力。分子洞察力：模型对类似ICCA的特征的关注提示其能够捕捉到微妙的组织结构，揭示了cHCC-CCA与已知肝癌类型之间的分子相似性。

Leave a Comment

这篇人工智能论文揭示了DeWave：用一种新的人工智能框架革新了EEG到文本翻译，为开放词汇BCI提供了革命性的方法

Published December 16, 2023 by 四海吧

悉尼科技大学（UTS）GrapheneX-UTS人本人工智能中心的研究人员已经开发出一种令人瞩目的系统，能够解码无声思维并将其转化为书面文字。这项技术在帮助那些因中风或瘫痪等情况而无法说话的人进行交流，并促进人与机器之间的改进互动方面具有潜在的应用。在新奥尔良的NeurIPS会议上作为焦点论文展示的研究团队介绍了一种便携式和非侵入性的系统。GrapheneX-UTS HAI中心的团队与悉尼科技大学工程与信息技术学院的成员合作，开发了一种将脑电信号转化为可理解文字内容的方法，而无需进行侵入性手术。在研究过程中，参与者戴着一顶装有电极的专用帽子，通过脑电图(EEG)记录脑部活动。捕获到的脑电图数据使用名为DeWave的AI模型进行处理，该模型由研究人员开发，将这些脑电信号转化为可理解的单词和句子。研究人员强调了这种创新在将原始脑电波直接转化为语言上的重要性，突出了离散编码技术在脑到文字翻译过程中的整合。这种方法在神经科学和人工智能领域开辟了新的可能性。与以往需要侵入性手术如脑植入物或核磁共振成像机使用的技术不同，该团队的系统提供了一种非侵入性和实用的替代方案。重要的是，它不依赖于眼动跟踪，使其在日常使用中更具适应性。该研究涉及29名参与者，相比过去仅限于一两个个体的研究，确保了更高水平的鲁棒性和适应性。虽然使用帽子收集脑电信号会引入噪声，但研究报告显示在脑电翻译方面表现出色，超过了先前的基准。团队强调了该模型在匹配动词而非名词方面的熟练程度。然而，在解析名词时，系统显示出倾向于同义词对而不是完全翻译的趋势。研究人员解释说，在处理单词时，语义上相似的词可能会引发类似的脑电波模式。目前的翻译准确性，以BLEU-1分数衡量，约为40%。研究人员的目标是将这个得分提高到与传统语言翻译或语音识别程序相媲美的水平，这些程序通常可以达到约90%的准确性水平。这项研究基于UTS在脑机接口技术方面的先前进展，表明它对于改变之前受到身体限制影响的个体的交流途径有着巨大的潜力。这项研究的发现为将思维无缝转化为文字提供了希望，为面对交流障碍的个体提供了力量，并促进了更好的人机交互。

Leave a Comment

中国的这篇AI论文介绍了UniRepLKNet：在图像、音频和时序数据分析中开创性地引入大核心ConvNet架构，以提高跨模态性能

Published December 16, 2023 by 四海吧

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-1024×689.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-150×150.png” /><p>近年来，卷积神经网络（CNNs）在图像识别领域成为了一种流行的技术。它们在目标检测、分类和分割任务中取得了极高的成功。然而，随着这些网络变得更加复杂，也出现了新的挑战。来自腾讯人工智能实验室和香港中文大学的研究人员提出了四条指导方针，以解决大内核CNNs中的架构挑战。这些指导方针旨在通过将大内核的应用扩展到超越视觉任务的领域，如时间序列预测和音频识别，以提高图像识别的效果。</p><p>UniRepLKNet探索了具有非常大内核的ConvNets的功效，将其扩展到点云数据、时间序列预测、音频和视频识别等领域。尽管以前的研究以不同的方式引入了大内核，但UniRepLKNet专注于使用这些内核的ConvNets的架构设计。它在三维模式学习、时间序列预测和音频识别方面优于专门模型。尽管视频识别精度略低于技术模型，但UniRepLKNet是一个从头开始训练的通用模型，提供了在各种领域中的多功能性。</p><p>UniRepLKNet引入了用于具有大内核ConvNets的架构指南，强调宽广的覆盖面而不过度深入细节。这些指导方针解决了Vision Transformers（ViTs）的局限性，专注于高效的结构、重新参数化卷积层、基于任务的内核大小和整合3×3卷积层。UniRepLKNet在图像识别方面优于现有的大内核ConvNets和近期架构，展示了其高效性和准确性。它在超越视觉的任务中展示了普遍的感知能力，在时间序列预测和音频识别方面表现出色。UniRepLKNet展示了在学习点云数据中的三维模式上的多才多艺，超过了专门的ConvNet模型。</p><p>该研究为大内核ConvNets引入了四条架构指南，强调大内核的独特特性。UniRepLKNet遵循这些指南，利用大内核在图像识别中超越竞争对手。它展示了普遍的感知能力，在时间序列预测和音频识别方面表现出色，而无需特定的自定义。UniRepLKNet在学习点云数据中的三维模式方面也显示出多样性，超过了专门的ConvNet模型。引入了膨胀再参数块以增强非膨胀大内核卷积层的性能。UniRepLKNet的架构将大内核与膨胀卷积层相结合，捕捉小尺度和稀疏模式以提高特征质量。</p><p>UniRepLKNet的架构在图像识别任务中取得了一流的性能，具有88.0％的ImageNet准确率，55.6％的ADE20K mIoU和56.4％的COCO box AP。在全球温度和风速预测挑战中，它在时间序列预测和音频识别方面的MSE和MAE方面优于竞争对手，展示了其普遍的感知能力。UniRepLKNet在学习点云数据中的三维模式方面表现出色，超过了专门的ConvNet模型。该模型在语义分割等下游任务中展示出有希望的结果，证实了其在各个领域中的卓越性能和效率。</p><p>总之，研究的要点可以概括如下：</p><ul><li>该研究为大内核ConvNets引入了四条架构指南</li><li>这些指导方针强调了大内核ConvNets的独特特性</li><li>UniRepLKNet是根据这些指导方针设计的ConvNet模型，在图像识别任务中优于竞争对手</li><li>UniRepLKNet展示了普遍的感知能力，在时间序列预测和音频识别方面表现出色，无需定制</li><li>UniRepLKNet在学习点云数据中的三维模式方面具有多样性，超过了专门的模型</li><li>该研究引入了膨胀再参数块，增强大内核卷积层的性能</li><li>该研究提供了宝贵的架构指南，介绍了UniRepLKNet及其能力，并提出了膨胀再参数块的概念</li></ul>

Leave a Comment

苹果研究人员揭开了DeepPCR，这是一种创新的机器学习算法，可以并行化通常顺序进行的操作，以加速神经网络的推理和训练

Published December 16, 2023 by 四海吧

“` 由于人工智能和深度学习在领域的进步，许多新的创新成为可能。借助神经网络的帮助，如文本或图像合成，分割和分类等复杂任务得到了成功处理。然而，由于计算需求的原因，神经网络训练可能需要几天甚至几周来获得充分的结果。预训练模型的推理有时也很慢，特别对于复杂的设计。并行化技术可以加快深度神经网络的训练和推理。尽管这些方法被广泛使用，但神经网络中的某些操作仍然是按顺序进行的。扩散模型通过一系列去噪阶段生成输出，正向和反向传递逐层进行。随着步骤数的增加，这些过程的顺序执行变得计算代价高昂，可能导致计算瓶颈。为了解决这个问题，苹果公司的研究人员提出了DeepPCR，一种独特的算法，旨在加快神经网络的训练和推理。DeepPCR通过将一系列L个步骤视为一组方程的答案来执行。该团队采用了并行循环消减（PCR）算法来提取此解决方案。将顺序处理的计算成本从O（L）降低到O（log2 L）是DeepPCR的主要优势。减少复杂性后的速度加快，尤其是对于高值的情况。团队进行了实验，以验证关于DeepPCR降低复杂性的理论断言，并确定加速的条件。通过将DeepPCR应用于多层感知机的前向传递和后向传递并行化，他们实现了前向传递速度提升30倍，后向传递速度提升200倍。团队还通过使用DeepPCR来训练具有1024层的ResNets展示了DeepPCR的适应性。由于DeepPCR的使用，训练速度可以提高多达7倍。该技术用于扩散模型的生成阶段，相比顺序方法，生成速度提高了11倍。团队总结了他们的主要贡献如下：引入了DeepPCR，这是一种创新的方法，用于并行化神经网络的序列处理，其主要特点是能够将计算复杂性从O（L）降低到O（log2 L），其中L是序列长度。使用DeepPCR并行化多层感知机（MLP）的前向传递和后向传递。对技术性能进行了全面分析，同时考虑了基本设计参数，以确定方法的高性能区域。该研究还调查了速度，解决方案的正确性和内存使用之间的权衡。使用DeepPCR加速了在MNIST上训练的深度ResNet和在MNIST、CIFAR-10和CelebA数据集上训练的扩散模型的生成。结果表明，尽管DeepPCR显示了显着的加速，对于ResNet的训练速度提高了7倍，对于扩散模型的生成速度提高了11倍，但仍产生与顺序技术相媲美的结果。 “`

Leave a Comment

青少年推动扩大人工智能素养

Published December 15, 2023 by 四海吧

一些青少年要求他们的学校提供更广泛的人工智能学习经验

Continue reading

Leave a Comment

卡尔斯鲁厄理工学院（KIT）的研究人员利用深度学习提高了降水映射的空间和时间分辨率

Published December 15, 2023 by 四海吧

由于气候变化，极端天气，特别是暴雨事件预计会更频繁。许多自然灾害，如洪水或山体滑坡，直接由极端降水引起。基于气候预测的模型经常被使用。现有的气候模型必须提高准确代表高度变化的大气现象的能力。研究人员预计，不断增长的平均温度将导致极端降水事件进一步增加。卡尔斯鲁厄理工学院（KIT）的研究人员利用人工智能（AI）的力量来提高全球气候模型生成的粗糙降水图的精确性。研究人员强调，该模型将降水场的时间分辨率从一小时缩短到十分钟，并将空间分辨率从32提高到两千米。他们表示，更高的分辨率对于预测未来发生的局部暴雨事件和随之而来的自然灾害至关重要。该方法涉及应用生成式神经网络，具体而言就是生成对抗网络（GAN），这是一种AI形式。这个GAN使用高分辨率雷达降水数据进行训练，使其能够以显著更高的空间和时间分辨率学习和模仿逼真的降水场。现有的全球气候模型使用的网格缺乏捕捉降水变异性所需的细节。而且，传统上生成高分辨率的降水图需要计算上昂贵的模型，导致了空间或时间上的限制。根据研究人员的说法，这就是开发基于高分辨率雷达降水场进行训练的GAN的原因。通过这种方式，GAN从粗略解决的数据中学习如何生成逼真的降水场并确定其时间序列。与三线性插值和经典卷积神经网络相比，生成模型以高技巧重建分辨率相关的极值分布。在15 mm h−1降雨强度上表现出0.6的高分数技巧得分和3.35％的低相对偏差。根据研究人员的解释，他们的方法产生了多种可能的降水场解集合。这一点很重要，因为对于每个粗糙解决的降水场，存在许多在物理上可能的高分辨率解。他们解释说，使用这种方法模拟的降水事件更高的分辨率将有助于更好地估计2021年阿尔河洪水天气条件在2度更温暖的世界中所造成的影响。总之，该模型提供了一种增强全球气候模型预测降水精度的解决方案。这一进展有助于更准确的气候预测。它有潜力在变化的气候下更好地理解和应对极端天气事件的后果。

Leave a Comment

使用稳定扩散生成超真实脸部的三种方法

Published December 15, 2023 by 四海吧

你学会了如何使用基本模型生成图像，如何升级到稳定的Diffusion XL模型以提高图像质量，以及如何使用自定义模型生成高质量肖像

Continue reading

Leave a Comment

微软人工智能团队推出Phi-2：一个具有杰出推理和语言理解能力的2.7B参数小语言模型

Published December 15, 2023 by 四海吧

语言模型的发展一直以来都是在大模型能够拥有更高性能的前提下进行的。然而，打破这一既定信念，微软研究院的机器学习基础团队的研究人员推出了参数为27亿的全新语言模型Phi-2，这一模型正颠覆着长期主导这一领域的传统扩展规则，挑战了“模型大小决定语言处理能力”的普遍观念。这项研究打破了关于超卓性能必须依赖更大模型的普遍假设。研究人员将Phi-2引入视为范式转变，超越常规。文章揭示了Phi-2的独特特点以及其开发中采用的创新方法。Phi-2摒弃常规方法，依赖精心策划的高质量训练数据，并利用较小模型的知识传递，对语言模型扩展的既定规则构成了巨大挑战。 Phi-2方法的核心在于两项关键性发现。首先，研究人员强调了训练数据质量的重要作用，使用“教科书级”数据精心设计，使模型获得推理、知识和常识的能力。其次，采用创新技术实现了模型洞察力的高效扩展，从13亿参数的Phi-1.5开始。文章深入探讨了Phi-2的架构，这是一个基于Transformer的模型，以下一个单词预测为目标，在合成和网络数据集上进行训练。令人惊讶的是，尽管规模较小，Phi-2在各种基准测试中超越了更大的模型，突显了其高效性和出色能力。总之，来自微软研究院的研究人员将Phi-2推崇为语言模型发展中的一股变革力量。这一模型不仅挑战了，而且成功推翻了业界对模型能力与大小本质相关的长期信念。这种范式转变鼓励了新的视角和研究方向，强调了不完全遵循常规扩展规则时所能实现的高效性。Phi-2独特的高质量训练数据和创新的扩展技术，标志着自然语言处理迈向前沿，并为未来带来了新的可能性和更安全的语言模型。本文首发于Microsoft AI团队推出Phi-2：一个参数为27亿的小型语言模型，展示出卓越的推理和语言理解能力，转载请注明出处。

Leave a Comment

如何使用开源工具像专业人士一样克隆声音和视频口型同步

Published December 15, 2023 by 四海吧

介绍 AI语音克隆风靡社交媒体。它开启了创造性的无限可能。你肯定在社交媒体上看过名人梗或AI语音配音。你想知道它是如何完成的吗？当然，许多平台提供像Eleven Labs这样的API，但我们能否免费使用开源软件来实现呢？答案是肯定的。开源界有TTS模型和嘴唇同步工具，用于实现语音合成。因此，在本文中，我们将探索用于语音克隆和嘴唇同步的开源工具和模型。学习目标探索用于AI语音克隆和嘴唇同步的开源工具。使用FFmpeg和Whisper转录视频。使用Coqui-AI的xTTS模型进行语音克隆。使用Wav2Lip进行视频嘴唇同步。探索该技术的实际用例。本文作为数据科学博客马拉松中的一部分发表。开源栈正如你已经了解的，我们将使用OpenAI的 Whisper，FFmpeg，Coqui-ai的xTTS模型和Wav2lip作为我们的技术栈。但在深入代码之前，让我们简要讨论一下这些工具。同时感谢这些项目的作者。 Whisper：Whisper是OpenAI的自动语音识别（ASR）模型。它是一个使用超过650k小时的各种音频数据和相应转录进行训练的编码器-解码器变压器模型。这使其在多语言转录方面非常强大。编码器接收音频段的对数梅尔频谱图，每个编码器块使用自注意力机制来理解音频信号的不同部分。解码器然后接收编码器的隐藏状态信息和学习的位置编码。解码器使用自注意力机制和跨注意力机制预测下一个标记。最终，它输出代表识别文本的一系列标记。有关Whisper的更多信息，请参考官方存储库。 Coqui TTS：TTS是Coqui-ai的开源库。它包含多个文本到语音模型。它具有端到端模型，如Bark、Tortoise和xTTS，频谱图模型如Glow-TTS、FastSpeech等，以及声码器如Hifi-GAN、MelGAN等。此外，它提供了一个统一的API用于推断、微调和训练文本到语音模型。在这个项目中，我们将使用xTTS，一个端到端的多语言语音克隆模型。它支持16种语言，包括英语、日语、印地语、普通话等。有关TTS的更多信息，请参考官方TTS存储库。 Wav2Lip：Wav2Lip是一个用于“A Lip Sync Expert Is All You Need for…

Continue reading

Leave a Comment

CMU研究人员揭示了RoboTool：一种能够接受自然语言指令并输出可用于控制模拟和真实环境中机器人的可执行代码的AI系统

Published December 15, 2023 by 四海吧

来自卡内基梅隆大学和Google DeepMind的研究人员合作开发了RoboTool，这是一个利用大型语言模型（LLM）的系统，赋予机器人在涉及隐性物理约束和长期规划的任务中创造性地使用工具的能力。该系统包括四个关键组成部分：用于解释自然语言的分析器用于生成策略的规划器用于计算参数的计算器用于将计划转化为可执行的Python代码的编码器使用GPT-4，RoboTool旨在为复杂的机器人任务提供比传统的任务与动作规划方法更灵活、高效和用户友好的解决方案。该研究解决了机器人创造性使用工具的挑战，类似于动物在使用工具方面展示智能的方式。它强调机器人不仅要为其预定目的使用工具，还要以创造性和非常规的方式使用工具，以提供灵活的解决方案。传统的任务与动作规划（TAMP）方法需要在处理具有隐性约束的任务时进行修订，并且往往计算代价高昂。大型语言模型（LLM）在编码有益于机器人任务的知识方面显示出潜力。该研究引入了一个用于评估创造性工具使用能力的基准，包括工具选择、顺序工具使用和制造。所提出的RoboTool在模拟和真实环境中进行评估，展示了在没有创造性工具使用的情况下将会具有挑战性的任务处理能力。该系统的成功率超过了基准方法，展示了其在解决具有隐性约束的复杂、长期规划任务方面的效果。通过计算3种类型的错误进行评估：工具使用错误，指示是否使用了正确的工具逻辑错误，关注规划错误，如按错误的顺序使用工具或忽略提供的约束数值错误，包括计算错误的目标位置或添加错误的偏移量没有分析器的RoboTool显示出使用分析器的工具使用错误较大，没有计算器的RoboTool在与RoboTool相比的情况下有较大的数值错误，展示了它们在模型中的作用。该研究展示了RoboTool在各种任务中的成就，例如在沙发之间穿越间隙、到达放置在机器人工作区域外的物体以及创造性地使用工具超出其传统功能。该系统利用LLMs对对象属性和人类常识的知识来识别关键概念和推理三维物理世界。在与机械臂和四足机器人的实验中，RoboTool展示了创造性的工具使用行为，包括即兴创作、顺序工具使用和工具制造。尽管在模拟中实现了与或超过基准方法相当的成功率，但其在真实环境中的表现受到感知错误和执行错误的轻微影响。总之，由LLMs驱动的RoboTool是一个具有创造性的机器人工具用户，能够解决长期规划问题并具有隐性物理约束。该系统能够识别关键概念、生成创造性计划、计算参数和生成可执行代码，有助于其在处理需要创造性工具使用的复杂机器人任务方面取得成功。

Leave a Comment

Web Analytics