Press "Enter" to skip to content

6431 search results for "AI"

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

这篇AI论文提出了一种不需要已知摄像机参数的COLMAP-Free 3D高斯飞溅(CF3DGS)方法,用于新视角合成

神经渲染的进展在重建场景和生成新视点方面取得了显着突破。然而,其有效性很大程度上取决于相机姿态的精确预计算。为了减少这个问题,许多努力已经被做出来,以无需预计算相机姿态来训练神经辐射场(NeRFs)。然而,NeRFs的隐式表示使得同时优化3D结构和相机姿态变得困难。 来自UC San Diego、NVIDIA和UC Berkeley的研究人员引入了COLMAP-Free 3D Gaussian Splatting(CF-3DGS),它增强了两个关键要素:从视频中的时间连续性和显式的点云表示。CF-3DGS不是一次优化所有帧,而是以连续的形式构建场景的3D高斯,随着摄像机的移动,逐个“增长”一个结构。CF-3DGS为每个帧提取一个局部3D高斯集,并维护整个场景的全局3D高斯集。 https://arxiv.org/abs/2312.07504 使用不同的3D场景表示来生成真实的图像,包括平面、网格、点云和多平面图像。由于其出色的逼真渲染能力,NeRFs(神经辐射场)在该领域中备受关注。3DGS(三维高斯喷溅)方法利用纯显式表示和差分点基喷溅方法实现对视图的实时渲染。 CF-3DGS合成未知相机参数的视图。它同时优化3D高斯喷溅(3DGS)和相机姿态。它使用局部3DGS方法从附近帧中估计相对相机姿态,使用全局3DGS过程从未观察到的视图中逐步扩展3D高斯。CF-3DGS利用显式的点云来表示场景,并利用视频流中的连续性。它按顺序处理输入帧,逐步扩展3D高斯以重建场景。这种方法实现了快速训练和推理速度。 https://arxiv.org/abs/2312.07504 CF-3DGS方法在姿态估计和新视图合成的稳健性方面优于先前最先进的方法。该方法在CO3D视频上进行验证,这些视频呈现了更复杂和具有挑战性的相机移动,并且在视图合成质量方面胜过了Nope-NeRF方法。该方法在CO3D V2数据集上的相机姿态估计的所有指标上一直超过Nope-NeRFe,表明它在估计相机姿态方面的稳健性和准确性,尤其是在具有复杂相机移动的场景中。 综上所述,CF-3DGS是一种有效且稳健的方法,利用视频的时间连续性和显式点云表示合成视图,无需进行结构运动(SfM)预处理。它同时优化相机姿态和3DGS,主要适用于视频流或有序图像集合。它还具有未来扩展的潜力,以适应无序图像集合。

Leave a Comment

全球通用模型:Runway AI研究启动新的长期研究工作

“`html 世界模型是一种旨在构建对环境的内部了解并利用这些知识来预测该空间内未来事件的人工智能系统。研究人员主要在受控环境中测试这些世界模型,如视频游戏或特定任务,例如驾驶。最终目标是雄心勃勃的 – 创建可以处理遇到的各种情况的模型,这些情况在不可预测的现实世界中发生。 早期尝试创建这种系统的一个例子是Gen-2视频生成系统。它就像一个初入行的艺术家,试图制作展示基本物体运动理解的短视频。然而,它在更复杂的任务中有困难,对于涉及快速相机移动或复杂物体行为的情景挣扎不已。这揭示了当前世界模型的局限性,促使研究人员深入研究和改进这些系统。 构建有效的世界模型之路面临着几个挑战。一个关键方面是这些模型需要生成准确一致的环境地图。它不仅仅是识别运动,还要在给定空间内进行导航和互动。此外,这些模型不仅必须理解世界的动态,还必须理解和模拟其居民的行为,包括真实的人类行为。这个多方面的挑战需要不断的研究和创新。 研究人员正在积极努力克服这些挑战,致力于增强世界模型的适应性和能力。就像升级视频游戏中的角色一样 – 这些模型需要在生成可靠的地图和在不同复杂情景中进行导航时进行升级。目标是使它们具备处理现实世界的不可预测性的能力。 为了衡量这些世界模型的有效性,研究人员采用了一些度量标准。这些度量标准衡量了模型生成一致准确地图的能力,其在不同环境中导航的熟练程度以及其对人类行为的逼真模拟。这些可量化的测量方法作为基准,让研究人员评估这些不断发展的世界模型的进展和能力。 总之,开发通用世界模型是一个充满挑战和令人兴奋前景的持续过程。随着研究人员不断完善这些模型,承诺在各种现实情景中进行更好的模拟和预测。这些模型的演变不仅推动了人工智能能力的界限,还有可能深入理解复杂环境并改进人工智能与我们的动态世界的互动。 The post General World Models: Runway AI Research Starting a New Long-Term Research Effort…

Leave a Comment

这篇AI论文介绍了Perseus:一种开创性的框架,可将大规模机器学习和AI模型训练的能源浪费降低多达30%

大型语言模型(例如 GPT-3)由于在训练和推理过程中的计算需求而需要大量能量。能源使用情况根据模型的大小、任务复杂性、硬件规格和操作持续时间等因素而存在显著差异。 训练这些模型需要大量的计算资源,通常涉及高性能 GPU 或 TPU,导致长时间的大量能量消耗。估计训练像 GPT-3 这样的大型语言模型可能使用相当于多个家庭在几天或几周内消耗的电量。 优化能源消耗至关重要,且需要在不降低模型效率的情况下进行。研究人员旨在减少大语言模型训练中没有吞吐量损失可以消除的能量消耗。分布式执行规划中,每个流水线阶段的计算量是一个重要问题。由于深度神经网络(DNN)是粗粒度的张量运算,计算量各不相同,因此平衡每个阶段是不可能的。 密歇根大学和华盛顿大学的研究人员发现,在训练过程中,并非所有能量消耗都直接对整体训练吞吐量有贡献,可以大幅减少能量消耗而不会减缓训练速度。他们发现能量膨胀的内在和外在原因,并提出了一个名为“Perseus”的单一优化框架来最小化它们。 内在能量膨胀的原因是计算不平衡,而外在能量膨胀是多个流水线并行运行,同步扩展到庞大的数据集进行训练。快于行动迟钝算法的流水线是快速的,浪费了不会影响整体训练吞吐量的能量。 Perseus以高效的方式预先表征整个迭代时间的能量,在正常操作条件下最小化内在能量膨胀。通过次优能量减少,它减轻了外在能量膨胀。它通过精确地减慢流水线中的计算来寻找非阻塞流水线的能量最优迭代时间。 研究人员在各种强扩展配置中使用混合并行性来模拟训练大型模型的迟行者。他们测量了能量膨胀的数量和Perseus的外在能量节省。在计算完成后,其他非迟行者等待迟行者完成计算,导致外在能量膨胀。他们减少了微批次的数量和每个流水线迭代的开头和结尾的流水线气泡比例。这消除了内在能量膨胀,从而减少了能量消耗。 将Perseus集成到训练工作流程中对人工智能发展的未来具有重要影响。他们的工作有潜力极大地增强LLM和GenAI的分布式训练的可持续性。

Leave a Comment

公开演讲的5个最佳AI工具(2023年12月)

在人工智能领域,AI工具在公共演讲中的应用标志着一项重大进展这些工具为提升演讲技巧、解决演讲者在各个层次上面临的常见挑战提供了实用解决方案通过利用AI技术,这些工具能够提供有价值的洞察力,帮助演讲者改善语言表达、组织内容和吸引观众我们在这方面的探索[…]

Leave a Comment

这篇AI论文通过深度学习探索大脑的蓝图:利用神经科学和snnTorch Python库教程推进神经网络

神经科学和人工智能的交叉点已经取得了非凡的进展,尤其是通过开发一款名为”snnTorch”的开源Python库。这个创新性的代码模拟了受到大脑高效数据处理方法启发的尖峰神经网络,由加州圣克鲁兹大学的团队努力而来。 在过去的四年里,该团队的Python库”snnTorch”取得了显著的发展,拥有超过10万次的下载量。它的应用不仅限于学术界,还广泛用于各种项目,包括NASA的卫星追踪工作和半导体公司的人工智能芯片优化。 IEEE会议的最新出版是对snnTorch编码库的文档化,也是一个为学生和对脑启发式人工智能感兴趣的编程爱好者量身定制的教育资源。这篇论文提供了对神经科学原则和深度学习方法相互融合的坦诚见解。 snnTorch开发团队强调尖峰神经网络的重要性,突出了它们模拟大脑高效信息处理机制的特点。他们的主要目标是将脑部的高效处理能力与人工智能的功能结合起来,从而发挥两个领域的优势。 snnTorch在大流行病期间作为一个激情项目而开始,是由团队对Python编码和优化计算芯片以提高功耗效率的渴望发起的。如今,snnTorch已成为全球许多编程项目中的基本工具,支持卫星追踪到芯片设计等各个领域的项目。 snnTorch的独特之处在于其代码以及与开发相伴的全面教育资源。团队的文档和可交互的编码材料已成为社区中宝贵的资产,为对神经形态工程和尖峰神经网络感兴趣的人提供了一个入门点。 由团队撰写的IEEE论文是snnTorch代码的全面指南。这篇论文以非传统的代码块和有主见的叙述方式,真实地描绘了神经形态计算的未定性。它意在避免学生对编程决策的理论基础不完全理解而感到沮丧。 除了作为教育资源的角色外,该论文还提供了沟通脑启发式学习机制和传统深度学习模型之间鸿沟的视角。研究人员深入探讨了将AI模型与大脑功能对齐的挑战,强调了神经网络中的实时学习和“一起发射、一起连线”这一有趣概念。 此外,团队与加州圣克鲁兹大学的基因组学研究所合作,探索脑器官oid以揭示大脑信息处理的见解。这种合作象征着生物学和计算范式的交汇,有望通过snnTorch对器官oid的仿真能力在理解以脑为灵感的计算中迈出重要一步。 研究人员的工作体现了合作精神,构建了多个领域之间的桥梁,推动脑启发式人工智能走向实际应用。通过繁荣的Discord和Slack频道专门讨论snnTorch,这一倡议继续促进产学合作,甚至影响着寻求精通snnTorch的工作描述。 加州圣克鲁兹大学的团队在脑启发式人工智能方面迈出的开创性步伐预示着一个重塑深度学习、神经科学和计算范式的变革时代。

Leave a Comment

这篇AI论文介绍了一种突破性的方法,利用多视角视频对建模3D场景动态进行建模

NVFi致力于解决理解和预测3D场景在时间上演变的复杂挑战,这对增强现实、游戏和电影制作等应用至关重要。虽然人类轻而易举地理解此类场景的物理学和几何学,但现有的计算模型难以从多视点视频中明确学习这些属性。核心问题在于现有方法(包括神经辐射场及其衍生品)不能根据学习到的物理规律提取和预测未来的运动。 NVFi的雄心是通过纯粹从多视点视频帧中派生出的分解速度场,来填补这一差距,这在以前的框架中尚未研究过。 3D场景的动态性给计算带来了深远的挑战。虽然神经辐射场的最新进展在插值观察时间范围内的视图方面表现出了非凡的能力,但它们无法学习到显式的物理特征,如物体速度。这种限制阻碍了它们准确预测未来运动模式的能力。目前的研究将物理学与神经表示结合起来,在重建场景几何、外观、速度和黏度场方面表现出了希望。然而,这些学习的物理属性通常与特定场景元素交织在一起,或者需要补充的前景分割掩码,限制了它们在场景之间的可转移性。 NVFi的开创性目标是解开和理解整个3D场景内的速度场,进一步扩展训练观察之外的预测能力。 香港理工大学的研究人员引入了一个全面的框架NVFi,包括三个基本组成部分。首先,关键帧动态辐射场促进了对3D空间中每个点的时间相关体积密度和外观的学习。其次,帧间速度场捕获了每个点的时间相关3D速度。最后,由物理知识约束增强的关键帧和帧间元素的联合优化策略组织了训练过程。该框架采用现有的时间相关NeRF架构进行动态辐射场建模时具有灵活性,同时使用相对简单的神经网络(如MLP)进行速度场建模。其核心创新在于第三个组件,联合优化策略和特定的损失函数使得无需额外的物体特定信息或掩码,能够精确学习到分解速度场。 NVFi的创新之处在于它能够纯粹从多视角视频帧中对3D场景的动态进行建模,消除了对特定对象数据或掩码的需求。它精心关注于分解速度场,这是掌控场景运动动力学的关键,它为众多应用提供了关键。在多个数据集上,NVFi展示了它在推断未来帧、语义场景分解和不同场景之间速度传递方面的能力。这些实验验证证实了NVFi在各种实际应用场景中的适应性和优越性能表现。 主要贡献和要点: 引入NVFi,一种新颖的从多视角视频中建模动态3D场景的框架,无需先验对象信息。 设计和实现了一个神经速度场,并结合联合优化策略进行有效的网络训练。 成功展示了NVFi在各种数据集上的能力,展示了在未来帧预测、语义场景分解和场景间速度传递方面的优越性能。

Leave a Comment

中国的这篇AI论文介绍了UniRepLKNet:在图像、音频和时序数据分析中开创性地引入大核心ConvNet架构,以提高跨模态性能

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-1024×689.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-150×150.png” /><p>近年来,卷积神经网络(CNNs)在图像识别领域成为了一种流行的技术。它们在目标检测、分类和分割任务中取得了极高的成功。然而,随着这些网络变得更加复杂,也出现了新的挑战。来自腾讯人工智能实验室和香港中文大学的研究人员提出了四条指导方针,以解决大内核CNNs中的架构挑战。这些指导方针旨在通过将大内核的应用扩展到超越视觉任务的领域,如时间序列预测和音频识别,以提高图像识别的效果。</p><p>UniRepLKNet探索了具有非常大内核的ConvNets的功效,将其扩展到点云数据、时间序列预测、音频和视频识别等领域。尽管以前的研究以不同的方式引入了大内核,但UniRepLKNet专注于使用这些内核的ConvNets的架构设计。它在三维模式学习、时间序列预测和音频识别方面优于专门模型。尽管视频识别精度略低于技术模型,但UniRepLKNet是一个从头开始训练的通用模型,提供了在各种领域中的多功能性。</p><p>UniRepLKNet引入了用于具有大内核ConvNets的架构指南,强调宽广的覆盖面而不过度深入细节。这些指导方针解决了Vision Transformers(ViTs)的局限性,专注于高效的结构、重新参数化卷积层、基于任务的内核大小和整合3×3卷积层。UniRepLKNet在图像识别方面优于现有的大内核ConvNets和近期架构,展示了其高效性和准确性。它在超越视觉的任务中展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色。UniRepLKNet展示了在学习点云数据中的三维模式上的多才多艺,超过了专门的ConvNet模型。</p><p>该研究为大内核ConvNets引入了四条架构指南,强调大内核的独特特性。UniRepLKNet遵循这些指南,利用大内核在图像识别中超越竞争对手。它展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色,而无需特定的自定义。UniRepLKNet在学习点云数据中的三维模式方面也显示出多样性,超过了专门的ConvNet模型。引入了膨胀再参数块以增强非膨胀大内核卷积层的性能。UniRepLKNet的架构将大内核与膨胀卷积层相结合,捕捉小尺度和稀疏模式以提高特征质量。</p><p>UniRepLKNet的架构在图像识别任务中取得了一流的性能,具有88.0%的ImageNet准确率,55.6%的ADE20K mIoU和56.4%的COCO box AP。在全球温度和风速预测挑战中,它在时间序列预测和音频识别方面的MSE和MAE方面优于竞争对手,展示了其普遍的感知能力。UniRepLKNet在学习点云数据中的三维模式方面表现出色,超过了专门的ConvNet模型。该模型在语义分割等下游任务中展示出有希望的结果,证实了其在各个领域中的卓越性能和效率。</p><p>总之,研究的要点可以概括如下:</p><ul><li>该研究为大内核ConvNets引入了四条架构指南</li><li>这些指导方针强调了大内核ConvNets的独特特性</li><li>UniRepLKNet是根据这些指导方针设计的ConvNet模型,在图像识别任务中优于竞争对手</li><li>UniRepLKNet展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色,无需定制</li><li>UniRepLKNet在学习点云数据中的三维模式方面具有多样性,超过了专门的模型</li><li>该研究引入了膨胀再参数块,增强大内核卷积层的性能</li><li>该研究提供了宝贵的架构指南,介绍了UniRepLKNet及其能力,并提出了膨胀再参数块的概念</li></ul>

Leave a Comment

OpenAI的迷你AI指令的巨人:解析超对齐!

在解决超人工智能(AI)即将面临的挑战方面迈出了重要的一步,OpenAI推出了一项新的研究方向——弱到强的泛化。这一创新性的方法旨在探索较小的AI模型是否能够有效地监督和控制更大、更复杂的模型,这在他们最近的研究论文《从弱到强的泛化》中有所描述。 超对齐问题 随着人工智能的迅速发展,未来十年内开发超级智能系统的前景引起了重要关切。OpenAI的超对齐团队认识到需要解决将超人工智能与人类价值对齐的挑战的紧迫性,这一点在他们全面的研究论文中有所讨论。 目前的对齐方法 现有的对齐方法,如强化学习反馈(RLHF),严重依赖于人类监督。然而,随着超人工智能模型的出现,“弱监督者”人类的不足变得更加明显。AI系统产生大量新颖而复杂的代码的潜力对传统的对齐方法构成了重大挑战,这在OpenAI的研究中得到了强调。 实证设置 OpenAI提出了一个有说服力的比喻来解决对齐挑战:一个较小、能力较弱的模型是否能够有效地监督一个较大、能力更强的模型?这个目标是要确定一种强大的AI模型是否可以根据弱监督者的意图进行泛化,即使面对不完整或有缺陷的训练标签,这个目标在他们最近的研究论文中有详细描述。 令人印象深刻的结果和局限性 OpenAI在他们的研究论文中概述了实验结果,展示了泛化方面的显著改进。通过使用一种鼓励较大模型更加自信、在必要时与弱监督者存在分歧的方法,OpenAI使用一个GPT-2级模型实现了接近GPT-3.5的性能水平。尽管这只是一个概念验证,但这种方法展示了弱到强的泛化的潜力,这在他们的研究结果中被详细讨论。 我们的观点 OpenAI的这一创新方向为机器学习研究社区打开了解决对齐挑战的大门。尽管所提出的方法存在局限性,但它标志着在将超人工智能系统对齐方面取得实证进展的关键一步,这一点在OpenAI的研究论文中得到了强调。OpenAI致力于开源代码并提供进一步研究的资助,强调了解决对齐问题的紧迫性和重要性,而人工智能的发展不断推进。 解码AI对齐的未来是研究人员为确保先进的人工智能技术安全发展做出贡献的令人兴奋的机会,正如OpenAI在他们最近的研究论文中所探讨的。他们的方法鼓励合作和探索,促进了团体努力,以确保高级AI技术在我们社会中的负责任和有益整合。

Leave a Comment

Spotify的秘密武器:AI生成的播放列表

揭開AI播放清單功能的面紗 今秋,敏銳的用戶發現了Spotify流媒體應用程序上的一個新功能,允許通過提示創建AI驅動的播放清單。雖然Spotify向TechCrunch確認了此測試,但有關該技術及其運作方式的詳細信息仍未公開,讓用戶感到好奇。這一功能是通過用戶@robdad_在TikTok視頻中展示出來的,他意外發現了他稱之為“Spotify的ChatGPT”的東西。 導航AI播放清單界面 從Spotify應用程序的“您的音樂庫”選項卡中可以輕鬆訪問AI播放清單功能。用戶可以通過點擊屏幕右上角的加號(+)按鈕啟動播放清單創建過程。彈出菜單出現,除了現有的“播放清單”和“合併”選項外,還提供了AI播放清單選項。在選擇後,用戶將遇到一個屏幕,可以在AI聊天機器人風格的框中輸入提示,或從提供的提示列表中選擇,例如“用器樂電子音樂集中注意力工作”或“探索像女巫之屋這樣的小眾音樂類型”。 AI播放清單生成的幕後 @robdad_分享的屏幕截圖展示了提示選擇過程,顯示選項包括“用背景咖啡館音樂填充沉默”或“用有趣、快樂和積極的歌曲來提振士氣”。AI聊天機器人然後回答“正在處理您的請求…”並呈現一個範例播放清單。用戶可以通過向左滑動進一步完善播放列表,刪除不想包含的任何歌曲。 Spotify的AI探索繼續 這不是Spotify首次嘗試AI驅動的功能。今年早些時候,這家流媒體巨頭推出了一個AI驅動的DJ,以推薦歌曲和俏皮的評論顛覆了音樂聆聽體驗。產品設計師Chris Messina最近發現的代碼暗示AI在播放清單創建方面具有更廣泛的應用,可能還涉及Spotify Blend。然而,Spotify對具體細節保持緘默,稱“在Spotify,我們不斷改進和構思我們的產品,為用戶提供價值。” 我們的說法 Spotify對AI生成的播放清單的實驗反映出該公司致力於在音樂流媒體領域的技術創新前沿。儘管詳細信息有限,但通過AI提示的用戶自主創建個性化播放清單的前景為Spotify體驗增添了激動人心的維度。隨著Spotify在AI方面不斷突破界限,這一功能如何發展和融入該平台的更廣泛生態系統將是一個有趣的觀察。 由於AI播放清單功能的持續測試,Spotify用戶可以預期在播放清單創建方面出現一個可能改變遊戲規則的功能。隨著技術的不斷發展,我們與喜愛的音樂互動的方式也在不斷變化,而Spotify似乎決心引領這個以AI為驅動的未來。

Leave a Comment

CMU研究人员揭示了RoboTool:一种能够接受自然语言指令并输出可用于控制模拟和真实环境中机器人的可执行代码的AI系统

来自卡内基梅隆大学和Google DeepMind的研究人员合作开发了RoboTool,这是一个利用大型语言模型(LLM)的系统,赋予机器人在涉及隐性物理约束和长期规划的任务中创造性地使用工具的能力。该系统包括四个关键组成部分: 用于解释自然语言的分析器 用于生成策略的规划器 用于计算参数的计算器 用于将计划转化为可执行的Python代码的编码器 使用GPT-4,RoboTool旨在为复杂的机器人任务提供比传统的任务与动作规划方法更灵活、高效和用户友好的解决方案。 该研究解决了机器人创造性使用工具的挑战,类似于动物在使用工具方面展示智能的方式。它强调机器人不仅要为其预定目的使用工具,还要以创造性和非常规的方式使用工具,以提供灵活的解决方案。传统的任务与动作规划(TAMP)方法需要在处理具有隐性约束的任务时进行修订,并且往往计算代价高昂。大型语言模型(LLM)在编码有益于机器人任务的知识方面显示出潜力。 该研究引入了一个用于评估创造性工具使用能力的基准,包括工具选择、顺序工具使用和制造。所提出的RoboTool在模拟和真实环境中进行评估,展示了在没有创造性工具使用的情况下将会具有挑战性的任务处理能力。该系统的成功率超过了基准方法,展示了其在解决具有隐性约束的复杂、长期规划任务方面的效果。 通过计算3种类型的错误进行评估: 工具使用错误,指示是否使用了正确的工具 逻辑错误,关注规划错误,如按错误的顺序使用工具或忽略提供的约束 数值错误,包括计算错误的目标位置或添加错误的偏移量 没有分析器的RoboTool显示出使用分析器的工具使用错误较大,没有计算器的RoboTool在与RoboTool相比的情况下有较大的数值错误,展示了它们在模型中的作用。 该研究展示了RoboTool在各种任务中的成就,例如在沙发之间穿越间隙、到达放置在机器人工作区域外的物体以及创造性地使用工具超出其传统功能。该系统利用LLMs对对象属性和人类常识的知识来识别关键概念和推理三维物理世界。在与机械臂和四足机器人的实验中,RoboTool展示了创造性的工具使用行为,包括即兴创作、顺序工具使用和工具制造。尽管在模拟中实现了与或超过基准方法相当的成功率,但其在真实环境中的表现受到感知错误和执行错误的轻微影响。 总之,由LLMs驱动的RoboTool是一个具有创造性的机器人工具用户,能够解决长期规划问题并具有隐性物理约束。该系统能够识别关键概念、生成创造性计划、计算参数和生成可执行代码,有助于其在处理需要创造性工具使用的复杂机器人任务方面取得成功。

Leave a Comment

提高在Amazon SageMaker Studio上的生产力:介绍JupyterLab Spaces和生成AI工具

亚马逊SageMaker Studio为机器学习开发提供了一系列完全托管的集成开发环境(IDE),包括JupyterLab、基于Code-OSS(Visual Studio Code开源版)的代码编辑器和RStudio它为每个ML开发步骤提供了最全面的工具集,从数据准备到建立、训练[…]

Leave a Comment

使用LangChain表达语言和LLM的验证实现链 (shǐyòng LangChain biǎodá yǔyán hé LLM de yànzhèng shíxiàn liàn)

介绍 在人工智能(AI)领域中,对精准度和可靠性的不断追求带来了突破性的创新。这些策略对于引领生成模型提供相关答案至关重要。生成AI在不同复杂应用中的使用的最大障碍之一就是幻觉。Meta AI研究发布的最新论文《链式验证减少大型语言模型中的幻觉》介绍了一种简单的技术,可以直接减少文本生成时的幻觉。 本文将探讨幻觉问题,并介绍论文中提到的CoVe概念,以及如何使用LLMs、LangChain框架和LangChain表达语言(LCEL)来实现它以创建自定义链。 学习目标 了解LLMs中的幻觉问题。 了解缓解幻觉的链式验证(CoVe)机制。 了解CoVe的优点和缺点。 学习使用LangChain来实现CoVe,并理解LangChain表达语言。 本文是作为数据科学博文马拉松的一部分发表的。 LLMs中的幻觉问题是什么? 让我们首先尝试了解LLM中的幻觉问题。使用自回归生成方法,LLM模型根据之前的上下文来预测下一个单词。对于频繁主题,模型已经看过足够多的示例,可以自信地为正确的标记分配高概率。然而,由于模型没有接受过关于异常或陌生主题的训练,它可能会以高置信度提供不准确的标记。这导致了看似合理但错误的幻觉信息。 下面是Open AI的ChatGPT中出现幻觉的一个例子,我询问了一本由印度作者于2020年出版的书籍《Small Things的经济学》,但模型却带着充分的自信回答错误,并将其与另一位诺贝尔奖获得者阿比吉特·巴纳吉的书《Poor Economics》混淆。 链式验证(CoVe)技术 CoVe机制结合了提示和一致性检查,为LLMs创建了一个自我验证系统。下面是论文中列出的主要步骤。我们将逐一详细了解每个步骤。 链式过程概述 生成基线响应:给定查询,使用LLM生成响应。 计划验证:给定查询和基线响应,生成一系列验证问题的列表,这些问题可以帮助自我分析是否存在原始响应中的任何错误。 执行验证:依次回答每个验证问题,因此检查答案与原始响应之间的一致性或错误。 生成最终经过验证的响应:根据发现的不一致性(如果有的话),生成一个经过修订的响应,并纳入验证结果。 使用详细示例理解链式过程 生成初始响应…

Leave a Comment

纽约大学和谷歌AI研究员探索机器学习在高级演绎推理方面的前沿

使用大量推理规则和构建子证明的就业使得证明的复杂性在许多演绎推理任务中无限发展,例如医学诊断或定理证明。由于巨大的证明空间,不可能找到覆盖所有大小保证的数据。因此,从基本证明开始,通用推理模型应能够推广到更复杂的证明。 纽约大学和谷歌AI研究人员的一个团队证明,LLMs在接受上下文学习(ICL)和思维链(CoT)提示的训练后可以进行演绎推理。一些演绎规则,例如假言附加式,是早期研究的主要重点。评估也是在演示中进行的,这意味着测试用例与上下文演示的分布相同。 纽约大学、谷歌和波士顿大学的研究人员进行的一项新研究探讨了LLMs能否推广到比演示更复杂的证明。学术界根据三个维度对证明进行分类: 在演示的每个阶段使用的前提数量。 构成证明的顺序步骤的长度。 所使用的演绎规则。 总大小是这三个维度的函数。 该团队在两个重要方面对之前的研究进行了扩展,以评估LLMs的一般演绎推理能力。除了假言附加式外,他们测试LLMs是否掌握了所有演绎规则。他们的推理能力通过以下两种方式进行测试: 深度和宽度的推广涉及对比上下文示例提供的较长证明进行推理。 组合推广涉及在单个证明中使用大量的演绎规则。 根据他们的研究,推理任务在接受展示各种演绎规则的基本示例时最受益于上下文学习。为了防止模型过拟合,这些上下文示例必须包含它不熟悉的推导原则,例如分情况证明和反证法。此外,这些示例应该伴随有干扰项。 根据他们的发现,CoT可以使LLMs进行超领域推理,推广到组合证明。这些LLMs包括GPT-3.5 175B、PaLM 540B、LLaMA 65B和FLAN-T511B,其规模和训练目标各异。这一发现令人惊讶,考虑到大量文献主张LLMs缺乏组合泛化能力。ICL的泛化方式与监督学习不同,特别是在上下文样本上进行的梯度下降。明显地,使用与测试示例相同分布的上下文样本是更差的,因为它们在多个实例中被发现。例如,当上下文示例中包含特定演绎规则时,研究人员有时看到了更好的组合证明泛化效果。 似乎预训练并不能教育模型创建假设的子证明。没有明确的示例,LLMs无法推广到某些演绎规则(例如分情况证明和矛盾证明)。模型规模与性能之间的关系较弱。通过定制指导和更多的预训练,较小的模型(不是最小的,但可比较)可以与较大的模型竞争。 为了进一步了解ICL和CoT触发过程,研究人员指出了一个关键的领域需要今后进行研究。他们发现,最好的上下文示例通常来自于与测试示例本身不同的分布,即使是对于特定的测试示例。贝叶斯推理和梯度下降并不能解释这一点。他们有兴趣研究是否简单的示例效果更好,即使测试案例稍微复杂。需要进一步研究来了解如何更进一步地表征从特定实例进行推广。

Leave a Comment

本AI论文介绍了BioCLIP:利用TreeOfLife-10M数据集来改变生物学和保护中的计算机视觉

许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。 然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。 来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。 当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。 考虑到这些目标和实现障碍,团队提出了以下内容: TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集 BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。 TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。 BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。 团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。 尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。

Leave a Comment

Deci AI推出DeciLM-7B:一种超快速且超准确的70亿参数的大型语言模型(LLM)

“`html 在不断发展的技术进步领域中,语言模型已成为不可或缺的一部分。这些由先进的人工智能驱动的系统增强了我们与数字平台的互动。语言模型旨在理解和生成类似人类的文本,弥合了人类沟通与机器理解之间的差距。技术的进步引领着一个数字时代,语言模型在信息处理、沟通和问题解决中扮演越来越重要的角色。 最近,Deci推出了DeciLM-7B,这是一种具有高精度和速度的创新模型,适用于70亿参数级别。这个模型在Apache 2.0许可下,处于新一代语言模型的前沿,拥有70亿参数级别中无与伦比的准确性和速度。该模型是语言处理领域的一种增量革新和变革性力量。 在“开放语言模型排行榜”上,DeciLM-7B显示出令人印象深刻的平均得分为61.55。这表明DeciLM-7B是70亿参数级别中最先进的基础语言模型,提供了在各种应用中改进的准确性和可靠性。Mistral 7B在诸多基准测试中表现优异,包括Arc、HellaSwag、MMLU、Winogrande和GSM8K等。 DeciLM-7B不仅准确,而且速度出色。与Mistral 7B相比,它的吞吐量增加了83%,与Llama 2 7B相比增加了139%。DeciLM-7B提高了语言模型的效率标准。PyTorch基准测试突显了其在吞吐量上优于Mistral 7B和Llama 2 7B,分别显示出1.83倍和2.39倍的增加。 DeciLM-7B与Infery和Dec开发的推理SDK相互协作,相对于具有vLLM的Mistral 7B,能够提供4.4倍的速度提升,为成本效益高、大量用户交互提供机会。 DeciLM-7B利用NAS的引擎AutoNAC。该模型采用了变量分组查询注意力。在顶级的70亿参数大型语言模型中,该模型在没有复杂的偏好优化方法的情况下表现出色。研究人员强调,DeciLM-7B和Infery-LLM具有在多个行业引发革命性变革的潜力。它们在提供实时聊天机器人的高容量客户服务方面提升了智能度、响应度和可负担性,并在医疗、法律、市场营销和金融等文本密集型专业领域中实现了工作流自动化的革新。 总之,DeciLM-7B在大型语言模型中具有重要作用。它不仅在准确性和效率方面出类拔萃,还在可访问性和多功能性方面表现出众。随着技术的不断进步,像DeciLM-7B这样的模型在塑造数字世界方面变得更加重要。它们给我们提供了一个令人兴奋的前景,展示了无数未来可能性的一瞥。随着技术的进步,这些模型变得越来越重要,为我们提供了数字领域中众多选择的引人入胜且广阔的预览。 “`

Leave a Comment

谷歌AI与中佛罗里达大学的研究人员发布了开源的虚拟化身图库,旨在促进包容和多样性(VALID)

来自Google AR & VR与佛罗里达中央大学的研究团队合作开展了一项全面研究,验证了一个名为VALID的虚拟化身库,其中包含了210个完全装配的化身,代表了七种多样化的种族。七种种族的选择是在美国人口普查局的指导下进行的。他们利用了数据驱动的面部平均值,并与每个种族的志愿代表合作,创建了42个基本化身(7种种族 X 2种性别 X 3个个体)。该研究涉及全球参与者,以获取每个化身被感知的种族和性别的经过验证的标签和元数据。 验证过程采用了主成分分析(PCA)和K均值聚类,以了解参与者如何感知化身的种族。为了确保参与者在种族和性别上的多样性,总共选择了来自全球33个不同国家的132名参与者进行研究。 结果显示,亚洲人、黑人和白人化身在各种族的参与者中被一致认可。然而,代表美洲印第安和阿拉斯加原住民(AIAN)、西班牙裔、中东和北非(MENA)以及夏威夷和太平洋岛民(NHPI)种族的化身显示出更多的模糊性,其感知差异基于参与者的种族。如果某个化身被相应的同类种族参与者认定为其预期种族,则该化身以该种族命名。 在讨论中,研究人员强调了亚洲人、黑人和白人化身的成功识别率超过了95%,挑战了识别与自己不同种族人脸准确度约为65-80%的观念。他们将这归因于知觉专业知识或对多样化种族群体的熟悉程度,可能受全球媒体表现的影响。 观察到自我种族偏见效应,一些化身主要由同类种族的参与者正确识别。例如,西班牙裔化身在参与者中获得了不同的评级,但在仅有西班牙裔参与者中更准确地被感知。该研究强调了在虚拟化身研究中考虑参与者种族的重要性,以确保准确的表现。 由于识别不清晰,某些化身被标记为模糊,像发型这样的因素会影响感知。夏威夷和太平洋岛民化身的验证面临着局限性,突显了表现的挑战和更广泛的招募工作的需求。 研究团队讨论了虚拟化身应用的影响,强调了同组内和异组间的分类和刻板印象及社会判断的潜力。他们建议引入规定,以改善虚拟现实中的跨种族互动。 作为对研究界的贡献,该团队提供了开放访问的VALID化身库,为各种场景提供了多样化的适用化身。该库包括65个面部变形形状的化身,用于动态表情,并与Unity和Unreal等流行游戏引擎兼容。研究人员承认了局限性,例如关注年轻和体格健壮的成年人。他们概述了未来更新中通过引入不同地区分类、身体类型、年龄和性别来扩大多样性的计划。 总结而言,研究团队成功创建和验证了一个多样化的虚拟化身库,挑战了刻板印象并促进了包容。该研究强调了自我种族偏见对化身感知的影响,并为开发和应用虚拟化身在各个领域提供了宝贵的见解。该开放访问的VALID库被定位为研究人员和开发者寻找多样化和包容性化身的宝贵资源。

Leave a Comment

微软AI发布了LLMLingua:一种独特的快速压缩技术,可用于压缩大型语言模型(LLMs)的提示,以加快推理速度

鉴于大型语言模型(LLM)具备较强的概括和推理能力,它们显著地提升了人工智能(AI)社区的水平。这些模型在自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面展示了令人瞩目的能力。然而,包括语境学习(ICL)和思维链(CoT)提示在内的新发展,导致了使用较长提示的部署,有时甚至超过几万个令牌。这在模型推理方面带来了成本效益和计算效率的问题。 为了克服这些挑战,微软公司的研究团队推出了LLMLingua,一种独特的粗粒度快速压缩技术。LLMLingua的主要目标是最小化与处理长提示相关的开销,并加速模型推理。为此,LLMLingua采用了一些重要策略,包括以下几点。 预算控制器:创建了一个动态预算控制器,用于分配压缩比率给原始提示的各个部分。这确保提示的语义完整性在大量压缩比率下仍然保持。 令牌级迭代压缩算法:将令牌级迭代压缩算法集成到LLMLingua中。这种技术通过捕捉压缩元素之间的相互依赖关系,实现了更复杂的压缩,同时保留了提示的关键信息。 基于指令调整的方法:该团队提出了一种基于指令调整的方法,以解决语言模型之间分布不匹配的问题。调整语言模型的分布可以提高用于快速压缩的小语言模型与预期的LLM之间的兼容性。 研究团队使用来自不同情况的四个数据集进行了分析和实验,以验证LLMLingua的实用性。这些数据集包括推理的GSM8K和BBH、对话的ShareGPT以及摘要的Arxiv-March23。结果表明,该方法在每种情况下都取得了最先进的性能。结果甚至显示,LLMLingua可以在牺牲很少性能的情况下,实现高达20倍的显著压缩。 实验中使用的小语言模型是LLaMA-7B,封闭式LLM是GPT-3.5-Turbo-0301。LLMLingua在最大压缩比20倍时超越了以前的压缩技术,在保留推理、摘要和讨论能力方面表现出了韧性、经济性、高效性和可恢复性。 LLMLingua的有效性在多个封闭式LLM和小语言模型中得到证实。在使用GPT-2-small时,LLMLingua展示了出色的性能结果,与更大的模型大致匹配。它还在强大的LLM上表现出色,超过了预期的快速结果。 LLMLingua的可恢复性是一个值得注意的方面,因为当使用它来恢复压缩的提示时,GPT-4能够有效地从完整的9步CoT提示中检索重要的推理信息,并保持原始提示的含义和相似性。这个功能保证了可恢复性,即使在翻译后仍保留了关键信息,增加了LLMLingua的整体印象。 总而言之,LLMLingua为LLM应用中长提示带来的困难提供了全面的解决方案。该方法展现了出色的性能,并提供了提高LLM应用的效果和价格效益的有用途径。

Leave a Comment

AI在欺诈检测中的应用方式是怎样的?

西部野蛮时代有枪手、抢劫银行和悬赏–而今日数字时代有身份盗窃、信用卡欺诈和退款。 利用金融诈骗赚钱已成为一项数十亿美元的犯罪活动。而诈骗者手中的生成式人工智能只会使这种盈利更加丰厚。 根据《尼尔森报告》,全球信用卡损失预计将在2026年达到430亿美元。 金融诈骗以越来越多的方式进行,比如从暗网窃取被黑客攻击的数据实施信用卡盗窃,利用生成式人工智能进行钓鱼式获取个人信息,并在加密货币、数字钱包和法定货币之间洗钱。还有许多其他金融诈骗计划潜伏在数字黑社会。 为了跟上步伐,金融服务公司正在利用人工智能进行诈骗检测。这是因为许多数字犯罪需要及时阻止,以便消费者和金融公司能够立即停止损失。 那么人工智能如何用于诈骗检测呢? 人工智能用于诈骗检测使用多个机器学习模型来检测客户行为和联系的异常,以及符合欺诈特征的账户和行为模式。 生成式人工智能可以用作诈骗辅助 金融服务中很多内容涉及文本和数字。生成式人工智能和大型语言模型(LLMs)能够学习意义和背景,承诺在各行各业带来颠覆性的能力和生产力水平。金融服务公司可以利用生成式人工智能开发更智能、更有能力的聊天机器人,并改进诈骗检测。 而反派角色可以通过狡猾的生成式人工智能提示来绕过人工智能保障,用于欺诈。而且大型语言模型正在提供类似人类写作的能力,使诈骗分子能够撰写更具上下文相关的电子邮件,而无需拼写错误和语法错误。可以快速创建许多不同版本的钓鱼邮件,使生成式人工智能成为实施欺诈的绝佳副驾驶员。还有许多诸如FraudGPT之类的暗网工具,可以利用生成式人工智能进行网络犯罪。 生成式人工智能也可以用于声音认证安全措施的金融损害。一些银行正在使用声音认证来帮助授权用户。如果攻击者能够获取声音样本,他们可以使用深度伪造技术克隆银行客户的声音,试图突破这些系统。声音数据可以通过试图引诱通话接收者通过声音作出回应的垃圾电话来收集。 聊天机器人诈骗问题如此严重,以至于美国联邦贸易委员会提出了有关使用大型语言模型和其他技术模拟人类行为,用于伪造视频和声音克隆的关注和担忧。 生成式人工智能如何解决滥用和诈骗检测问题? 诈骗审查现在有强大的新工具。处理手动诈骗审查的工作人员可以通过在后端运行基于LLM的助手,利用来自政策文件的信息来加速决策,判断案件是否属于欺诈,从而大大加快处理过程。 大型语言模型被采用来预测客户的下一笔交易,这有助于支付公司预先评估风险并阻止欺诈交易。 生成式人工智能还通过提高准确性、生成报告、减少调查和降低合规风险来帮助打击交易诈骗。 生成合成数据是生成式人工智能用于欺诈预防的另一个重要应用。合成数据可以提高用于训练诈骗检测模型的数据记录数量,增加示例的多样性和复杂性,使人工智能能够识别欺诈者使用的最新技术。 NVIDIA提供了帮助企业采用生成式人工智能构建聊天机器人和虚拟代理的工具,使用了检索增强生成技术。检索增强生成使公司能够利用自然语言提示来访问大量数据集进行信息检索。 利用NVIDIA的人工智能工作流程可以帮助加速构建和部署适用于各种用例的企业级能力,使用基础模型、NVIDIA NeMo框架、NVIDIA Triton推理服务器和GPU加速矢量数据库来部署检索增强生成技术的聊天机器人。 行业专注于安全,以确保生成型人工智能不易被滥用造成伤害。NVIDIA发布了NeMo Guardrails,以帮助确保基于LLMs的智能应用(如OpenAI的ChatGPT)的准确性、适当性、主题相关性和安全性。 该开源软件旨在防止滥用人工智能驱动的应用程序进行欺诈和其他不当使用。 人工智能在识别欺诈方面的好处是什么?…

Leave a Comment

探索AI的新领域:谷歌DeepMind的研究关于通过ReSTEM自我训练推进机器学习超越人类生成的数据

大型语言模型(LLMs)正在通过展示惊人的文本生成能力和执行各种语言任务而改变深度学习。获得高质量的与人类相关的数据是一个重大障碍,即使使用人类收集的数据进行监督微调(SFT)也能进一步提高它们在感兴趣的任务上的性能。这对需要大量资源和专业知识的复杂问题解决任务尤为困难。为了克服这一障碍,模型生成的合成数据在其质量能够得到保证的情况下被认为是一种可扩展且经济实惠的解决方案。 来自Google Deepmind和Mila的研究人员在这项研究中研究了一个更加简单的场景,其中外部的标量反馈信号作为每个生成样本的质量指标,即使LLMs能够自行评估生成的数据。研究团队提出了一种简单而有效的语言模型自训练技术,只涉及两个技能:1) 使用模型创建样本,2) 使用评分机制评估这些样本。这种方法使我们能够研究在模型创建的数据上进行训练。研究团队使用了加强自训练的命名方式,并将这种技术称为ReST𝐃𝑀,以实现统一性和清晰度。研究团队演示了如何将ReST𝐃𝑀视为使用期望最大化进行强化学习。 具体而言,ReST𝐃𝑀在以下方式上在期望和最大化阶段之间切换:1. 生成 (E-step):对于每个输入背景,语言模型产生多个输出样本。然后,研究团队通过使用二进制奖励来筛选这些样本,以收集训练数据集。2. 改进 (M-step):使用前面生成阶段的训练数据集来对原始语言模型进行监督和微调。然后,下一个生成阶段使用调整后的模型。ReST𝐃𝑀及其变体已经证明在许多领域的语言模型中提高了效能,例如机器翻译、语义解析和偏好对齐。 ReST𝐃𝑀主要在以前关于非常小型语言模型(最多7B参数)的研究中使用,对于更大的模型而言,其可扩展性有限。他们的工作旨在通过比较模型创建的合成数据的可扩展性和有效性与人类提供的数据在两个具有挑战性但研究不足的领域中: 代码生成 (APPS) 和具有竞争水平的数学问题解决 (MATH)。他们的研究结果表明,将ReST𝐃𝑀应用于不同规模的PaLM 2模型可以显著改善数学推理和代码生成能力。 令人惊讶的是,通过模型生成的人工数据进行改进的模型在性能上大幅优于以人类提供的数据训练的模型。此外,经过几个ReST𝐃𝑀周期后,改进效果会减弱,表明可能会过度拟合数量有限的训练案例。此外,使用ReST𝐃𝑀进行优化的模型增强了 pass@k 和多数投票能力。最后,这些改进的模型在类似但不同的基准测试中展现出增强的性能,包括Big-Bench Hard任务、编码(HumanEval)和算术问题(GSM8K和Hungarian HS决赛)。最后,还进行了消融研究,以调查训练问题、迭代次数和模型生成解决方案数量对ReST𝐸𝑀微调的影响。

Leave a Comment

Can't find what you're looking for? Try refining your search: