Press "Enter" to skip to content

Tag: Applications

「这项AI研究介绍了FollowNet:一种用于车辆跟随行为建模的全面基准数据集」

跟随其他车辆是最常见和基本的驾驶活动。安全地跟随其他车辆可以减少碰撞,使交通流畅和可预测。当驾驶员在道路上跟随其他车辆时,适当的跟车模型会以数学或计算方式表示这种行为。 现实世界驾驶数据的可用性和机器学习的发展在过去十年中在数据驱动的跟随车辆模型的繁荣方面起到了重要作用。依赖数据来跟随车辆的模型包括神经网络、循环神经网络和强化学习。然而,目前的研究中存在一些限制,如下所示: 首先,由于缺乏标准数据格式,跟车模型尚未得到很好的评估。尽管公共驾驶数据集如NGSIM和HighD等可用,但由于缺乏标准数据格式和跟车模型的评估标准,很难将新提出的模型的性能与现有模型进行比较。 其次,当前研究中的数据集有限,无法准确描述混合交通流中的跟车行为。以不考虑自动驾驶车辆的小数据集对车辆跟随行为进行建模一直是过去研究的重点,而在这个时候,人工驾驶和自动驾驶车辆共同在道路上行驶。 为了解决这些问题并创建一个标准数据集,香港科技大学,广东省集成通信重点实验室,同济大学和华盛顿大学的一项新研究发布了一个名为FollowNet的基准。他们使用一致的准则从五个公开可用的数据集中提取了跟随车辆事件以建立这个基准。研究人员在基准范围内执行和评估了五个基准跟车模型,包括传统和数据驱动的方法。他们利用统一的数据格式为行为设定了第一个标准,以便促进跟车模型的创建。处理来自不同数据集的多样化数据结构和框架可能会很困难,但是他们统一的跟车基准考虑到了这一点。 通过使用基准进行训练和评估的两种传统和三种数据驱动的跟随车辆模型——GHR、IDM、NN、LSTM和DDPG。五个流行的公共驾驶数据集——HgihD53、Next Generation Simulation(NGSIM)54、Safety Pilot Model Deployment(SPMD)55、Waymo56和Lyf57——都包含了该基准所定义的跟随车辆事件。研究人员对跟车行为和基本统计信息的几个数据集进行了分析。结果显示使用一致的指标评估基准模型的性能。特别是Waymo和Lyf数据集显示了混合交通情况下的跟车事件。研究人员没有包括持续时间超过90%的静态事件。 即使数据驱动的模型在间距最小均方误差方面表现较传统模型更低,碰撞仍然是可能的。发展具有零碰撞率和较少间距误差的跟车模型是可取的。为了在跟车模型中包含驾驶异质性,需要创建适应性算法和代表性数据集,涵盖各种驾驶风格、行为和交通情况。 研究人员建议未来的数据集必须加入其他特征,以进一步改进跟随车辆模型的性能和真实性。例如,通过添加交通信号和道路条件数据,可以更完整地了解道路环境。如果算法集成了附近车辆及其活动的数据,也可以考虑复杂关系并提供更好的预测。未来的数据集将能够更好地反映真实世界的驾驶场景,从而为创建既强大又有效的跟车算法提供可能。

Leave a Comment

中国来自AI研究介绍了GS-SLAM:一种增强3D地图和定位的新型方法

上海人工智能实验室、复旦大学、西北工业大学和香港科技大学的研究人员合作开发了一款名为GS-SLAM的基于3D高斯表示的同时定位与地图构建(SLAM)系统。该计划的目标是实现准确性和效率之间的平衡。GS-SLAM采用实时可微分的网格化渲染流程、自适应扩展策略和粗糙到精细的技术来改进姿态跟踪,从而减少运行时间和更稳健的估计。该系统在Replica和TUM-RGBD数据集上展示了竞争性的性能,优于其他实时方法。 该研究回顾了现有的实时稠密视觉SLAM系统,包括基于手工特征、深度学习嵌入和基于NeRF的方法。它强调了在引入GS-SLAM之前,相机姿态估计和使用3D高斯模型进行实时地图构建方面的研究缺失。GS-SLAM创新地将3D高斯表示纳入,采用实时可微分的网格化渲染流程和自适应扩展策略来实现高效的场景重建。与已有的实时SLAM方法相比,该方法在Replica和TUM-RGBD数据集上展示了竞争性的性能。 这项研究解决了传统SLAM方法在实现精细密集地图方面的挑战,并引入了GS-SLAM,一种新颖的RGB-D密集SLAM方法。GS-SLAM利用3D高斯场景表示和实时可微分的网格化渲染流程来增强速度和准确性之间的权衡。所提出的自适应扩展策略高效地重建新观察到的场景几何,而粗到精的技术改进了相机姿态估计。GS-SLAM展示了改进的跟踪、地图构建和渲染性能,为机器人、虚拟现实和增强现实应用的密集SLAM能力提供了重要的进展。 GS-SLAM采用3D高斯表示和实时可微分的网格化渲染流程用于地图构建和RGB-D重新渲染。它特点在于场景几何重建和地图增强的自适应扩展策略。相机跟踪利用粗到精的技术可靠地选择3D高斯表示,减少运行时间并确保鲁棒性估计。GS-SLAM在Replica和TUM-RGBD数据集上的竞争性性能优于NICE-SLAM、Vox-Fusion和iMAP。在各种指标上与CoSLAM的结果相当。GS-SLAM在构建的网格中显示出清晰的边界和细节,重建性能优秀。在跟踪方面,它优于Point-SLAM、NICE-SLAM、Vox-Fusion、ESLAM和CoSLAM。GS-SLAM适用于运行速度约为5 FPS的实时应用。 GS-SLAM的有效性取决于高质量深度信息的可用性,依靠深度传感器读数进行3D高斯初始化和更新。在大规模场景中,该方法的内存使用量较高,未来的工作计划旨在通过神经场景表示集成来缓解这一限制。虽然该研究承认了这些限制,但它需要对自适应扩展策略和粗到精相机跟踪技术的潜在限制有更多深入的洞察。需要进一步的分析来全面评估它们的控制权限。 总之,GS-SLAM是一个有希望的密集视觉SLAM解决方案,它在速度和准确性之间提供了平衡的组合。其自适应的3D高斯扩展策略和粗到精的相机跟踪实现了动态而详细的地图重建和鲁棒的相机姿态估计。尽管它依赖于高质量的深度信息并且在大规模场景中使用内存较多,但GS-SLAM展示了竞争性的性能和优越的渲染质量,尤其是在详细的边缘区域。进一步的改进计划将包括神经场景表示的整合。

Leave a Comment

这篇来自DeepMind的机器学习研究介绍了在动态环境中进行高级规划的向量量化模型(VQ)

随着技术的不断进步,人工智能成功地使计算机能够以类似于人类思维和学习的方式运作,模仿人脑的智慧。人工智能、机器学习和深度学习等领域的最新进展,已经在包括医疗保健、金融、教育等多个领域得到了提升。近来备受关注的大型语言模型展现了惊人的仿人能力。从问答和文本摘要到代码生成和代码补全,这些模型在各种任务上表现出色。 大型语言模型是通过一种名为强化学习的机器学习范式进行微调的。在强化学习中,智能体通过与周围环境的交互来学习决策能力。它通过在环境中的行为来最大化随时间累积的奖励信号。模型驱动的强化学习最近取得了进展,并在各种需要规划的场景中显示出希望。然而,这些成功仅限于完全可观察且确定的情况。 在最近的研究中,DeepMind的研究团队提出了一种利用矢量量化模型进行规划的新策略。这种方法旨在解决随机和部分可观察环境中的问题。该方法利用状态VQVAE(矢量量化变分自动编码器)和转移模型,将未来的观察编码为离散的潜在变量。这使得它能够适应随机或部分可观察的情境,实现对未来观察和未来行动的规划。 团队表示,这种方法中使用了离散自动编码器来捕捉随机情境中行动的各种可能结果。被称为自动编码器的神经网络设计接收输入数据,将其编码为潜在表示,然后将其解码回原始形式。利用离散自动编码器的方法使得在随机情境中代理行为引起的多种可能结果得以呈现。 为了在此类情境中更容易进行规划,团队使用了蒙特卡洛树搜索的随机变体。蒙特卡洛树搜索是计划和决策过程中常用的一种方法。在此情况下,随机变体允许考虑环境的不确定性。除了代理的行动,规划过程中还包括表示环境可能响应的离散潜在变量。这种全面的方法旨在捕捉部分可观测性和随机性带来的复杂性。 团队对该方法进行了评估,结果表明在一种随机解释的国际象棋中,该方法击败了著名的强化学习系统MuZero的离线变体。从这个角度来看,对手引入了不确定性,并被视为环境的一个重要组成部分。通过DeepMind Lab对该方法的有效实施证明了其可扩展性。这种方法在这种情景中观察到的有利结果证明了它在处理复杂动态环境中的灵活性和有效性。 总之,这种基于模型的强化学习技术扩展了在部分可观察、随机环境中的完全可观察、确定性环境中的有效性。离散自动编码器和随机蒙特卡洛树搜索版本展示了对不确定环境所带来困难的复杂理解,提高了实际应用中的性能。

Leave a Comment

Google和MIT研究员推出了StableRep:通过合成图像实现AI训练的革命,以增强机器学习

“` 研究人员探索了使用由文本到图像模型生成的合成图像来学习视觉表示并为更高效和减少偏见的机器学习铺平道路的潜力。这项来自麻省理工学院研究人员的新研究专注于稳定扩散,并表明在生成模型被适当配置的情况下,仅训练合成图像上的自监督方法可以达到或甚至超过其真实图像对应物的性能。所提出的方法名为StableRep,通过将从同一文本提示生成的多个图像视为彼此的正例,引入了一种多正对比学习方法。StableRep仅在合成图像上进行训练,在大规模数据集上的性能超越了SimCLR和CLIP等现有最先进的方法,甚至在与语言监督相结合时,其准确度也超过了通过五千万真实图像训练的CLIP模型。 所提出的StableRep方法通过推进内部标题不变性引入了一种新颖的表示学习方法。通过将从同一文本提示生成的多个图像视为彼此的正例,StableRep采用了多正对比损失。结果显示,StableRep在ImageNet上取得了显着的线性准确性,超越了SimCLR和CLIP等其他自监督方法。该方法的成功归因于对合成数据取样的更大控制能力,利用了Stable扩散和文本提示等因素。此外,生成模型具有超越其训练数据进行泛化的潜力,相比仅使用真实数据,提供了更丰富的合成训练集。 总之,研究证明了在稳定扩散生成的合成图像上训练自监督方法的意外有效性。StableRep方法通过其多正对比学习方法,在表示学习方面展现出卓越的性能,相比使用真实图像的现有最先进方法。该研究为通过文本到图像生成模型简化数据收集提供了可能性,为获取大规模且多样化的数据集提供了经济有效的替代方案。然而,必须解决合成数据的语义不匹配和偏见等挑战,并考虑使用非筛选网络数据进行生成模型训练的潜在影响。 “`

Leave a Comment

认识LEO:一种突破性的具有多模态特性的实体代理,用于高级3D世界互动和任务解决

具备处理多个任务或领域而无需重编程或重新训练的AI系统被称为通用代理。这些代理旨在在各个领域泛化知识和技能,展现在解决不同问题时的灵活性和适应性。用于培训或研究目的的模拟通常涉及3D环境。这些模拟中的通用代理能够适应不同场景,并能够从经验中学习,在虚拟空间中执行任务。例如,在飞行员或外科医生的训练模拟中,这些代理可以复制各种场景并作出相应的反应。 通用代理在三维世界中面临的挑战在于处理复杂的三维空间,学习能够在不同环境中泛化的健壮表示,并在考虑到环境的多维性的情况下进行决策。这些代理通常使用强化学习、计算机视觉和空间推理等技术来在这些环境中有效地导航和交互。 中国北京普里什卡大学、泡菜大学和清华大学的研究人员提出了一个名为LEO的通用代理,该代理经过LLM-based架构进行训练。LEO是一个通用性的代理,具有多模态和多任务能力。LEO通过共享的模型架构和权重来感知、基于事实进行推理、规划和行动。LEO通过基于自我为中心的2D图像编码器和基于对象为中心的3D点云编码器来感知事物的体验和第三人称全局视角。 LEO还可以通过自回归训练目标利用任务无关的输入和输出进行训练。3D编码器为每个观测到的实体生成一个基于对象的令牌。这种编码器设计可以灵活地适应具有不同体现的任务。LEO基于3D视觉语言对齐和3D视觉语言行为的基本原理。为了获取训练数据,研究团队策划和生成了一个包含对象级和场景级多模态任务的大规模复杂数据集,需要对3D世界进行深入理解和交互。 研究团队还提出了基于场景图的提示和细化方法,以及基于对象为中心的思维链(O-CoT),以提高生成数据的质量,大大丰富数据规模和多样性,并进一步消除LLM的幻觉。研究团队对LEO进行了广泛的评估,并展示了其在多个任务中的熟练程度,包括体验式导航和机器人操作。他们还观察到,仅仅扩大训练数据规模就能稳定提升性能。 结果显示LEO的反应融合了丰富、信息量大的空间关系,并且准确地与3D场景相呼应。他们发现LEO包含的具体对象实际上出现在场景中,并对这些对象有具体的行动。LEO能够架起3D视觉语言和实体移动之间的桥梁,研究团队的结果显示了联合学习的可行性。

Leave a Comment

“‘前瞻解码’:一种加速LLM推理的并行解码算法”

虽然像GPT-4和LLaMA这样的大型语言模型正在快速重新塑造现代应用,但它们的推理速度较慢且很难优化,因为它们是基于自回归解码的。LLM的请求延迟主要取决于请求的答案长度,或者等效地说,解码步骤的数量,因为每个自回归解码步骤一次只产生一个标记。不幸的是,当前的GPU并行处理能力通常没有得到充分利用,因为每个解码步骤没有利用它。这对于许多实际的LLM应用(如聊天机器人和个人助理)来说是个问题,它们依赖于即时响应,并因此经常产生具有低延迟的大序列。 自回归解码可以通过使用像Medusa和OSD这样的猜测解码方法加速,这些方法使用“猜测和验证”的策略,其中初步模型对未来的几个可能标记进行预测,然后原始LLM并行地检查这些预测。这些方法可以通过利用需要更少解码步骤时的情况来减少延迟。然而,它们也有一些限制。首先,标记接受率,或者等效地说,草稿模型正确预测主模型输出的能力,是基于猜测解码方法能够实现的最大速度增加的上界。其次,开发可靠的初步模型并不容易,通常需要更多的训练和精心调整来应对随时间变化的流量变化。 LMSYS ORG的一项新研究提出了前瞻解码,这是一种新颖的精确解码技术,用于解决这些困难。虽然在单个步骤中解码许多连续标记在计算上是不可行的,但观察到LLM可以同时生成多个正交n-gram。这些n-gram有可能适应所创建序列的未来部分。传统的雅可比迭代方法被改进为并行解码,这样可以将自回归解码视为非线性方程的解。生成的n-gram被记录、检查,然后(如果合适)被并入序列。前瞻解码特别值得注意的是: 它不使用初步模型,从而加速了推出速度。 对于每个阶段,通过log(FLOPs)因子减少了总解码步骤的数量。 研究人员证明了前瞻解码显著降低了延迟,达到了1.5倍到2.3倍的减少,而几乎没有增加计算负担。最重要的是,它允许在处理方面的权衡来减少延迟,尽管收益递减。 研究人员已经创建了他们的实现,使前瞻解码与huggingface/transformers配合使用。HuggingFace提供了一个本地生成的函数,但用户可以通过几行代码显著提高其效率。 雅可比迭代是一种解决非线性系统的历经验证的技术。LLM推理也可以用于并行生成标记,而无需预训练模型。由于雅可比解码的每个步骤都涉及对>1个标记的LLM前向计算,因此从所需的FLOPs角度来看,它比每个自回归解码步骤更昂贵。研究人员观察到,在尝试显着提高雅可比解码在实际应用中的墙钟性能时可能会遇到几个困难。虽然它可以在一系列步骤中解码多个标记,但它通常会错误地排列它们的顺序。即使正确地预测,标记也经常在下一个周期被替换。因此,很少有迭代成功地同时解码和正确放置多个标记。由于这一点,使用并行解码的整个目的被取消了。通常,它不会导致性能下降,因为图形处理单元具有并行处理能力。 前瞻解码可以通过利用雅可比解码生成并行n-gram的能力来避免其缺点。在一个位置处,每个新标记都是使用之前迭代中该位置的值进行解码,就像雅可比解码中一样。由于这个过程,会形成许多n-gram,这在每个标记位置上建立了历史标记的时间线。为了使用这些,前瞻解码将根据它们的轨迹收集和缓存这些n-gram。前瞻解码同时从缓存中检查有希望的n-gram,并使用雅可比迭代进行未来标记的并行解码。 每个前瞻解码阶段都被分为两个平行分支——前瞻分支和验证分支,以提高效率。为了从雅可比迭代轨迹中生成n-gram,前瞻分支保持一个大小恒定的二维窗口。同时,验证分支选择并检查显示潜力的n-gram候选项。 由于内存带宽是LLM解码的主要瓶颈,研究人员将前瞻分支和验证分支合并为单个传递,利用GPU的并行处理能力,同时隐藏任何相关的开销。 团队对LLaMA-2-Chat和CodeLLaMA在MT-bench、HumanEval和GSM8K上的不同尺寸进行了测试,以了解他们的前瞻解码技术的有效性。前瞻解码技术可以提供速度提升,无需微调或预备模型。在fp16精度下,他们在单个A100 GPU上评估了7B、13B和33B模型,以及在两个A100 GPU上使用流水线并行性评估了70B模型。 MT-Bench LLaMA讨论:在许多模型配置中,前瞻解码所实现的加速比约为1.5倍。 HumanEval的CodeLLaMA:在HumanEval上使用前瞻解码时,CodeLLaMA的延迟时间缩短了两倍以上。这是因为代码中包含了许多容易猜测的N-gram。 GSM8K的教学CodeLLaMA:通过前瞻解码,CodeLLama-Instructor在GSM8K的数学挑战中将延迟时间缩短了1.8倍。 本文《‘前瞻解码’:一种并行解码算法加速LLM推断》首发于MarkTechPost。

Leave a Comment

麦克马斯特大学和FAIR Meta研究人员提出了一种新颖的机器学习方法,通过使用归一化流动的方法来参数化电子密度

麦克马斯特大学和FAIR Meta的研究人员开发了一种新的机器学习(ML)技术,用于无轨道密度泛函理论(OF-DFT)。这种ML方法优化了总能量函数,并成功地复制了各种化学系统中的电子密度。该方法已被应用于模拟锂氢化物、氢气和水分子,并通过优化拉普拉斯算符和解决哈特里和外势泛函函数来提高准确性的内存有效的梯度优化方法。 目前存在计算分子电子能量的方法,比如传统的Kohn-Sham密度泛函理论(KS-DFT),它依赖于分子轨道。然而,一个被开发出来的未经探索的方法叫做OF-DFT,它利用电子密度来最小化一个点,更适用于复杂的系统。 OF-DFT是一种以电子密度为中心的量子化学和凝聚态物理的计算方法,相对于KS-DFT在大系统中具有优势。它通过电子密度最小化来确定基态性质,符合Hohenberg-Kohn定理。它采用了一种独特的方法,使用归一化流载体来参数化和优化电子密度,成功地复制了多样的化学系统。 OF-DFT中优化总能量函数的提议方法涉及使用归一化流载体来参数化各种化学系统中的电子密度。这是通过使用神经网络解决普通微分方程来连续归一化流变换电子密度实现的。基于梯度的算法用于总能量优化,而蒙特卡罗采样用于相关量。此外,在OF-DFT中还采用了一种内存高效梯度优化方法,用于解决拉普拉斯算符以及与哈特里和外势泛函相关的问题。 该方法成功地模拟了二原子分子,尤其是LiH,并对氢气和水分子进行了广泛的模拟。该模型准确地复制了各种化学系统中的电子密度,在H2和H2O分子的优化过程中展示了密度和势能面的变化。与使用STO-3G基组的Hartree-Fock模型进行比较分析表明,在连续归一化流模型中核周围的密度更高。密度泛函值在整个优化过程中使用指数移动平均值进行计算。 总之,利用连续归一化流进行密度变换的OF-DFT方法是一种有前景的无限制解决方案,用于准确描述不同化学系统中的电子密度和势能面。它能够复制核周围的高密度,如通过LiH、氢气和水分子的研究所示,突显了进一步改进和应用的潜力。 OF-DFT电子结构计算的未来工作可能涉及: 改进电子密度的归一化流载体。 将连续归一化流方法扩展到更复杂的化学系统中。 进行比较分析以评估CNF模型的准确性。 将CNF模型与其他机器学习技术整合,以提高效率和精度。

Leave a Comment

用GPT-4揭示科学发现的前沿:大型语言模型在多个学科中的全面评估

大型语言模型(LLMs)最近受到人工智能(AI)界的广泛赞赏。这些模型具有卓越的能力,在编码、数学、法律乃至理解人类意图和情感等领域都表现出色。基于自然语言处理、理解和生成的基本原理,这些模型在几乎每个行业中都具有巨大的潜力。 LLMs不仅能生成文本,还能进行图像处理、音频识别和强化学习,证明了它们的适应性和广泛的应用领域。由OpenAI最近推出的GPT-4因其多模态特性而变得非常受欢迎。与GPT 3.5不同,GPT-4既可以接受文本形式的输入,也可以接受图像形式的输入。一些研究甚至显示,GPT-4展示了人工通用智能(AGI)的初步证据。GPT-4在通用AI任务中的有效性已经引起科学家和研究人员对LLMs在不同科学领域的关注。 在最新的研究中,一支研究团队研究了LLMs在自然科学研究背景下的能力,特别关注于GPT-4。该研究主要关注生物学、材料设计、药物开发、计算化学和偏微分方程等自然科学领域,以涵盖广泛的自然科学。利用GPT-4作为深入研究的LLM,该研究提供了关于LLMs的性能和其在特定科学领域中可能应用的全面概述。 该研究涵盖了多个科学学科领域,如生物学、材料设计、偏微分方程、密度泛函理论和分子动力学在计算化学中的应用。团队分享称,已经对该模型在科学任务上进行了评估,以充分实现GPT-4在研究领域中的潜力,并验证其领域专业知识。LLM应加速科学进展,优化资源分配,并促进跨学科研究。 研究团队分享称,根据初步结果,GPT-4已经显示出在一系列科学应用中有潜力,并展示了其处理复杂问题解决和知识整合任务的能力。该研究论文对GPT-4在多个领域的表现进行了全面考察,既强调了其优势,也指出了其劣势。评估包括GPT-4的知识库、科学理解能力、数值计算技能和多样化预测能力。 研究表明,GPT-4在生物学和材料设计领域显示出广泛的领域专长,有助于满足某些需求。该模型展现了在药物研发领域预测属性的潜力。GPT-4在计算化学和偏微分方程研究领域中也有助于计算和预测,但对于定量计算任务,需要稍稍提高准确性。 总之,这项研究非常具有启发性,因为它突显了大规模机器学习和LLMs的快速发展。它还关注了这一充满活力的课题未来研究的重点,即基本科学模型的构建以及LLMs与专业科学工具和模型的集成。

Leave a Comment

Microsoft发布了Orca 2:通过定制化训练策略在更小的语言模型中开创先进推理技术

LLMs(大型语言模型)是在大量文本数据上进行训练的,以便理解和生成类似于人类语言的模型。如GPT-3、GPT-4和PaLM-2等模型就是其中的几个例子。这些模型执行复杂的语言任务,包括文本生成、对话交互和问题回答。它们在各个领域的应用中,提升了聊天机器人、编码、网络搜索、客户支持和内容制作等用户体验。 然而,随着AI社区深入研究更小规模模型的广阔领域,微软推出了名为Orca 2的下一个版本,旨在增强紧凑型AI模型的能力。通过集成详细解释和追踪,Orca 1在BigBench Hard和AGIEval等具有挑战性的基准测试中超越传统的指导训练模型。Orca 2进一步深入研究了增强训练信号的潜力,以提高较小语言模型的推理能力。 模仿学习一直是改善小型语言模型的流行方法。尽管这些较小的模型可以以与教师类似的方式生成内容,但它们通常需要在推理和理解能力上迎头赶上。尽管模仿学习具有一些好处,但也有缺点,可能限制较小模型发挥其全部潜力,并阻止它们使用最佳的解决方案来解决特定问题和模型能力。它们通常需要帮助匹配其较大模型对推理和理解能力的匹配,从而限制了它们的潜力。 与简单模仿不同,Orca以各种推理技巧指导模型。这些技巧包括逐步处理、回忆然后生成、回忆-推理-生成和直接答案。目标是指导模型获取辨别最有效解决策略的能力,以适应每个特定任务的细微差别。 Orca 2的零次推理能力凸显了改进更小型神经网络的可能性。微软继续相信,像Orca 2这样的专门训练方法可能揭示新的有用应用。这种方法旨在提高这些神经网络部署的效果。 最重要的是,Orca 2在训练阶段减少了初始线索所引发的特定行为。通过创新的Prompt Erasure技术,Orca 2转变为慎重的推理者。与盲目模仿不同,这种方法使用较大模型作为行为来源,选择最佳行为来解决给定任务。 研究人员对Orca 2进行了全面的基准测试。他们表明,它在与语言理解、常识推理、多步数学问题、阅读理解、摘要等相关的其他等价模型上表现更好。例如,在零次推理任务上,Orca 2-13B的准确率比13B模型高出25%以上,与70B模型持平。 Orca 2在小型语言模型的演进中迈出了重要的一步。它离开了传统的模仿学习,注重教授多样的推理技巧,展示了发挥紧凑型AI模型潜力的新方法。

Leave a Comment

这篇AI论文介绍了“闪电猫”:一种基于深度学习的智能合约漏洞检测工具

智能合约在区块链技术中发挥着重要作用,用于开发去中心化应用。智能合约易受漏洞攻击,可能导致潜在的财务损失和系统崩溃。传统的漏洞检测方法,如静态分析工具,通常因依赖预定义规则而产生误报和漏报。作为回应,中国Salus Security团队提出了一种名为“闪电猫”的新型人工智能解决方案,利用深度学习技术进行智能合约漏洞检测。 论文的关键点可分为三个部分。首先,介绍了利用深度学习方法进行智能合约漏洞检测的闪电猫解决方案。其次,提出了一种有效的数据预处理方法,重点强调通过CodeBERT提取语义特征。最后,实验结果表明,优化的CodeBERT模型在其他模型上表现更优秀。 研究人员通过在闪电猫框架中提出三种优化的深度学习模型来解决静态分析工具的局限性:优化的CodeBERT、LSTM和CNN。CodeBERT模型是一种经过预训练的基于Transformer的模型,针对智能合约漏洞检测这个特定任务进行微调。为了增强语义分析能力,研究人员在数据预处理中采用了CodeBERT,以更准确地理解代码的语法和语义。 实验使用了SolidiFI-benchmark数据集,该数据集包含9369个注入了来自七个不同类型漏洞的易受攻击合约。结果展示了优化的CodeBERT模型的优越性能,达到了令人印象深刻的93.53%的F1分数。通过获取易受攻击的代码函数段来准确提取漏洞特征的重要性,CodeBERT用于数据预处理有助于更精确地捕捉语法和语义。 研究人员把闪电猫定位为一种超越静态分析工具的解决方案,利用深度学习进行自适应和持续更新。CodeBERT因其有效的数据预处理能力以及对语法和语义的全面捕捉而备受重视。优化的CodeBERT模型的优越性能归功于其在提取漏洞特征方面的准确性,其中关键的漏洞代码段起着重要作用。 总之,研究人员倡导智能合约漏洞检测在防止财务损失和维护用户信任方面的关键作用。闪电猫以其深度学习方法和优化模型的优越性崭露头角,相比现有工具,在准确性和适应性方面表现出色。

Leave a Comment

字节跳动推出PixelDance:一种基于扩散模型的新型视频生成方法,结合图像指令和文本指令

一支来自字节跳动研究团队的研究者介绍了PixelDance,一种利用文本和图像指示来创建具有多样化和复杂运动的视频生成方法。通过这种方法,研究者展示了他们的系统的有效性,通过合成具有复杂场景和动作的视频,从而在视频生成领域树立了新的标准。PixelDance在合成具有复杂设置和活动的视频方面表现出色,超过了通常生成具有有限动作的视频的现有模型。该模型通过扩展到各种图像指示,并结合时间上连贯的视频片段来生成组合镜头。 与限于简单场景的文本到视频模型不同,PixelDance利用图像指示来增强视频复杂性,并实现更长的连续剪辑生成。这种创新克服了以前方法中出现的运动和细节限制,特别是在领域外内容方面。强调图像指令的优势,将PixelDance确定为生成具有复杂场景、动态动作和复杂摄像机运动的高动态范围视频的解决方案。 PixelDance架构将扩散模型和变分自编码器整合到输入空间中,以对图像指示进行编码。训练和推断技术聚焦于学习视频动力学,利用公共视频数据。PixelDance可扩展到各种图像指示,包括语义地图、草图、姿势和边界框。定性分析评估了文本、首帧和尾帧指示对生成的视频质量的影响。 基于FVD和CLIPSIM指标,PixelDance在MSR-VTT和UCF-101数据集上的表现优于以前的模型。对于UCF-101的消融研究展示了PixelDance组件如文本和最后帧指示在连续片段生成中的有效性。该方法提出了一些改进的思路,包括使用高质量视频数据进行训练、领域特定的微调和模型扩展。PixelDance展示了无需后期处理的视频编辑,将其转化为一项图像编辑任务。它在MSR-VTT和UCF-101数据集上生成满足文本提示的高质量复杂视频的令人印象深刻的定量结果。 PixelDance在合成具有复杂场景和动作的高质量视频方面表现出色,超过了最先进的模型。模型与文本提示的配合展示了其推进视频生成的潜力。已经确定了需要改进的领域,包括领域特定的微调和模型扩展。PixelDance引入了无需后期处理的视频编辑,将其转化为图像编辑任务,并始终生成时间上连贯的视频。定量评估证实了它能够根据文本提示生成高质量、复杂的视频的能力。 PixelDance对显式图像和文本指示的依赖可能会限制其在未知场景中的泛化能力。评估主要侧重于定量指标,需要更多主观质量评估。对训练数据来源和潜在偏差的影响没有进行深入探讨。需要全面讨论模型在可扩展性、计算需求和效率方面的局限性。模型处理特定视频内容类型(如高度动态场景)的能力仍需澄清。需要对其在多样领域和超出示例之外的视频编辑任务中的普适性进行全面讨论。

Leave a Comment

中国的研究人员推出了视频-LLaVA:一个简单但功能强大的大型视觉语言基准模型

北京大学、彭城实验室、北京大学深圳研究生院和中山大学的研究人员介绍了大型视觉-语言模型(LVLM)方法Video-LLaVA,该方法将视觉表示统一到语言特征空间中。与现有方法单独编码图像和视频不同,Video-LLaVA通过在投影过程中解决对齐问题实现了统一的LVLM。这个简单而强大的模型在九个图像数据集上表现出色,在五个数据集和四个工具包中的图像问答方面表现优秀。 Video-LLaVA将图像和视频整合到一个特征空间中,改善了多模态交互。它在各种图像基准测试中胜过了Video-ChatGPT,并在图像问答方面表现出色。在视频理解方面,Video-LLaVA始终超过Video-ChatGPT,并在多个视频数据集上胜过最先进的Chat-UniVi。利用LLM的推理能力,Video-LLaVA使用Vicuna-7B v1.5进行训练,并使用LanguageBind和ViT-L14得到的视觉编码器。 Video-LLaVA通过在投影之前将图像和视频的视觉表示对齐来解决现有方法中编码图像和视频分开的问题,缓解了LLMs学习多模态交互的问题。Video-LLaVA在各种图像和视频基准测试中超过了先进的LVLM和Video-ChatGPT,展现了在理解和回应人类提供的指令方面的改善性能。这种方法强调了在投影之前将视觉特征对齐到统一空间的益处,以提升多模态交互学习。 Video-LLaVA通过在投影之前将图像和视频的视觉表示对齐到一个统一的特征空间中。它采用Vicuna-7B v1.5作为语言模型,使用由LanguageBind初始化的ViT-L14得到的视觉编码器。训练过程涉及将图像调整大小和裁剪为224×224。利用来自CC3M的558K LAION-CC-SBU图像文本对的子集进行了预训练。指令数据集来自各个地方,包括来自LLaVA v1.5的665K图像文本指令数据集和来自Video-ChatGPT的100K视频文本指令数据集。 Video-LLaVA在九个图像基准测试中表现出色,分别在MSRVTT、MSVD、TGIF和ActivityNet上比Video-ChatGPT提升了5.8%、9.9%、18.6%和10.1%。它在89个图像基准测试中表现优秀,超过了InstructBLIP-7B在问答方面的表现。与更强大的LVLM相媲美,它在VisWiz上超过了InstructBLIP-13B的14.7。Video-LLaVA显著提升了四个数据集上的视频问答,展现了其通过统一的视觉表示理解和学习图像和视频的能力。 总之,Video-LLaVA是一个非常庞大的视觉-语言模型,有效解决了对齐问题,并在各种图像基准测试中表现更好。其对图像和视频的联合训练增强了其功效,使其能够超越专门设计用于图像或视频的专家模型。该模型在统一视觉概念的理解以及图像问答基准测试中的出色表现,展示了其和谐的视觉训练框架的有效性,凸显了其强大的能力。 未来的研究可以探索在投影之前的先进对齐技术,以增强多模态交互中的LVLMs。应该研究其他方法来统一图像和视频的标记化,以解决对齐问题。通过对更多基准测试和数据集进行Video-LLaVA的评估,可以评估其泛化能力。与更大的语言模型进行比较可以阐明其可扩展性和潜在的增强效果。增强Video-LLaVA的计算效率以及研究联合训练对LVLM性能的影响是进一步探索的方向。

Leave a Comment

UCL和Google DeepMind的研究人员揭示了Transformer神经网络中上下文学习(ICL)的瞬息动态

模型在推理时利用输入来修改其行为的能力,而无需更新权重以解决训练期间不存在的问题,被称为上下文学习或ICL。神经网络结构,尤其是为了少样本知识而创建和训练的能够从少量示例中学习所需行为的能力,是最早表现出这种能力的。为了使模型在训练集上表现良好,它必须记住上下文中的示例-标签映射,以便在未来进行预测。在这些情况下,训练意味着在每个“episode”上重新安排与输入示例对应的标签。测试时提供了新的示例-标签映射,网络的任务是使用这些来对查询示例进行分类。 ICL的研究是由transformer的发展而演变而来的。人们注意到,作者并没有通过训练目标或数据来特别鼓励ICL;相反,经过适当大小的自回归训练后,基于transformer的语言模型GPT-3展示了ICL的能力。从那时起,已经有大量的研究探讨或记录了ICL的实例。由于这些令人信服的发现,大规模神经网络中的新兴能力成为研究的主题。然而,最近的研究表明,只有在某些具有特定语言数据特征的情况下,transformer的训练才会有时产生ICL。研究人员发现,在训练数据缺乏这些特征的情况下,transformer通常会转向内部权重学习(IWL)。在IWL状态下,transformer不使用新提供的上下文信息,而是使用存储在模型权重中的数据。关键是,ICL和IWL似乎相互矛盾;当训练数据具有突发特征(即对象以聚类形式而不是随机形式出现)并且具有大量的标记或类别时,ICL似乎更容易出现。有必要使用已建立的数据生成分布进行受控调查,更好地理解transformer中的ICL现象。 同时,还有一系列辅助语料研究探讨了直接在有机网络规模的数据上训练的巨型模型的出现,得出结论认为像ICL这样的非凡特征更可能在训练了更多数据的大型模型中出现。然而,依赖于大型模型带来了重要的实际障碍,包括快速创新、低资源环境下的能源高效训练和部署效率。因此,大量的研究致力于开发更小的transformer模型,这些模型可以提供等效的性能,包括出现ICL的能力。目前,发展紧凑而有效的转换器的首选方法是过度训练。这些小型模型通过使用更多的数据进行训练(可能是重复的)来计算预算,而不仅仅是遵循缩放规则所需的数据量。 图1:具有12层和64个嵌入维度,使用1600门课程进行训练,每类20个示例,上下文学习是暂时的。每个训练会话都会出现突发情况。由于训练时间不足,研究人员尽管发现这些环境极大地鼓励ICL,却没有看到ICL的瞬时性。(a) ICL评估器的准确性。(b) IWL评估器的准确性。研究团队注意到,由于测试序列属于分布之外,IWL评估器的准确性提高得非常缓慢,尽管训练序列的准确性为100%。(c) 训练日志的损失。两种颜色代表两个实验种子。 从根本上说,过度训练是建立在近期LLMs的ICL调查中的一个固有前提上的:持久性。人们认为,只要模型已经接受了足够的训练以产生ICL依赖能力,并且训练损失持续减少,模型将会在训练过程中保持。在这里,研究团队否定了普遍的持久性假设。他们通过修改一个常见的基于图像的少样本数据集来做到这一点,这使得我们能够在一个受控环境中全面评估ICL。研究团队提供了简单的场景,其中ICL出现并随着模型损失的减少而消失。 换个角度来说,尽管ICL被广泛认可为一种新兴现象,研究团队也应考虑到它可能只是暂时存在的可能性(图1)。研究团队发现,这种短暂性发生在各种模型大小、数据集大小和数据集种类上,尽管研究团队也表明某些属性可以延缓短暂性的出现。一般而言,那些被长时间不负责任地训练的网络发现ICL可能会瞬间消失,让人们对当代人工智能系统所期待的技能感到失望。

Leave a Comment

认识LQ-LoRA:一种LoRA的变种,允许低秩量化矩阵分解,以实现高效的语言模型微调

在人工智能迅猛发展的时代,大型语言模型(LLMs)的引入改变了机器与人类相互交互的方式。最近几个月,LLMs的数量呈指数增长,具备令人难以置信的能力和超先进的算法。像GPT 3.5、GPT 4、LLaMa、PaLM等模型在自然语言理解(NLU)、处理、翻译、摘要甚至内容生成方面展示了一些卓越的人类仿真能力。 这些LLMs是通过大量数据进行训练的。然而,当这些模型需要适应新数据集时,就会遇到挑战。研究人员通常在将这些庞大的LLMs适应新数据集时面临问题,因为全面微调的开销和内存需求很高。为解决LLM微调中的内存效率问题,最近一个研究团队提出了参数高效微调的方法。 通过学习原先预训练模型的较小、微调扩展,这些技术可以降低微调所需的内存量。低秩适应(LoRA)是一种受欢迎的有效LLM调整策略,它涉及重新参数化预训练模型的权重矩阵,仅微调其两个组成部分,即L1和L2,其余组成部分保持不变。 研究人员通过将LoRA应用于量化的预训练模型来增强其内存效率。为了节省内存,量化降低了模型的参数精度,如果量化显著,则零初始化可能不是最优选择。为了克服量化误差,团队提出了一种称为LQ-LoRA的LoRA变种。 LQ-LoRA通过一种受主成分分析(PCA)影响的迭代技术,将权重矩阵分解为量化组件Q和低秩组件L1L2。在LQ-LoRa中,L1和L2在适应过程中得到改进,并捕获了初始权重矩阵的高方差子空间。 团队表示,该方法使用整数线性规划来找到混合量化方法,以解决将同一量化配置应用于所有层的问题。通过给定总体期望比特率,该技术允许为每个矩阵分配不同的配置,包括比特数和块大小。 团队使用LQ-LoRA修改了不同大小的RoBERTa和LLaMA-2模型,分别是7B和70B。结果表明,LQ-LoRA比GPTQ-LoRA和强QLOrA基线表现更好。通过将2.5比特的LLaMA-2模型训练在OpenAssistant基准上,与使用4比特QLoRA微调的模型具有竞争力,表明建议的方法允许更激进的量化。 此外,通过调整数据校准语言模型,LQ-LoRA在模型压缩方面也表现出良好的性能。尽管比特率降低,但团队能够生成与完全精度下的原始模型具有竞争力的2.75比特LLaMA-2-70B模型。这表明该建议的方法可以大幅减少大型语言模型的内存需求,而不会牺牲特定活动的功能。 总而言之,LQ-LoRA是语言模型发展的一个重要转折点。其内存高效适应和数据感知考虑,以及动态量化参数调整,肯定会在人工智能领域引起范式转变。

Leave a Comment

芝加哥大学研究人员推出三维笔刷:一种利用文本作为输入,在网格上生成本地化风格纹理的人工智能方法

3D绘画刷通常用于3D建模或雕塑应用程序,用于创建和操作3D物体或模型。这些工具允许用户直接在3D表面上绘制,为模型添加纹理、颜色和细节。这个过程对于在游戏、动画、电影等各个行业中创造逼真纹理、添加复杂细节和让3D物体栩栩如生至关重要。 高度详细和准确的本地化对于限制编辑在特定区域内是很重要的,以防止与目标编辑无关的更改。通常使用一种叫做纹理映射的技术。纹理映射是一种围绕3D模型表面的2D图像或一组图像,用于提供颜色、表面图案、粗糙度、光泽度和其他视觉特性等细节。由顶点、边和面组成的3D结构形成了物体的形状。 芝加哥大学和Snap Research的研究人员开发了一种3D绘画刷,通过文本描述自动对网格上的本地语义区域进行着色。他们的方法是设计用于直接操作网格,生成无缝融入标准图形流水线的纹理映射。3D绘画刷可通过直观、自由形式的文本输入进行控制,允许用户使用开放词汇描述在各个网格上的编辑。 他们还开发了级联分数蒸馏(CSD)来增强本地纹理区域的细节和分辨率。使用CSD,他们可以修改本地化区域并变形本地化区域中的几何体。他们使用由多层感知器编码的神经场来表示本地化和纹理映射。这种本地化明确标记了纹理,并确保与本地边界一致的本地样式。 显式地学习本地化和纹理确保了本地化区域界限编辑。他们说,3D绘画刷的本地化比现有模型产生的本地化更清晰。用户可以使用他们的CSD来控制监督的粒度和全局理解,实现比其他SDS更高分辨率的纹理和本地化。 他们的方法使用在3D表面上定义的MLP来创建神经纹理,产生在3D中平滑变化的输出。当2D纹理映射在纹理接缝处存在不连续性时,也可以进行这样的操作。MLP提供的平滑度减少了伪影,产生了更少噪音的纹理,并包含超分辨率功能。 团队同时优化本地化和纹理区域。他们发现同时优化可以产生高度详细的纹理,使其有效符合预测的本地化区域。预测的本地化区域是锐利和复杂的。在未来,他们希望扩展本地化编辑能力,超越纹理和学习,使用相同的本地纹理映射来提供形状之间的对应关系。

Leave a Comment

Meta研究介绍了System 2 Attention(S2A):一种使用人工智能技术的方法,使得LLM能够根据输入环境中的重要部分来生成良好的回应

大型语言模型(LLMs)虽然在各种语言任务上高效,但往往显示出弱推理能力,会犯下非常简单的错误。它们有时会因为无关的语境而做出错误的判断,或者展示出一种叫做谄媚的问题,即模型虽然输入的文本是错误的,但仍然同意它。研究人员试图通过增加监督式训练数据或采用强化学习策略来解决这些问题。然而,更有效的解决方案是修复变压器架构中的潜在瓶颈,特别是注意机制。 在变压器中,软注意力往往会赋予输入文本的大部分重要性,包括不相关的内容。此外,由于训练方式的原因,它过于关注重复的标记,导致了上述问题。Meta的研究人员团队引入了一种新方法,称为系统2注意力(S2A),利用调整指令的LLM来识别和提取输入上下文的最相关部分,从而减轻了不必要信息的影响。这种方法的另一个优点是,控制LLM的注意力焦点成为可能,类似于人类如何处理注意力。 变压器中的注意机制使其能够识别文本中的相关性。虽然这增强了模型的下一个单词预测能力,但同时也使得模型更容易被语境中的错误相关性所误导。文本中重复单词的概率随着每次迭代而增加,形成了一个正反馈循环,导致模型专注于特定主题。S2A的工作方式是首先删除上下文中的不必要部分并重新生成,然后将其用于输出最终结果,而不是使用原始文本。 研究人员进行了各种实验来测试他们方法的性能。他们得出了以下结果: S2A提高了模型对有关观点的问题的真实性。 S2A增加了长篇生成文本的客观性,表明它不容易受到意见的影响。 此外,S2A还提高了模型在包含无关句子的数学问题上的性能。 研究人员还测试了S2A方法的不同变体(关注相关性而非无关性,删除不必要的词后保留原始语境等)。他们发现,除了少数实验外,这些变体的表现不如原始方法。 尽管该方法能够绕过无关信息,但仍可能受到其影响。此外,与标准LLM再生相比,它更具计算开销。然而,这个问题可以通过加快技巧来解决,研究人员将其留给未来工作。总体而言,S2A是一种可以防止LLM专注于文本中不重要部分以增加模型能力的方法。该技术改善了模型在处理观点提示和包含无关句子的数学问题时的性能。虽然仍有进一步改进的空间,但也可以探索其他途径以提高LLMs的推理能力。

Leave a Comment

见snntorch:一个用于使用脉冲神经网络执行基于梯度的学习的开源Python包

在人工智能领域,效率和环境影响已成为重要的关注点。加州圣克鲁兹大学的Jason Eshraghian开发了snnTorch这一开源Python库,实现了脉冲神经网络,从大脑在处理数据方面的出色效率中汲取灵感。研究中强调的关键问题在于传统神经网络的低效率和不断增长的环境足迹。 传统神经网络缺乏大脑处理机制的优雅性。脉冲神经网络模仿大脑,只在有输入时激活神经元,与持续处理数据的传统网络形成对比。Eshraghian旨在将人工智能注入到生物系统中观察到的效率中,为当前神经网络能量密集型所引起的环境担忧提供切实可行的解决方案。 鉴于snnTorch这一在大流行病期间产生的热情项目,其使用已取得了不错的成果,下载量超过了10万次。它的应用范围从NASA的卫星跟踪到与Graphcore等公司的合作,优化AI芯片。snnTorch致力于利用大脑的能源效率,并将其无缝集成到AI功能中。在芯片设计背景下,Eshraghian看到了通过软件和硬件共同设计以实现最大功率效率的计算芯片优化的潜力。 随着snnTorch的采用增加,对教育资源的需求也在增长。Eshraghian的论文作为该库的伴随文档具备双重功能:记录代码并提供一个基于大脑启发的人工智能的教育资源。它采用了极为诚实的方法,承认了神经形态计算的不确定性,避免了学生在这个领域中普遍存在的挫折感。 这项研究的诚实也体现在其呈现方式上,使用代码块来呈现,这是传统研究论文的一种变化。这些带有解释的代码块突出显示了某些领域的不确定性,提供了在经常晦涩难懂的领域中的透明度。Eshraghian旨在提供他在编码之旅中所希望拥有的资源。这种透明度在有关研究在神经形态硬件初创企业的入职培训中的应用方面获得了积极的回响。 这项研究探讨了大脑启发深度学习的限制和机会,并认识到相对于人工智能模型而言,我们对大脑过程的理解还存在差距。Eshraghian提出了一种前进的道路:识别相关性和差异。一个关键区别是大脑无法重访过去的数据,而专注于实时信息——这为可持续人工智能至关重要的增强能源效率提供了机会。 这项研究深入探讨了神经科学的基本概念:“共同激发,联结在一起”。传统上认为这与深度学习的误差反向传播截然相反,研究者提出了一种互补的关系,开辟了探索的道路。与生物分子工程研究人员合作在脑器官模型方面架起了生物模型与计算研究之间的桥梁。将“生物硬件”纳入软件/硬件共同设计范例,这种多学科方法承诺为大脑启发的学习提供深入的洞察力。 总之,snnTorch及其论文标志着迈向大脑启发人工智能的里程碑。其成功凸显了对传统神经网络的持续需求,即对能源效率更高的替代方案。研究者的透明和教育方法促进了一个致力于推动神经形态计算界限的协作社区。在snnTorch的指导下,该领域有潜力革新人工智能,并加深我们对人脑进程的理解。

Leave a Comment

“遇见超人类:一种新颖的AI框架,用于模拟具有潜在结构扩散的超真实人类生成”

从用户定义的条件(如文本和姿势)生成超逼真的人类图像对于各种应用非常有意义,包括图像动画和虚拟试穿。为了探索可控人类图像生成的任务,已经做出了许多努力。早期的方法要么依赖于重建方式的变分自动编码器(VAEs),要么通过生成对抗网络(GANs)提高了逼真度。尽管某些方法可以创建高质量的图像,但不稳定的训练和有限的模型容量等挑战限制了它们在小数据集和低多样性的情况下。 最新出现的扩散模型(DMs)引入了一种逼真合成的新范例,成为生成智能领域中的主流架构。然而,像稳定扩散和DALL·E 2这样的例子文本到图像(T2I)模型仍然难以创建具有一致解剖结构的人类图像,如手臂、腿和自然姿势。主要挑战在于人体形态的非刚性变形,需要难以仅通过文本提示来描述的结构信息。 最近的研究,如ControlNet和T2I-Adapter,尝试通过引入可学习的分支来调节预训练的DMs(如稳定扩散)以实现结构控制的图像生成,以插拔的方式进行。然而,这些方法存在主支和辅助支之间的特征差异,导致控制信号(如姿势映射)和生成的图像之间的不一致性。HumanSD提出通过通道级串联直接将身体骨架输入扩散U-Net以解决这个问题。然而,该方法只能生成有限多样性的艺术风格图像。此外,人类内容只通过姿势控制合成,忽略了深度图和表面法线图等其他重要的结构信息。 本文报道的工作提出了一个统一框架HyperHuman,用于生成高逼真度和多样化布局的现实世界人类图像。其概述如下图所示。 关键洞察是识别人类图像在多个粒度上固有的结构性质,从粗级身体骨架到细粒度的空间几何。在一个模型中捕捉明确外观和潜在结构之间的这种相关性对于生成连贯和自然的人类图像至关重要。该论文建立了一个大规模的以人为中心的数据集HumanVerse,包含了3.4亿个现实世界的人类图像和全面的注释。基于这个数据集,设计了两个模块用于高逼真度可控人类图像生成:潜在结构扩散模型和结构引导细化器。前者增强了预训练扩散主干,同时去噪RGB、深度和法线方面,确保去噪纹理和结构之间的空间对准。 由于这种精心设计,图像外观、空间关系和几何建模都在一个统一的网络中进行协同。每个分支互补,融入了结构意识和纹理丰富性。增强的噪声计划消除了低频信息泄漏,确保局部区域的深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习并促进特征融合。通过空间对准的结构图,结构引导细化器为详细、高分辨率的图像生成合成了预测条件。此外,设计了强大的调节方案,以减轻两阶段生成管线中的误差积累的影响。 下图报告了与最先进技术的比较。 每行的前4×4网格包含输入骨骼,共同去噪的法线、深度和粗糙RGB(512×512),这些都是通过HyperHuman计算得出的。 这就是HyperHuman的概述,它是一个新颖的人工智能框架,用于生成具有高逼真度和多样化布局的真实环境中的人类图像。如果您有兴趣并且想要了解更多信息,请随意参考下面引用的链接。

Leave a Comment

《超越Q-Star:OpenAI的PPO可能实现AGI突破》

人工通用智能(AGI)引起了人工智能领域的关注,象征着超越人类能力的系统。OpenAI作为重要的AGI研究机构,最近从Q*转向了专注于Proximal Policy Optimization(PPO)。这一转变意味着PPO作为OpenAI的持久首选在AGI领域的重要性,也呼应了Peter Welinder的预期:“当大家了解Q学习的时候,等着他们听说PPO吧。”在本文中,我们深入探讨PPO,解析其复杂性,并探索对未来AGI的影响。 解析PPO Proximal Policy Optimization(PPO)是由OpenAI开发的强化学习算法。它是一种用于人工智能的技术,其中代理与环境进行交互以学习任务。简单来说,假设代理正在尝试找到玩游戏的最佳方式。PPO通过小心处理策略的变化来帮助代理学习。与一次性进行大的调整不同,PPO在多轮学习中进行小而谨慎的改进。就像代理在思考和渐进的方式下练习和完善其游戏技能。 PPO还关注过去的经验。它不仅使用收集到的所有数据,而且选择最有帮助的部分进行学习。这样,它避免了重复错误,专注于有效的方法。与传统的算法不同,PPO的小步更新保持稳定,对于一致的AGI系统训练至关重要。 应用的多样性 PPO的多样性体现在在探索和利用之间找到了微妙的平衡,这在强化学习中是一个关键因素。OpenAI在各个领域使用PPO,从在模拟环境中训练代理到精通复杂游戏。其增量策略更新确保适应性,并限制了变化,使其在机器人技术、自主系统和算法交易等领域不可或缺。 铺路通往AGI OpenAI战略性地依靠PPO,强调战术性的AGI方法。通过在游戏和模拟中利用PPO,OpenAI推动了人工智能能力的边界。全局光照的收购强调了OpenAI对逼真模拟环境代理训练的承诺。 我们的观点 自2017年以来,OpenAI将PPO作为默认的强化学习算法,因为它易于使用且性能良好。PPO在应对复杂性、保持稳定性和适应性方面的能力使其成为OpenAI的AGI基石。PPO的多种应用凸显了其效果,并巩固了其在不断发展的人工智能领域中的关键角色。

Leave a Comment

这篇AI论文提出了ML-BENCH一种新颖的人工智能方法,旨在评估LLMs在利用开源库中现有功能方面的有效性

最近,LLM模型被广泛应用于语言编程相关的活动中,成为强大的语言代理人。尽管取得了令人印象深刻的进展,但在实际的编程环境需求中,这些模型在静态实验环境下展现的能力与不断变化的实际编程场景之间仍存在很大差距。 标准代码生成基准测试评估LLM模型能否从零开始生成新的代码。然而,编程规范很少需要从头开始生成所有代码组件。 在编写实际应用程序的代码时,通常会使用现有的公开库。这些开发的库为各种挑战提供了强大的、经过实战检验的解决方案。因此,评估代码LLM模型的成功应该不仅限于函数产生的能力,还包括其能够正确使用参数的能力。 耶鲁大学、南京大学和北京大学的一项新研究提出了ML-BENCH,这是一个真实且全面的基准数据集,用于评估LLM模型理解用户指令、浏览GitHub仓库和产生可执行代码的能力。ML-BENCH提供了高质量、可教授的满足指令要求的代码。ML-BENCH由9,444个示例、130个任务和14个流行的机器学习GitHub仓库组成。 研究人员在他们的调查中使用Pass@k和参数命中精度作为度量标准。使用这些工具,他们在ML-BENCH环境中探索了GPT-3.5-16k、GPT-4-32k、Claude 2和CodeLlama的潜力。ML-BENCH为LLM模型提供了新的测试。实证结果显示,GPT模型和Claude 2的表现远远超过CodeLlama。虽然GPT-4相对于其他LLM模型表现出了显著的性能提升,但在实验中仅完成了39.73%的任务。其他众所周知的LLM模型出现了幻觉和表现不佳。研究结果表明,LLM模型不仅需要编写代码,还需要理解详尽的文档。这项技术的关键贡献是ML-AGENT的提出,它是一种自主语言代理人,旨在通过错误分析来解决发现的不足。这些代理人可以理解人类语言和指示,生成高效的代码并完成困难的任务。 ML-Bench和ML-Agent代表了自动化机器学习过程的艺术水平的重大进展。研究人员希望这能引起其他研究人员和实践者的兴趣。

Leave a Comment

超越噱头:探索生成人工智能在各行业中的实际应用

介绍 当今世界上,”生成式人工智能”这个词引起了广泛讨论。包括麦肯锡、毕马威、Gartner和彭博在内的顶级科技和管理公司不断进行研究,以评估这项新技术的力量并预测其未来。所有这些研究都表明,生成式人工智能在企业中的日益影响力使其成为当今职场的必备技能。调查还显示,到2032年,GenAI市场预计将达到1.3万亿美元,每个人都希望成为其中一员。本文讨论了生成式人工智能在各个行业中的应用、增长和影响,以及如何参与全球变革。 什么是生成式人工智能以及它有多大? 生成式人工智能不再只是一个流行词。这种新技术,AI能够通过练习创造新内容并进行学习,已经席卷全球。GenAI工具基本上是能够根据它们接受的培训数据生成内容的大型学习模型(LLMs)。它们从训练数据中学习模式和结构,并产生遵循类似模式的输出。这些模型可以创建图像、视频、音乐、语音、文本、软件代码、产品设计等。由于目前可用的大量培训数据,这项技术的可能性是无限的。 过去几个月,该领域不断扩展,每天都在发现生成式人工智能的新应用和用例。在企业层面上,GenAI的整合已经带来了更快的产出、更好的生产力和经济增长。因此,越来越多的公司现在使用生成式人工智能来节省时间和金钱。 生成式人工智能的企业应用包括自动化、人员或机器的增强,以及业务和IT流程的自主执行。麦肯锡的报告显示,全球企业正在通过部署生成式人工智能工具来最大程度地提高生产力并将风险降至最低。公司现在投入更多资源进行生成式人工智能培训和辅导、用例选择、员工技能提升和风险控制。未来,组织将需要他们的员工精通生成式人工智能,以保持工作相关性。 生成式人工智能的商业层面 目前,GenAI市场包括模型训练基础设施、LLM推理设备、数字广告、专业软件和服务、个性化助手以及加速编码的副驾驶。尽管开发生成式人工智能工具和软件的公司是该领域的最大受益者,但这些产品的应用正在帮助各个行业获得好处。 那么,生成式人工智能有多大?根据彭博智能的一份报告,2022年GenAI市场的估值为400亿美元,而且显然随着时间的推移而增长。报告预测,由于未来十年内复合年增长率为42%,生成式人工智能市场到2032年将达到1.3万亿美元。 2023年:生成式人工智能在企业中迎来突破性一年 自2020年以来,生成式人工智能一直是Gartner人工智能炒作周期的一部分。然而,2023年是它在企业中的突破之年。尽管这项技术相对较新,但已经发展成为几乎每个行业的一个不可或缺的组成部分。 根据麦肯锡的一份全球报告,33%的领先公司已经在使用生成式人工智能,而另外25%的公司正在进行人工智能整合。报告还指出,22%的高级管理层高管使用AI工具进行工作。 随着技术的不断发展,该技术的新用途和应用进一步扩展。各个行业中所有层级的工作岗位正在自动化,最大限度地减少人为干预,并节省人工工作时间以完成更重要的任务。因此,企业正在寻找具备AI技能的人才,给他们带来竞争优势。 此外,根据麦肯锡的调查,40%的公司计划增加他们对人工智能的投资,因为随着技术的进步。这表明,虽然慢慢地,但肯定地,所有的工作都将涉及某种程度的以AI为动力的功能,我们所有人都需要为此做好准备。 企业领导对生成式人工智能的思考 全球各地的企业领导都对生成式人工智能的可能性感到兴奋,并坚信它真正是一场改变游戏规则的力量。Oracle Analytics Cloud的高级首席数据科学家Vikas Agrawal博士确认,生成式人工智能具有颠覆企业解决方案的潜力,特别是在与文本和用户界面相关的领域。谈到提升员工技能,他说:“随着人工智能工具的发展,数据科学家需要掌握增强和改进这些工具的技能,而不仅仅是运用它们。” 就此类似,Dataiku的前首席人工智能战略师Jepson Taylor表示,人工智能初创公司的成功取决于招募正确的人才。作为纽约大学人工智能硕士班的联席主办者,他预见到未来人工智能系统将能够自主编写和优化代码,为应用程序带来更高效和强大的功能。 在与Analytics Vidhya的一次采访中,Beans.ai应用人工智能主管Sandeep Singh将印度和美国的人工智能生态系统进行了比较。他表示:“印度的人工智能生态系统独特地处于快速采纳和产品化的位置,不同于湾区以研究为主的人工智能领域。” 回顾印度的行业领袖,Fractal…

Leave a Comment

解码复杂的 AI 模型:普渡大学研究人员将深度学习预测转化为拓扑地图

复杂预测模型的高度参数化特性使得对预测策略进行描述和解释困难。研究人员引入了一种使用拓扑数据分析(TDA)的新方法来解决这个问题。这些模型,包括机器学习、神经网络和人工智能模型,已经成为各个科学领域中的标准工具,但由于它们的广泛参数化而通常难以解释。 普渡大学的研究人员意识到需要一种将这些复杂模型转化为更易于理解的格式的工具。他们利用TDA构建Reeb网络,提供了一种拓扑视图,有助于预测策略的解释。该方法已应用于各个领域,展示了它在大型数据集上的可扩展性。 所提出的Reeb网络本质上是拓扑结构的离散化,以便可视化预测景观。Reeb网络中的每个节点代表预测空间的本地简化,计算为具有类似预测的数据点的聚类。节点基于共享数据点连接,揭示了预测与训练数据之间的有用关系。 这种方法的一个显著应用是在检测训练数据中的标签错误。Reeb网络在识别模糊区域或预测边界方面表现出良好的效果,指导进一步对潜在错误的研究。该方法还在理解图像分类中的泛化和观察与BRCA1基因中的致病突变相关的预测方面展示了实用性。 与tSNE和UMAP等广泛使用的可视化技术进行了比较,突出了Reeb网络提供有关预测之间边界和训练数据与预测之间关系的更多信息。 构建Reeb网络需要具备一组具有未知标签的数据点、数据点之间已知的关系以及每个预测值的实值指南等前提条件。研究人员采用了一种称为GTDA(基于图的TDA)的递归分裂和合并过程,从原始数据点和图中构建了Reeb网络。经过对ImageNet中的130万图像的分析验证了该方法的可扩展性。 在实际应用中,Reeb网络框架应用于根据亚马逊评论预测产品类型的图神经网络。它揭示了产品类别中的关键模糊性,强调了预测准确性的限制,并提出了需要改进标签的建议。将该框架应用于在Imagenet数据集上预训练的ResNet50模型时,也获得了类似的见解,提供了图像的视觉分类和揭示了真相标签错误的分类。 研究人员还展示了将Reeb网络应用于理解与恶性基因突变相关的预测,特别是BRCA1基因。网络突出了DNA序列中的局部组成部分及其与次级结构的映射,有助于解释。 总之,研究人员预计拓扑检查技术,如Reeb网络,将在将复杂预测模型转化为可操作的人类级洞察力方面起到关键作用。该方法从标签错误到蛋白质结构方面的问题,表明其广泛的适用性和作为预测模型的早期诊断工具的潜力。

Leave a Comment

Google AI揭示了Mirasol3B:一种跨音频、视频和文本模式学习的多模自回归模型

在机器学习这个广阔的领域中,解码嵌入在不同模态(音频、视频和文本)中的复杂性是一个巨大的挑战。时间对齐和不对齐模态之间的复杂同步以及视频和音频信号中的庞大数据量促使研究人员寻求创新的解决方案。这就是Google专门团队开发的Mirsol3B,一种巧妙的多模自回归模型。这个模型解决了不同模态的挑战,并且在处理更长的视频输入方面表现出色。 在深入了解Mirsol3B的创新之前,了解多模机器学习的复杂性是至关重要的。现有的方法在同步时间对齐的模态(音频和视频)和不对齐的模态(如文本)之间存在同步困难。这种同步挑战在视频和音频信号中的大量数据的情况下会更加复杂,通常需要压缩。越来越明显的是,需要能够无缝处理更长视频输入的有效模型。 Mirsol3B标志着在应对这些挑战方面的范式转变。与传统模型不同,它采用了多模自回归架构,将时间对齐和上下文模态的建模分开。Mirsol3B由用于时间对齐模态(音频和视频)的自回归组件和用于不对齐模态(如文本信息)的独立组件组成,提出了一种新颖的观点。 Mirsol3B的成功取决于其对时间对齐和上下文模态的熟练协同。视频、音频和文本具有不同的特点;例如,视频是一种具有高帧率的时空视觉信号,而音频是一种具有更高频率的一维时间信号。为了桥接这些模态,Mirsol3B采用了交叉注意机制,促进自回归组件之间的信息交流。这确保了模型全面理解不同模态之间的关系,而无需精确同步。 Mirsol3B的创新优势在于将自回归建模应用于时间对齐模态,保留了关键的时间信息,尤其是在长视频中。视频输入被智能地分割成较小的块,每个块包含可管理的帧数。组合器是一个学习模块,会处理这些块,生成联合的音频和视频特征表示。这种自回归策略使模型能够了解各个块及其时间关系,这对于有意义的理解是至关重要的一个方面。 组合器是Mirsol3B成功的核心部分,它是一个学习模块,旨在有效地协调视频和音频信号。该模块通过选择较少的输出特征来应对处理大量数据的挑战,从而有效地减少了维度。组合器表现出各种风格,从简单的基于Transformer的方法到Memory Combiner(如Token Turing Machine,支持具有可微分内存单元)。这两种风格都有助于模型能够高效处理广泛的视频和音频输入。 Mirsol3B的性能令人印象深刻。该模型在包括MSRVTT-QA、ActivityNet-QA和NeXT-QA在内的各种基准测试中始终优于最先进的评估方法。即使与拥有800亿参数的更大模型(如Flamingo)相比,Mirsol3B凭借其3,000亿参数的紧凑性能表现出卓越能力。值得注意的是,该模型在开放式文本生成环境中表现出色,展示了它的泛化能力和生成准确的响应的能力。 总的来说,Mirasol3B在解决多模态机器学习挑战方面迈出了重要的一步。其创新的方法,结合自回归建模、时间对齐模态的战略分割以及高效的Combiner,为该领域设定了新的标准。研究团队优化性能的能力,即使使用相对较小的模型也不损失准确性,使Mirasol3B成为在需要强大多模态理解的实际应用中有希望的解决方案。随着追求能够理解我们世界复杂性的AI模型的探索继续进行,Mirasol3B在多模态领域脱颖而出,成为进步的标志。

Leave a Comment

这篇AI论文介绍了子句编码器:一种对文本进行细粒度语义表示的对比学习上下文嵌入AI模型

来自宾夕法尼亚大学、华盛顿大学和腾讯AI实验室的研究人员提出了一种子句编码器,这是一种对比学习的上下文嵌入模型,它为文本序列中的原子命题生成不同的嵌入。与传统的句子嵌入不同,它通过学习不同含义单元的上下文嵌入,专注于细粒度的语义表示。该模型在检索支持事实和识别条件语义相似性等任务中具有很好的效果。子句编码器与句子编码器具有相似的推理成本和空间复杂度,展示了其实用性。 子句编码器通过为文本序列中的原子命题生成不同的嵌入,专注于细粒度的语义表示。应用包括检索支持事实和识别条件语义相似性。精细级别的有效编码有望影响文本评估、归属和事实估计。受到文本归属需求的影响,子句编码器设计具有潜在的跨文档信息链接应用。 该研究挑战了将整个文本序列编码为定长向量的常见做法,引入了子句编码器。子句编码器架构在跨文档信息链接方面具有潜在应用,为具有不同信息粒度的任务提供了灵活性。该研究旨在评估子句编码器在检索支持事实和识别条件语义相似性等任务中的实用性。 该模型为文本序列中的不同原子命题生成不同的上下文嵌入。使用二进制标记掩码作为输入,基于Transformer架构将子句编码器应用于检索支持事实和识别条件语义相似性。尽管研究承认英文文本的实验局限性,但提出了更广泛的语言适用性潜力,并引入了创建子句编码器训练数据的自动过程。 子句编码器在识别相同上下文中命题之间的微妙语义差异方面优于句子编码器,提高了精确性和召回率。子句编码器在原子事实检索方面表现与文档级和句子级模型相当,展示了增强的记忆能力。研究强调了子句编码器在不同粒度的多向量检索中的潜力,表明其在各种检索任务中的灵活性。 该架构在跨文档信息链接和具有不同粒度的各种任务方面具有潜力。原子事实检索评估显示了子句编码器在检索支持命题方面的实用性。子句编码器提高了多向量检索的召回率,突出了其在各种检索任务中的潜在优势。该研究强调了子句编码器在文本归属中解决粒度挑战的重要性。 研究表明,所展示的发现可能为进一步的长篇文本评估、归属和事实估计研究铺平道路。研究承认在英文文本方面实验规模有限,提出了对多语种子句编码器的未来研究,并指出了对其他语言的潜在扩展。研究强调了对持续探索的需求,希望该工作将激发子句编码器应用的进展,进一步推动该领域的研究。

Leave a Comment

加州大学伯克利分校和中国上海交通大学的研究人员引入了“重新表述样本”的概念,以重新思考语言模型的基准和污染问题

大型语言模型的复杂性越来越高,评估也变得更加困难。社区在相对短的时间内产生了许多基准,但基准分数并不总是与实际性能相对应。一些证据表明,许多流行的基准测试可能使用了用于微调和预训练的有缺陷的数据集。 尽管普遍认为这是一个重要问题,但找出污染源一直很困难。N-gram叠加和嵌入相似性搜索都得到了广泛应用。字符串匹配在GPT-4、PaLM和Llama等最新创新中被广泛使用,用于N-gram叠加污染的检测。然而,其精确度略低。嵌入相似性搜索会查看先前训练模型(如BERT)的嵌入,以发现相关且可能被污染的样本。然而,在决定相似性水平时在召回率和精确度之间找到平衡可能很困难。此外,模型训练中有一种新兴趋势,即使用由LLM(例如GPT-4)生成的合成数据,使用字符串匹配来识别污染可能更加困难。 为了研究去污方法,美国加州大学伯克利分校和上海交通大学进行了一项新研究,引入了“重新表述样本”的概念,其语义与原始样本相同,但很难通过现有的污染测试来识别。LLM通过将测试样本翻译和改写成另一种语言生成重新表述样本。研究人员证明,如果将这种重新表述的示例用于训练,则产生的模型对过度拟合非常敏感,并且可以在测试基准上实现极高的性能。使用精细校准的13B Llama模型可以与GPT-4在所有基准测试中的性能匹敌,同时通过N-gram叠加作为污染而不被察觉。这种行为在广泛使用的基准测试如MMLU、GSM-8k和HumanEval中观察到。因此,识别重新表述样本的能力至关重要。 研究人员解释了传统去污技术的缺陷,并提出了一种新颖的基于LLM的方法。为了确定任何前k个样本是否与测试实例过于相似,他们首先应用嵌入相似性搜索来找到与所讨论的测试样本最相似的模型。结果证明,他们建议的LLM去污方法优于传统技术。他们在用于微调和预备训练的各种热门数据集上测试了他们的去污器。同时还发现,GPT-3.5的合成数据集CodeAlpaca中有相当一部分重新表述样本来自HumanEval(确切地说,占12.8%)。这暗示了在使用LLM生成的假数据进行训练时可能存在污染的潜在可能。 研究人员建议社区为使用公共基准测试来评估LLM建立更全面的去污流程。他们希望创建新的一次性测试,如Codeforces和Kaggle竞赛,以公平评估LLM并克服这些基本问题。

Leave a Comment

“自动聚类的启动:探索多智能体框架的基础知识”

介绍 踏上一段激动人心的旅程,探索多智能体框架的基础知识,并进入软件开发的未来,这就是“自动产生:探索多智能体框架基础”的主题。在OpenAI的ChatGPT之后,一个名为LLM(LLM agent)的专业领域正在经历前所未有的飞速发展,彻底改变了AI代理开发。从自动化繁琐任务到解决动态决策中的挑战,LLM代理正在挑战曾经被认为不可能的界限。 随着我们进入空间计算时代,设想一个世界,计算机与现实无缝融合,AI代理的重要性变得至关重要。想象一下通过语言和手势指令代理完成任务,具有无与伦比的推理和行动能力。然而,我们正处于AI代理革命的黎明期,见证着新的基础设施、工具和框架的诞生,这些赋予代理应对越来越复杂任务的能力。剪裁多智能体聊天系统的先进框架Autogen,在我们的探索中扮演重要的角色。 在这篇文章中,让我们一起揭开AI代理革命的早期阶段的细节,深入了解Autogen的能力,并探索如何让这些智能实体焕发生机。 学习目标 了解什么是LLM代理 学习Autogen是什么,并探索使用Autogen构建代理的基础知识 使用Autogen和OpenAI API构建代理 探索LLM代理的现实世界应用案例 本文是《数据科学博文马拉松》的一部分。 什么是LLM代理? 传统的语言模型在许多方面都表现出色,例如翻译、问答等。然而,它们的知识和能力是有限的。这就像是一名泥瓦工在修筑房子时缺少工具一样。然而,有观察发现,LLM代理在给予必要的工具后能够进行推理和行动。大多数LLM代理对世界的了解有限,但我们可以通过提示将它们与自定义来源的信息进行增强。 我们可以通过两种方法实现这一目标:检索增强生成和LLM代理。在检索增强生成中,我们通过自定义的硬编码流程将信息提供给模型。但对于代理来说,基于其推理,LLM代理将利用其掌握的工具。例如,带有Serp工具的GPT-4将浏览互联网并相应地回答,或者在可以访问雅虎金融工具时,它可以获取和分析股票表现。因此,LLM模型、工具和用于推理和采取行动的框架的组合就是AI代理的概念。 构建LLM代理的平台和工具急剧增长。Autogen就是其中之一。让我们了解一下Autogen是什么,以及如何使用它来创建LLM代理。 什么是Autogen? Autogen是微软推出的一款面向构建稳定多智能体应用的开源工具。该工具从头开始设计,充分考虑到多智能体之间的通信。它允许我们创建LLM应用程序,其中多个代理互相对话以找到解决方案。这些代理是高度可定制的,意味着我们可以引导它们执行特定的任务。它还与Langchain工具生态系统完美集成,这意味着我们可以利用现有的Langchain工具来增强我们的代理。 为了完成任务,Autogen提供了不同类型的代理,包括: 助理代理:负责完成编码、审核等任务 用户代理:如其名称所示,这些代理代表最终用户行动。这些代理将人类引入代理循环,以引导对话 可教授代理:该代理被配置为易于教授。我们可以向代理提供LLM中缺失的显式信息 我们在大多数情况下只需要一个助理代理和用户代理进行配置。所以,让我们看看如何使用 Autogen 配置代理。RAG…

Leave a Comment

南开大学和字节跳动的研究人员推出了一种名为ChatAnything的新型人工智能框架,专注于生成LLM-增强人物形象

南开大学和字节跳动的研究人员提出了一个名为ChatAnything的新型框架,旨在以在线方式生成基于大型语言模型(LLM)的角色的人形化人物形象。目标是仅根据文本描述创建具有自定义视觉外观、个性和语调的人物形象。研究人员利用LLM的上下文学习能力使用精心设计的系统提示生成个性。他们提出了两个创新概念:声音的混合 (MoV) 和扩散物质的混合 (MoD),用于多样化的语音和外观生成。 MoV使用预定义音调的文本到语音(TTS)算法,根据用户提供的文本描述选择最匹配的音调。MoD结合了文本到图像生成技术和说话头算法,简化了生成说话对象的过程。然而,研究人员观察到当前模型生成的拟人化对象常常被预训练的面部标志检测器无法检测到,导致面部动作生成失败。为了解决这个问题,他们在图像生成过程中引入像素级引导,以注入人脸标志。这个像素级注入显著提高了面部标志检测率,实现了基于生成的语音内容的自动面部动画。 本论文讨论了大型语言模型(LLMs)及其上下文学习能力的最新进展,将其定位于学术讨论的前沿。研究人员强调了需要一个框架来生成具有自定义个性、声音和视觉外观的LLM增强人物形象。对于个性生成,他们利用LLM的上下文学习能力,使用文本到语音(TTS) API创建了声音模块池。声音的混合模块(MoV)根据用户文本输入选择音调。 使用最新的说话头算法解决了由语音驱动的说话动作和表情的视觉外观问题。然而,研究人员在使用扩散模型生成的图像作为说话头模型的输入时遇到了挑战。只有30%的图像能够被最先进的说话头模型检测到,表明分布不对齐。为了弥合这一差距,研究人员提出了一种零样本方法,在图像生成阶段注入面部标志。 提出的ChatAnything框架由四个主要模块组成:基于LLM的控制模块、人像初始化器、文本到语音模块的混合以及动作生成模块。研究人员结合了扩散模型、声音变换器和结构控制,创建了一个模块化和灵活的系统。为了验证引导扩散的有效性,研究人员创建了一个带有不同类别提示的验证数据集。他们使用预训练的面部关键点检测器评估面部标志检测率,展示了他们提出方法的影响。 研究人员介绍了一个全面的框架ChatAnything,用于生成具有拟人特征的LLM增强人物形象。他们解决了面部标志检测方面的挑战,并提出了创新的解决方案,在验证数据集中呈现了有希望的结果。这项工作为将生成模型与说话头算法整合以及提高数据分布对齐性的未来研究开辟了新的途径。

Leave a Comment

这项人工智能研究介绍了BOFT 一种新的通用微调人工智能方法,用于基础模型的适应性调整

“`html 在人工智能领域,尤其是大型语言模型的引入,最近取得了许多发展,为几乎所有领域铺平了AI的道路。ChatGPT和Stable Diffusion等基础模型具有显著的泛化能力。然而,由于参数数量的增加,从头开始训练这些模型是一个挑战。 微调模型的方法非常简单,因为它不涉及任何额外的推理延迟。然而,传统微调技术难以理想地维护权重矩阵的关系信息,这些技术具有较低的学习速率。研究人员一直在研究正交微调(OFT)技术,该技术通过使用相同正交矩阵对同一层中的神经元进行转换,在微调过程中保持神经元之间的成对角度。虽然这种技术具有很大的潜力,但也存在同样的局限性,即正交矩阵的高维度导致了庞大的可训练参数数量。 为了解决这个挑战,一组研究人员提出了正交蝴蝶(BOFT)方法,这是一种独特且最新的方法,解决了正交微调中的参数效率问题。BOFT受到Cooley-Tukey快速傅里叶变换技术中蝴蝶结构的启发,通过将其与许多分解稀疏矩阵组装在一起,生成稠密的正交矩阵。为了将正交矩阵表示为稀疏矩阵的乘积,需要以计算时间为代价来节省空间。 研究团队指出,通过将其比作一个网格结构图上的信息传输问题,可以理解这种技术,这使得可以使用多种保持表达能力的稀疏矩阵分解技术,同时限制可训练参数的数量。BOFT受到了Cooley-Tukey方法的蝴蝶图的启发,其主要创新在于蝴蝶分解过程。 借助这种分解,可以创建一个含有O(log d)个稀疏矩阵的稠密矩阵,每个稀疏矩阵具有O(d)个非零元素。BOFT可以通过保证每个稀疏矩阵的正交性,以O(d log d)的参数数量提供高效的正交参数化,从而显著减少了原始OFT参数化的数量。BOFT提供了一个通用的正交微调框架,并包含OFT。 研究团队将BOFT与OFT中的块对角结构进行了比较,并且已经证明为了降低有效可训练参数,BOFT和OFT都给正交矩阵增加了稀疏性。但对于下游应用,BOFT的蝴蝶结构提供了正交群矩阵和单位矩阵之间更平滑的插值的较小假设类别。为了强调低秩矩阵和稀疏矩阵都是实现参数效率的结构化矩阵的家族,该结构化方法已与LoRA中的低秩结构进行了比较。 研究人员总结了他们的主要贡献如下: 研究了正交微调中参数效率的问题,以提高大型模型对下游任务的适应性。 引入了一种用于信息传输的新框架,将构建参数高效稠密正交矩阵的挑战转化为网格结构图内的问题。 引入了一种参数效率的正交微调方法-正交蝴蝶(BOFT)。 讨论了矩阵分解以及BOFT为什么能够显著降低可训练参数,同时保持表达能力和训练稳定性的理论解释。 BOFT在适应应用中表现出色,表明其具有卓越的参数效率和泛化能力,优于目前的技术水平。 “`

Leave a Comment

斯坦福研究人员在大型语言模型的准确性方面创新:自动优先排名和NLP(自然语言处理)进展以降低错误率

来自斯坦福大学和北卡罗来纳大学教堂山分校的研究人员解决了由语言模型产生的事实不准确的音调,也称为幻觉。在无需人工标注的情况下,研究人员对语言模型进行了微调,以增强在开放式生成环境中的事实准确性。利用自然语言处理的最新创新,他们采用了通过与外部知识库一致性评估事实性的方法,并使用直接偏好优化算法进行微调。该方法显著改善了Llama-2的事实性,大大降低了生成传记和医学问题回答方面的事实错误率,达到了7B规模。 各种策略旨在减轻语言模型中的事实错误,包括提示、内部表示扰动和基于检索的方法。在冲突解决和事实保持方面存在挑战,尤其是随着模型规模的增大。FactScore变种采用了训练期间的检索来解决推理时间复杂度的问题。通过微调实现的基于偏好的学习能够有效减少错误事实。该研究引入了一种无参考方法,利用语言模型的不确定性估计真实性。从自动生成的偏好对中学习事实性成为一种省时高效的方法,展示了不需要人工干预的潜力性改进。 该研究侧重于无限制生成环境,提出了一种通过微调语言模型来改善事实性的方法,无需人工标注。他们利用最新的自然语言处理创新,包括通过外部知识库判断事实性和使用直接偏好优化算法。该方法涉及从自动生成的事实性偏好排序中学习,与基准数据集上的其他策略相比,生成传记和回答医学问题的事实错误率显着降低。 本研究在判断事实性方面结合了与外部知识库一致性或模型置信度评分。 使用直接偏好优化算法进行微调,侧重于超越监督模仿的目标。它提出使用现有的检索系统或新颖的无检索方法,从自动生成的事实性偏好排序中学习。评估包括FactScore等自动度量标准,人工评估者的观点,以及与推理时间干预和对比层解码等方法的比较。 该方法证明了从自动生成的事实性偏好排序中学习以提高语言模型事实性的有效性。经过微调的Llama-2模型在生成传记方面的事实错误率降低了58%,在回答医学问题方面降低了40%,与RLHF或解码策略相比。 人工评估者认为FactTune-FS模型优于SFT模型。 GPT-4评估和FactScore评级显示高相关性,表明FactTune-FS在减少事实错误方面取得了成功。 该研究提出了改善语言模型事实性的有效策略,着重于长篇生成。 探索了两种方法:利用外部知识进行基于参考的真实性估计和利用模型的不确定性进行无参考估计。 用任一方法微调语言模型始终能减少错误事实。 无参考方法为事实性改进提供了可扩展的自我监督策略,无需金标准参考语料库。 实验结果显示出有希望的研究方向,建议进一步探索结合事实性调整方法并将方法扩展至更大模型。 未来的研究建议探索事实性调整与现有方法的组合,例如事实性调整DOLA实验。 建议进一步研究将事实性增强的解码技术与事实性调整过程相结合以提高事实性。 通过评估不同方法的组合效果,如事实性调整和推理时间干预,可以提供关于补充机制的见解。 建议研究较简单的提取原子事实的方法,并将事实性调整方法扩展到更大模型,如GPT-4。

Leave a Comment