大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。
Leave a CommentTag: Editors Pick
神经渲染的进展在重建场景和生成新视点方面取得了显着突破。然而,其有效性很大程度上取决于相机姿态的精确预计算。为了减少这个问题,许多努力已经被做出来,以无需预计算相机姿态来训练神经辐射场(NeRFs)。然而,NeRFs的隐式表示使得同时优化3D结构和相机姿态变得困难。 来自UC San Diego、NVIDIA和UC Berkeley的研究人员引入了COLMAP-Free 3D Gaussian Splatting(CF-3DGS),它增强了两个关键要素:从视频中的时间连续性和显式的点云表示。CF-3DGS不是一次优化所有帧,而是以连续的形式构建场景的3D高斯,随着摄像机的移动,逐个“增长”一个结构。CF-3DGS为每个帧提取一个局部3D高斯集,并维护整个场景的全局3D高斯集。 https://arxiv.org/abs/2312.07504 使用不同的3D场景表示来生成真实的图像,包括平面、网格、点云和多平面图像。由于其出色的逼真渲染能力,NeRFs(神经辐射场)在该领域中备受关注。3DGS(三维高斯喷溅)方法利用纯显式表示和差分点基喷溅方法实现对视图的实时渲染。 CF-3DGS合成未知相机参数的视图。它同时优化3D高斯喷溅(3DGS)和相机姿态。它使用局部3DGS方法从附近帧中估计相对相机姿态,使用全局3DGS过程从未观察到的视图中逐步扩展3D高斯。CF-3DGS利用显式的点云来表示场景,并利用视频流中的连续性。它按顺序处理输入帧,逐步扩展3D高斯以重建场景。这种方法实现了快速训练和推理速度。 https://arxiv.org/abs/2312.07504 CF-3DGS方法在姿态估计和新视图合成的稳健性方面优于先前最先进的方法。该方法在CO3D视频上进行验证,这些视频呈现了更复杂和具有挑战性的相机移动,并且在视图合成质量方面胜过了Nope-NeRF方法。该方法在CO3D V2数据集上的相机姿态估计的所有指标上一直超过Nope-NeRFe,表明它在估计相机姿态方面的稳健性和准确性,尤其是在具有复杂相机移动的场景中。 综上所述,CF-3DGS是一种有效且稳健的方法,利用视频的时间连续性和显式点云表示合成视图,无需进行结构运动(SfM)预处理。它同时优化相机姿态和3DGS,主要适用于视频流或有序图像集合。它还具有未来扩展的潜力,以适应无序图像集合。
Leave a Comment“`html 世界模型是一种旨在构建对环境的内部了解并利用这些知识来预测该空间内未来事件的人工智能系统。研究人员主要在受控环境中测试这些世界模型,如视频游戏或特定任务,例如驾驶。最终目标是雄心勃勃的 – 创建可以处理遇到的各种情况的模型,这些情况在不可预测的现实世界中发生。 早期尝试创建这种系统的一个例子是Gen-2视频生成系统。它就像一个初入行的艺术家,试图制作展示基本物体运动理解的短视频。然而,它在更复杂的任务中有困难,对于涉及快速相机移动或复杂物体行为的情景挣扎不已。这揭示了当前世界模型的局限性,促使研究人员深入研究和改进这些系统。 构建有效的世界模型之路面临着几个挑战。一个关键方面是这些模型需要生成准确一致的环境地图。它不仅仅是识别运动,还要在给定空间内进行导航和互动。此外,这些模型不仅必须理解世界的动态,还必须理解和模拟其居民的行为,包括真实的人类行为。这个多方面的挑战需要不断的研究和创新。 研究人员正在积极努力克服这些挑战,致力于增强世界模型的适应性和能力。就像升级视频游戏中的角色一样 – 这些模型需要在生成可靠的地图和在不同复杂情景中进行导航时进行升级。目标是使它们具备处理现实世界的不可预测性的能力。 为了衡量这些世界模型的有效性,研究人员采用了一些度量标准。这些度量标准衡量了模型生成一致准确地图的能力,其在不同环境中导航的熟练程度以及其对人类行为的逼真模拟。这些可量化的测量方法作为基准,让研究人员评估这些不断发展的世界模型的进展和能力。 总之,开发通用世界模型是一个充满挑战和令人兴奋前景的持续过程。随着研究人员不断完善这些模型,承诺在各种现实情景中进行更好的模拟和预测。这些模型的演变不仅推动了人工智能能力的界限,还有可能深入理解复杂环境并改进人工智能与我们的动态世界的互动。 The post General World Models: Runway AI Research Starting a New Long-Term Research Effort…
Leave a Comment鉴于人工智能(AI)在今年取得的许多进展,AI已成为2023年的一个重要讨论点并不足为奇。现在,几乎在每个领域中都可以找到AI的应用案例,其中之一就是在医疗保健和医学领域的令人兴奋和有用的应用。从药物发现到转录医学文件,甚至协助手术,它正在改变医疗专业人员的生活,还有助于减少错误并提高其效率。本文讨论了2023年几个有可能改变医学界的AI模型。 Med-PaLM 2 Med-PaLM由Google Research设计用于医学领域,能够对医学问题提供高质量的答案。该模型利用了Google的LLM的强大性能,并是其中一个在回答USMLE样式问题时达到人类专家水平的首个模型。在评估时,该模型展示了理解症状、进行复杂推理并选择适当治疗的能力。此外,它在研究中基于MedQA医学考试基准测试中取得了86.5%的准确率。尽管显示出了有前途的能力,研究人员希望进行更严格的评估,以确保该模型可以在关键安全领域部署。 Bioformer Bioformer是BERT的一个紧凑版本,可用于生物医学文本挖掘。虽然BERT在NLP应用中取得了最先进的性能,但通过减少参数可以提高计算效率,对性能的影响很小。Bioformer研究人员采用这种方法开发了一个模型,其模型尺寸比BERT大大减小(减少60%)。该模型是在PubMed摘要和PubMed Central全文文章上训练的,并使用了生物医学词汇表。研究人员发布了两个版本的模型-Bioformer8L和Bioformer16L,在命名实体识别、关系抽取、问题回答和文档分类等参数评估中表现良好,即使参数更少。 MedLM MedLM是由Google开发的一套针对医疗保健用例进行调优的基础模型。MedLM中的两个模型旨在处理复杂任务并扩展到各种任务中。这些模型的主要目的是自动化任务,以节省时间,提高效率并改善患者整体健康状况,Google的研究人员与德勤合作以试行MedLM的能力。MedLM还与其他AI系统集成,如BenchSci的ASCEND,以提高临床研究和开发的质量和速度。 RoseTTAFold RoseTTAFold是一款通过有限信息预测蛋白质结构的深度学习软件。它能够研究蛋白质序列的模式、蛋白质氨基酸的相互作用以及它们的三维结构。该模型使研究人员能够模拟蛋白质和小分子药物彼此之间的相互作用,促进药物发现研究。该模型的研究人员还公开了其代码,以造福整个社区。 AlphaFold AlphaFold是由DeepMind开发的功能强大的AI模型,可以根据蛋白质的氨基酸序列预测其三维结构。DeepMind与EMBL的欧洲生物信息研究所(EMBL-EBI)合作共同发布了一个包含超过2亿个AI生成的蛋白质结构预测结果的数据库,以促进科学研究。在CASP14中,AlphaFold在高准确性的情况下超过了其他模型,产生了令人满意的结果。此外,它具有更好地帮助研究人员理解蛋白质结构和推进生物研究的潜力。 ChatGLM-6B ChatGLM是一个双语模型(中英文),它在中文医疗对话数据库上进行了精细调整。该模型在相对较短的时间内(13小时)进行了精细调整,使其成为非常实惠且适用于医疗目的的LLM。该模型还具有更长的序列长度,因此支持更长的对话和应用程序。该模型使用了监督式精细调整、RLHF等技术进行训练,从而使其能够更好地理解人类指令。因此,该模型具有出色的对话和问答能力。 本文最初发表在MarkTechPost上,文章标题为:医疗领域人工智能模型清单(2023年)。
Leave a Comment<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-17-at-10.19.56-PM-1024×512.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-17-at-10.19.56-PM-150×150.png”/><p>神经网络,作为现代计算的奇迹,面对包含异质列的表格数据时遇到了重大障碍。这个挑战的实质在于网络无法有效处理表格内的多样化数据结构。为了解决这个问题,该论文探索了创新方法,以增强神经网络在处理这种复杂数据结构时的性能。</p><p>带有行和列的表格数据通常看似简单。然而,当这些列之间在性质和统计特征上有显著差异时,复杂性就出现了。传统神经网络由于对特定类型信息的固有偏向而难以理解和处理这些异质数据集。这种偏见限制了它们对表格数据中的复杂微妙之处的把握和解码能力。网络频谱偏向低频分量而非高频分量,从而进一步加剧了这个挑战。这些异质表格数据内部错综复杂的互联特征对于这些网络的把握和处理构成了一种巨大挑战。</p><p>在这篇<a href=”https://www.xiaozhuai.com/microsoft-introduces-a-new-approach-to-training-language-models-in-ai-research-the-method-mimics.html”>论文</a>中,来自亚马逊的研究人员提出了一种新方法,以克服这个挑战,该方法将表格特征转化为低频表示。这种转变技术旨在减轻神经网络的频谱偏见,使其能够捕捉嵌入在这些异质表格数据中的复杂信息所必需的高频成分。实验中对表格和图像数据集的傅里叶分量进行了严格分析,以提供关于频谱和网络解码能力的见解。所提议的解决方案的一个关键方面是在减少频率以提高网络理解力之间的微妙平衡,以及在改变数据表示时可能丧失重要信息或对优化产生负面影响的潜在风险。</p><p>该论文提供了全面的分析,说明频率减少转换对神经网络解读表格数据的影响。图表和经验数据展示了这些转换如何显著增强网络性能,特别是在解码合成数据中的目标函数方面。探索还扩展到评估常用的数据处理方法及其对频谱和后续网络学习的影响。这种细致的研究揭示了这些方法在不同数据集上的不同影响,强调了所建议的频率减少方法的卓越性能和计算效率。</p><p>论文的关键要点:</p><ul><li>神经网络在理解异质表格数据方面面临的固有挑战,包括偏见和频谱限制。</li><li>所提出的频率减少转换的方法增强了神经网络解码这些数据集内的复杂信息的能力。</li><li>全面的分析和实验验证了所提出方法在增强网络性能和计算效率方面的有效性。</li></ul>
Leave a Comment深度学习有潜力通过改进评分函数来增强分子对接。当前的采样协议通常需要先验信息以生成准确的配体结合位姿,这限制了评分函数的准确性。斯坦福大学的研究人员开发的两个新协议,GLOW和IVES,解决了这个挑战,展示了增强位姿采样效果的能力。通过在包括AlphaFold生成的蛋白质结构在内的各种蛋白质结构上进行基准测试,验证了这些方法。 深度学习在分子对接中通常依赖于刚性蛋白质对接数据集,忽视了蛋白质的柔性。虽然柔性对接考虑了蛋白质的柔性,但准确性较低。GLOW和IVES是解决这些局限性的高级采样协议,持续优于基准方法,尤其在动态结合口袋中。这对于提高蛋白质-配体对接中的配体位姿采样至关重要,同时也对于提高基于深度学习的评分函数的准确性至关重要。 分子对接预测在药物发现中至关重要,它可以预测配体在蛋白质结合位点的位置。传统方法在生成准确的配体位姿方面面临挑战。深度学习可以提高准确性,但依赖于有效的位姿采样。GLOW和IVES为挑战性的情景提供了改进的采样协议,提高了准确性。适用于无配体或预测蛋白质结构,包括AlphaFold生成的结构,它们提供了精选的数据集和开源Python代码。 GLOW和IVES是分子对接中的两个配体位姿采样协议。GLOW使用软化的范德华势生成配体位姿,而IVES通过合并多个蛋白质构象来提高准确性。与基准方法的性能比较表明GLOW和IVES的优越性。在交叉对接案例中,通过测试集评估正确位姿的百分比。对于有效的IVES来说,种子位姿质量至关重要,SMINA对接评分和用于选择的评分也很关键。 GLOW和IVES在准确采样配体位姿方面优于基准方法,在具有明显蛋白质构象变化的挑战性情景和AlphaFold基准测试中表现出色。对测试集的评估确认了它们正确采样的姿态的可能性更大。IVES通过生成多个蛋白质构象,在几个构象数上达到了与Schrodinger IFD-MD相媲美的几何深度学习性能。由GLOW和IVES生成的5000个蛋白质-配体对的配体位姿数据集提供了宝贵的资源,有助于开发和评估分子对接中基于深度学习的评分函数。 https://arxiv.org/abs/2312.00191 总之,GLOW和IVES是两种功能强大的位姿采样方法,相比基本技术,特别是在困难情景和AlphaFold基准测试中更加有效。IVES可以生成多个蛋白质构象,这对于几何深度学习非常有优势。此外,GLOW和IVES提供的数据集包含5000个蛋白质-配体对的配体位姿,是分子对接中基于深度学习的评分函数的研究人员的宝贵资源。
Leave a Comment在GitHub上注册的六个步骤 步骤 1:注册GitHub账号 访问他们的网站并点击注册按钮。 填写相关信息,包括您的用户名、电子邮件和密码。 完成后,验证您的电子邮件,您将拥有一个免费的GitHub账号,可用于代码存储库和协作。 https://docs.github.com/en/get-started/quickstart/hello-world 步骤 2:在GitHub上创建一个代码库 在GitHub上创建一个代码库 要为您的项目创建GitHub代码库,请按照以下简单的步骤进行: 1. 在任何GitHub页面的右上角点击“+”符号,然后选择“新建代码库”。 2. 在“代码库名称”框中为您的代码库命名。 3. 在“描述”框中添加简短的描述。 4. 选择您的代码库是公开还是私人。 5. 选中“添加README文件”的选项。 6. 点击“创建代码库”按钮。 此代码库可以用于组织和存储文件、与他人进行协作,并在GitHub上展示您的项目。 https://docs.github.com/en/get-started/quickstart/hello-world…
Leave a Comment自然语言处理(NLP)在过去几个月里取得了长足的进步,尤其是引入了大型语言模型(LLM)。像GPT、PaLM、LLaMA等模型由于其在文本生成、摘要生成和问题回答等多种NLP任务方面的能力,已经获得了很大的流行度。研究人员一直致力于将LLM的力量用于医疗领域。 医疗LLM包括ChatDoctor、MedAlpaca、PMC-LLaMA、BenTsao、MedPaLM和Clinical Camel,用于改善患者护理和支持医疗从业人员。尽管当前的医疗LLM已经显示出良好的结果,但仍然存在一些需要解决的挑战。许多模型忽视了类似对话和问答等临床环境中的生物医学NLP任务的实际价值。医疗LLM在诸如电子病历(EHR)、出院小结生成、健康教育和护理计划等临床情景中的潜力已成为最近努力的研究课题;然而,这些模型经常缺乏共同的评估数据集。 另一个缺点是目前使用的大多数医疗LLMs仅根据其回答医疗问题的能力来评估候选人,忽视了其他重要的生物医学任务,如信息检索、文本生成、关系抽取和文本摘要。为了克服这些问题,一组研究人员在探索医疗LLM的不同方面时进行了一项研究,回答了以下五个主要问题。 创建医疗LLMs:第一个问题旨在调查创建医疗LLMs的方法和因素。这包括理解创建这些模型背后的思想,以及它们的结构、训练集和其他相关要素。 评估医疗LLMs在下游任务中的表现:第二个问题集中于评估医疗LLMs在实际情况下的实际结果或表现。这包括评估这些模型在真实世界情况下的表现,特别是在临床医学相关任务方面。 在实际临床实践中使用医疗LLMs:第三个问题探讨了医疗LLMs在临床环境中的实际使用情况。这包括调查如何将这些模型纳入医疗从业人员的常规工作流程中,以改善沟通、决策和患者护理。 应用医疗LLMs带来的问题:第四个问题认识到使用医疗LLMs存在障碍,就像使用任何其他技术一样。为了在医疗环境中负责任地和成功地实施这些模型,可能需要解决一些障碍,包括道德问题、模型中的潜在偏见和可解释性问题。 成功构建和应用医疗LLMs:最后一个问题询问未来,以阐明改进医疗LLMs的设计和应用,以确保医疗LLMs继续成为医疗行业中有用的工具。 总之,本调查广泛分析了医疗领域中的LLMs。它总结了从10种不同的生物医学活动中获得的评估,并详细概述了它们的应用。通过解决关键问题,该研究旨在提供对医疗LLMs的全面了解,鼓励更深入的分析、团队合作和医疗AI领域的更快发展。
Leave a Comment视频超分辨率旨在将低质量视频提升到高保真度,面临的挑战是解决现实世界场景中常见的多样化且复杂的退化问题。与以前关注合成或特定相机相关退化不同,该复杂性源于多个未知因素,如降采样、噪声、模糊、闪烁和视频压缩。虽然最近的基于CNN的模型在缓解这些问题方面显示出了希望,但由于有限的生成能力,它们在生成逼真纹理方面仍然存在局限性,导致过度平滑。本研究探讨了利用扩散模型来解决这些限制并增强视频超分辨率的方法。 现实世界视频增强的复杂性要求采用超越传统方法的解决方案,以应对多方面的退化问题。尽管基于CNN的模型在缓解多种退化形式方面展示出实力,但它们的局限性在于生成逼真纹理,往往导致过度平滑的输出结果。扩散模型已成为一个希望的象征,在生成高质量图像和视频方面展示出令人印象深刻的能力。然而,将这些模型应用于视频超分辨率仍然是一个艰巨的挑战,原因是扩散采样中存在固有的随机性,导致低级纹理的时间不连续性和闪烁。 为了应对这些挑战,本研究中的NTU研究人员采用了潜在扩散框架内的局部-全局时间一致性策略。在局部层面上,预训练的放大模型通过额外的时间层进行微调,整合了3D卷积和时间注意力层。这种微调显著提高了局部序列的结构稳定性,减少了纹理闪烁等问题。同时,一个新颖的流引导的循环潜在传播模块在全局层面上操作,通过逐帧传播和推断期间的潜在融合,确保了更长视频的整体稳定性。 图1:AI生成和现实世界视频的超分辨率对比。建议的Upscale-A-Video展示了出色的放大性能。通过使用正确的文本提示,它以更多的视觉逼真度和更精细的细节呈现惊人的效果。 本研究探索了创新的方向,通过引入文本提示来指导纹理生成,使模型能够产生更加逼真和高质量的细节。此外,将噪声注入输入可以增强模型对于重度或未知退化的鲁棒性,从而在恢复和生成之间实现控制。较低的噪声水平优先考虑恢复能力,而较高的噪声水平则鼓励更精细的细节生成,实现保真度和质量之间的权衡。 主要贡献在于制定了一种强大的实际视频超分辨率方法,将局部-全局时间策略结合到隐藏扩散框架中。通过整合时间一致性机制和对噪声水平和文本提示的创新控制,模型在基准测试上表现出卓越的视觉逼真度和时间连贯性,展示出了最新技术水平。
Leave a Comment大型语言模型(例如 GPT-3)由于在训练和推理过程中的计算需求而需要大量能量。能源使用情况根据模型的大小、任务复杂性、硬件规格和操作持续时间等因素而存在显著差异。 训练这些模型需要大量的计算资源,通常涉及高性能 GPU 或 TPU,导致长时间的大量能量消耗。估计训练像 GPT-3 这样的大型语言模型可能使用相当于多个家庭在几天或几周内消耗的电量。 优化能源消耗至关重要,且需要在不降低模型效率的情况下进行。研究人员旨在减少大语言模型训练中没有吞吐量损失可以消除的能量消耗。分布式执行规划中,每个流水线阶段的计算量是一个重要问题。由于深度神经网络(DNN)是粗粒度的张量运算,计算量各不相同,因此平衡每个阶段是不可能的。 密歇根大学和华盛顿大学的研究人员发现,在训练过程中,并非所有能量消耗都直接对整体训练吞吐量有贡献,可以大幅减少能量消耗而不会减缓训练速度。他们发现能量膨胀的内在和外在原因,并提出了一个名为“Perseus”的单一优化框架来最小化它们。 内在能量膨胀的原因是计算不平衡,而外在能量膨胀是多个流水线并行运行,同步扩展到庞大的数据集进行训练。快于行动迟钝算法的流水线是快速的,浪费了不会影响整体训练吞吐量的能量。 Perseus以高效的方式预先表征整个迭代时间的能量,在正常操作条件下最小化内在能量膨胀。通过次优能量减少,它减轻了外在能量膨胀。它通过精确地减慢流水线中的计算来寻找非阻塞流水线的能量最优迭代时间。 研究人员在各种强扩展配置中使用混合并行性来模拟训练大型模型的迟行者。他们测量了能量膨胀的数量和Perseus的外在能量节省。在计算完成后,其他非迟行者等待迟行者完成计算,导致外在能量膨胀。他们减少了微批次的数量和每个流水线迭代的开头和结尾的流水线气泡比例。这消除了内在能量膨胀,从而减少了能量消耗。 将Perseus集成到训练工作流程中对人工智能发展的未来具有重要影响。他们的工作有潜力极大地增强LLM和GenAI的分布式训练的可持续性。
Leave a Comment神经科学和人工智能的交叉点已经取得了非凡的进展,尤其是通过开发一款名为”snnTorch”的开源Python库。这个创新性的代码模拟了受到大脑高效数据处理方法启发的尖峰神经网络,由加州圣克鲁兹大学的团队努力而来。 在过去的四年里,该团队的Python库”snnTorch”取得了显著的发展,拥有超过10万次的下载量。它的应用不仅限于学术界,还广泛用于各种项目,包括NASA的卫星追踪工作和半导体公司的人工智能芯片优化。 IEEE会议的最新出版是对snnTorch编码库的文档化,也是一个为学生和对脑启发式人工智能感兴趣的编程爱好者量身定制的教育资源。这篇论文提供了对神经科学原则和深度学习方法相互融合的坦诚见解。 snnTorch开发团队强调尖峰神经网络的重要性,突出了它们模拟大脑高效信息处理机制的特点。他们的主要目标是将脑部的高效处理能力与人工智能的功能结合起来,从而发挥两个领域的优势。 snnTorch在大流行病期间作为一个激情项目而开始,是由团队对Python编码和优化计算芯片以提高功耗效率的渴望发起的。如今,snnTorch已成为全球许多编程项目中的基本工具,支持卫星追踪到芯片设计等各个领域的项目。 snnTorch的独特之处在于其代码以及与开发相伴的全面教育资源。团队的文档和可交互的编码材料已成为社区中宝贵的资产,为对神经形态工程和尖峰神经网络感兴趣的人提供了一个入门点。 由团队撰写的IEEE论文是snnTorch代码的全面指南。这篇论文以非传统的代码块和有主见的叙述方式,真实地描绘了神经形态计算的未定性。它意在避免学生对编程决策的理论基础不完全理解而感到沮丧。 除了作为教育资源的角色外,该论文还提供了沟通脑启发式学习机制和传统深度学习模型之间鸿沟的视角。研究人员深入探讨了将AI模型与大脑功能对齐的挑战,强调了神经网络中的实时学习和“一起发射、一起连线”这一有趣概念。 此外,团队与加州圣克鲁兹大学的基因组学研究所合作,探索脑器官oid以揭示大脑信息处理的见解。这种合作象征着生物学和计算范式的交汇,有望通过snnTorch对器官oid的仿真能力在理解以脑为灵感的计算中迈出重要一步。 研究人员的工作体现了合作精神,构建了多个领域之间的桥梁,推动脑启发式人工智能走向实际应用。通过繁荣的Discord和Slack频道专门讨论snnTorch,这一倡议继续促进产学合作,甚至影响着寻求精通snnTorch的工作描述。 加州圣克鲁兹大学的团队在脑启发式人工智能方面迈出的开创性步伐预示着一个重塑深度学习、神经科学和计算范式的变革时代。
Leave a CommentNVFi致力于解决理解和预测3D场景在时间上演变的复杂挑战,这对增强现实、游戏和电影制作等应用至关重要。虽然人类轻而易举地理解此类场景的物理学和几何学,但现有的计算模型难以从多视点视频中明确学习这些属性。核心问题在于现有方法(包括神经辐射场及其衍生品)不能根据学习到的物理规律提取和预测未来的运动。 NVFi的雄心是通过纯粹从多视点视频帧中派生出的分解速度场,来填补这一差距,这在以前的框架中尚未研究过。 3D场景的动态性给计算带来了深远的挑战。虽然神经辐射场的最新进展在插值观察时间范围内的视图方面表现出了非凡的能力,但它们无法学习到显式的物理特征,如物体速度。这种限制阻碍了它们准确预测未来运动模式的能力。目前的研究将物理学与神经表示结合起来,在重建场景几何、外观、速度和黏度场方面表现出了希望。然而,这些学习的物理属性通常与特定场景元素交织在一起,或者需要补充的前景分割掩码,限制了它们在场景之间的可转移性。 NVFi的开创性目标是解开和理解整个3D场景内的速度场,进一步扩展训练观察之外的预测能力。 香港理工大学的研究人员引入了一个全面的框架NVFi,包括三个基本组成部分。首先,关键帧动态辐射场促进了对3D空间中每个点的时间相关体积密度和外观的学习。其次,帧间速度场捕获了每个点的时间相关3D速度。最后,由物理知识约束增强的关键帧和帧间元素的联合优化策略组织了训练过程。该框架采用现有的时间相关NeRF架构进行动态辐射场建模时具有灵活性,同时使用相对简单的神经网络(如MLP)进行速度场建模。其核心创新在于第三个组件,联合优化策略和特定的损失函数使得无需额外的物体特定信息或掩码,能够精确学习到分解速度场。 NVFi的创新之处在于它能够纯粹从多视角视频帧中对3D场景的动态进行建模,消除了对特定对象数据或掩码的需求。它精心关注于分解速度场,这是掌控场景运动动力学的关键,它为众多应用提供了关键。在多个数据集上,NVFi展示了它在推断未来帧、语义场景分解和不同场景之间速度传递方面的能力。这些实验验证证实了NVFi在各种实际应用场景中的适应性和优越性能表现。 主要贡献和要点: 引入NVFi,一种新颖的从多视角视频中建模动态3D场景的框架,无需先验对象信息。 设计和实现了一个神经速度场,并结合联合优化策略进行有效的网络训练。 成功展示了NVFi在各种数据集上的能力,展示了在未来帧预测、语义场景分解和场景间速度传递方面的优越性能。
Leave a Comment原发性肝癌,包括肝细胞癌(HCC)和肝内胆管癌(ICCA),由于其独特的特点而带来了重大挑战。同时存在肝细胞-胆管癌混合型(cHCC-CCA),具有HCC和ICCA两者特征的患者,给临床诊断和管理带来了复杂度。这种罕见情况使得制定精确的治疗策略变得困难,从而导致不良的患者结果。为了解决这一难题,本研究探讨了人工智能(AI)在将cHCC-CCA肿瘤重新分类为纯HCC或ICCA方面的应用,旨在提供改进的预后评估和分子洞察力。 作为肝癌的一种罕见亚型,cHCC-CCA由于其肝细胞和胆管的形态融合而令病理学家困扰。这种复杂的融合常常使得诊断具有挑战性,导致临床管理存在模糊性。此外,缺乏共识指南进一步复杂化了治疗决策。这种复杂性来自于HCC和ICCA之间的模糊界限,cHCC-CCA的遗传特征类似于这两种类型,引发了关于其分子特征的争议。该研究依赖于充分利用AI作为病理图像分析中的有力工具,以区分和潜在地重新分类cHCC-CCA肿瘤为HCC或ICCA。该研究旨在揭示这种分类是否与临床预后和分子遗传模式相一致,帮助更清晰地理解cHCC-CCA。 来自全球各地的研究人员开展的这项研究采用了一个AI流程,该流程基于自监督特征提取器和基于注意力的聚合模型进行训练。这种AI框架旨在识别纯HCC和ICCA,并在发现组中展示了令人印象深刻的交叉验证接收器操作特征曲线下面积(AUROC)达到0.99,展示出两类之间的强大区分能力。随后对独立TCGA队列的验证进一步证实了模型的功效,实现了0.94的AUROC,标志着高度的泛化能力。值得注意的是,AI模型在强调类似ICCA表型的特征方面表现出很强的侧重,表明其能够识别细微的组织学细节。 AI模型在区分纯HCC和ICCA方面的能力促使我们进一步探索其在临床和分子方面的影响。这种区分为cHCC-CCA患者的精确定位和治疗个性化提供了新的可能性,可能弥合对该疾病治疗效果不佳的差距。此外,对ICCA类似特征的关注提示了模型捕捉到了细微的组织结构,与已知的ICCA的病理特征相吻合。这些发现强调了AI在指导更准确的诊断和cHCC-CCA预后标志上的潜力。 论文的关键要点: 诊断潜力:AI在将cHCC-CCA重新分类为HCC或ICCA的过程中表现出了潜在的诊断突破。 临床意义:AI驱动的分类在指导cHCC-CCA患者个性化治疗策略和预测中具有潜力。 分子洞察力:模型对类似ICCA的特征的关注提示其能够捕捉到微妙的组织结构,揭示了cHCC-CCA与已知肝癌类型之间的分子相似性。
Leave a Comment悉尼科技大学(UTS)GrapheneX-UTS人本人工智能中心的研究人员已经开发出一种令人瞩目的系统,能够解码无声思维并将其转化为书面文字。这项技术在帮助那些因中风或瘫痪等情况而无法说话的人进行交流,并促进人与机器之间的改进互动方面具有潜在的应用。 在新奥尔良的NeurIPS会议上作为焦点论文展示的研究团队介绍了一种便携式和非侵入性的系统。GrapheneX-UTS HAI中心的团队与悉尼科技大学工程与信息技术学院的成员合作,开发了一种将脑电信号转化为可理解文字内容的方法,而无需进行侵入性手术。 在研究过程中,参与者戴着一顶装有电极的专用帽子,通过脑电图(EEG)记录脑部活动。捕获到的脑电图数据使用名为DeWave的AI模型进行处理,该模型由研究人员开发,将这些脑电信号转化为可理解的单词和句子。 研究人员强调了这种创新在将原始脑电波直接转化为语言上的重要性,突出了离散编码技术在脑到文字翻译过程中的整合。这种方法在神经科学和人工智能领域开辟了新的可能性。 与以往需要侵入性手术如脑植入物或核磁共振成像机使用的技术不同,该团队的系统提供了一种非侵入性和实用的替代方案。重要的是,它不依赖于眼动跟踪,使其在日常使用中更具适应性。 该研究涉及29名参与者,相比过去仅限于一两个个体的研究,确保了更高水平的鲁棒性和适应性。虽然使用帽子收集脑电信号会引入噪声,但研究报告显示在脑电翻译方面表现出色,超过了先前的基准。 团队强调了该模型在匹配动词而非名词方面的熟练程度。然而,在解析名词时,系统显示出倾向于同义词对而不是完全翻译的趋势。研究人员解释说,在处理单词时,语义上相似的词可能会引发类似的脑电波模式。 目前的翻译准确性,以BLEU-1分数衡量,约为40%。研究人员的目标是将这个得分提高到与传统语言翻译或语音识别程序相媲美的水平,这些程序通常可以达到约90%的准确性水平。 这项研究基于UTS在脑机接口技术方面的先前进展,表明它对于改变之前受到身体限制影响的个体的交流途径有着巨大的潜力。 这项研究的发现为将思维无缝转化为文字提供了希望,为面对交流障碍的个体提供了力量,并促进了更好的人机交互。
Leave a Comment<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-1024×689.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-150×150.png” /><p>近年来,卷积神经网络(CNNs)在图像识别领域成为了一种流行的技术。它们在目标检测、分类和分割任务中取得了极高的成功。然而,随着这些网络变得更加复杂,也出现了新的挑战。来自腾讯人工智能实验室和香港中文大学的研究人员提出了四条指导方针,以解决大内核CNNs中的架构挑战。这些指导方针旨在通过将大内核的应用扩展到超越视觉任务的领域,如时间序列预测和音频识别,以提高图像识别的效果。</p><p>UniRepLKNet探索了具有非常大内核的ConvNets的功效,将其扩展到点云数据、时间序列预测、音频和视频识别等领域。尽管以前的研究以不同的方式引入了大内核,但UniRepLKNet专注于使用这些内核的ConvNets的架构设计。它在三维模式学习、时间序列预测和音频识别方面优于专门模型。尽管视频识别精度略低于技术模型,但UniRepLKNet是一个从头开始训练的通用模型,提供了在各种领域中的多功能性。</p><p>UniRepLKNet引入了用于具有大内核ConvNets的架构指南,强调宽广的覆盖面而不过度深入细节。这些指导方针解决了Vision Transformers(ViTs)的局限性,专注于高效的结构、重新参数化卷积层、基于任务的内核大小和整合3×3卷积层。UniRepLKNet在图像识别方面优于现有的大内核ConvNets和近期架构,展示了其高效性和准确性。它在超越视觉的任务中展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色。UniRepLKNet展示了在学习点云数据中的三维模式上的多才多艺,超过了专门的ConvNet模型。</p><p>该研究为大内核ConvNets引入了四条架构指南,强调大内核的独特特性。UniRepLKNet遵循这些指南,利用大内核在图像识别中超越竞争对手。它展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色,而无需特定的自定义。UniRepLKNet在学习点云数据中的三维模式方面也显示出多样性,超过了专门的ConvNet模型。引入了膨胀再参数块以增强非膨胀大内核卷积层的性能。UniRepLKNet的架构将大内核与膨胀卷积层相结合,捕捉小尺度和稀疏模式以提高特征质量。</p><p>UniRepLKNet的架构在图像识别任务中取得了一流的性能,具有88.0%的ImageNet准确率,55.6%的ADE20K mIoU和56.4%的COCO box AP。在全球温度和风速预测挑战中,它在时间序列预测和音频识别方面的MSE和MAE方面优于竞争对手,展示了其普遍的感知能力。UniRepLKNet在学习点云数据中的三维模式方面表现出色,超过了专门的ConvNet模型。该模型在语义分割等下游任务中展示出有希望的结果,证实了其在各个领域中的卓越性能和效率。</p><p>总之,研究的要点可以概括如下:</p><ul><li>该研究为大内核ConvNets引入了四条架构指南</li><li>这些指导方针强调了大内核ConvNets的独特特性</li><li>UniRepLKNet是根据这些指导方针设计的ConvNet模型,在图像识别任务中优于竞争对手</li><li>UniRepLKNet展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色,无需定制</li><li>UniRepLKNet在学习点云数据中的三维模式方面具有多样性,超过了专门的模型</li><li>该研究引入了膨胀再参数块,增强大内核卷积层的性能</li><li>该研究提供了宝贵的架构指南,介绍了UniRepLKNet及其能力,并提出了膨胀再参数块的概念</li></ul>
Leave a Comment“` 由于人工智能和深度学习在领域的进步,许多新的创新成为可能。借助神经网络的帮助,如文本或图像合成,分割和分类等复杂任务得到了成功处理。然而,由于计算需求的原因,神经网络训练可能需要几天甚至几周来获得充分的结果。预训练模型的推理有时也很慢,特别对于复杂的设计。 并行化技术可以加快深度神经网络的训练和推理。尽管这些方法被广泛使用,但神经网络中的某些操作仍然是按顺序进行的。扩散模型通过一系列去噪阶段生成输出,正向和反向传递逐层进行。随着步骤数的增加,这些过程的顺序执行变得计算代价高昂,可能导致计算瓶颈。 为了解决这个问题,苹果公司的研究人员提出了DeepPCR,一种独特的算法,旨在加快神经网络的训练和推理。DeepPCR通过将一系列L个步骤视为一组方程的答案来执行。该团队采用了并行循环消减(PCR)算法来提取此解决方案。将顺序处理的计算成本从O(L)降低到O(log2 L)是DeepPCR的主要优势。减少复杂性后的速度加快,尤其是对于高值的情况。 团队进行了实验,以验证关于DeepPCR降低复杂性的理论断言,并确定加速的条件。通过将DeepPCR应用于多层感知机的前向传递和后向传递并行化,他们实现了前向传递速度提升30倍,后向传递速度提升200倍。 团队还通过使用DeepPCR来训练具有1024层的ResNets展示了DeepPCR的适应性。由于DeepPCR的使用,训练速度可以提高多达7倍。该技术用于扩散模型的生成阶段,相比顺序方法,生成速度提高了11倍。 团队总结了他们的主要贡献如下: 引入了DeepPCR,这是一种创新的方法,用于并行化神经网络的序列处理,其主要特点是能够将计算复杂性从O(L)降低到O(log2 L),其中L是序列长度。 使用DeepPCR并行化多层感知机(MLP)的前向传递和后向传递。对技术性能进行了全面分析,同时考虑了基本设计参数,以确定方法的高性能区域。该研究还调查了速度,解决方案的正确性和内存使用之间的权衡。 使用DeepPCR加速了在MNIST上训练的深度ResNet和在MNIST、CIFAR-10和CelebA数据集上训练的扩散模型的生成。结果表明,尽管DeepPCR显示了显着的加速,对于ResNet的训练速度提高了7倍,对于扩散模型的生成速度提高了11倍,但仍产生与顺序技术相媲美的结果。 “`
Leave a Comment由于气候变化,极端天气,特别是暴雨事件预计会更频繁。许多自然灾害,如洪水或山体滑坡,直接由极端降水引起。基于气候预测的模型经常被使用。现有的气候模型必须提高准确代表高度变化的大气现象的能力。研究人员预计,不断增长的平均温度将导致极端降水事件进一步增加。 卡尔斯鲁厄理工学院(KIT)的研究人员利用人工智能(AI)的力量来提高全球气候模型生成的粗糙降水图的精确性。 研究人员强调,该模型将降水场的时间分辨率从一小时缩短到十分钟,并将空间分辨率从32提高到两千米。他们表示,更高的分辨率对于预测未来发生的局部暴雨事件和随之而来的自然灾害至关重要。 该方法涉及应用生成式神经网络,具体而言就是生成对抗网络(GAN),这是一种AI形式。这个GAN使用高分辨率雷达降水数据进行训练,使其能够以显著更高的空间和时间分辨率学习和模仿逼真的降水场。 现有的全球气候模型使用的网格缺乏捕捉降水变异性所需的细节。而且,传统上生成高分辨率的降水图需要计算上昂贵的模型,导致了空间或时间上的限制。 根据研究人员的说法,这就是开发基于高分辨率雷达降水场进行训练的GAN的原因。通过这种方式,GAN从粗略解决的数据中学习如何生成逼真的降水场并确定其时间序列。 与三线性插值和经典卷积神经网络相比,生成模型以高技巧重建分辨率相关的极值分布。在15 mm h−1降雨强度上表现出0.6的高分数技巧得分和3.35%的低相对偏差。 根据研究人员的解释,他们的方法产生了多种可能的降水场解集合。这一点很重要,因为对于每个粗糙解决的降水场,存在许多在物理上可能的高分辨率解。 他们解释说,使用这种方法模拟的降水事件更高的分辨率将有助于更好地估计2021年阿尔河洪水天气条件在2度更温暖的世界中所造成的影响。 总之,该模型提供了一种增强全球气候模型预测降水精度的解决方案。这一进展有助于更准确的气候预测。它有潜力在变化的气候下更好地理解和应对极端天气事件的后果。
Leave a Comment语言模型的发展一直以来都是在大模型能够拥有更高性能的前提下进行的。然而,打破这一既定信念,微软研究院的机器学习基础团队的研究人员推出了参数为27亿的全新语言模型Phi-2,这一模型正颠覆着长期主导这一领域的传统扩展规则,挑战了“模型大小决定语言处理能力”的普遍观念。 这项研究打破了关于超卓性能必须依赖更大模型的普遍假设。研究人员将Phi-2引入视为范式转变,超越常规。文章揭示了Phi-2的独特特点以及其开发中采用的创新方法。Phi-2摒弃常规方法,依赖精心策划的高质量训练数据,并利用较小模型的知识传递,对语言模型扩展的既定规则构成了巨大挑战。 Phi-2方法的核心在于两项关键性发现。首先,研究人员强调了训练数据质量的重要作用,使用“教科书级”数据精心设计,使模型获得推理、知识和常识的能力。其次,采用创新技术实现了模型洞察力的高效扩展,从13亿参数的Phi-1.5开始。文章深入探讨了Phi-2的架构,这是一个基于Transformer的模型,以下一个单词预测为目标,在合成和网络数据集上进行训练。令人惊讶的是,尽管规模较小,Phi-2在各种基准测试中超越了更大的模型,突显了其高效性和出色能力。 总之,来自微软研究院的研究人员将Phi-2推崇为语言模型发展中的一股变革力量。这一模型不仅挑战了,而且成功推翻了业界对模型能力与大小本质相关的长期信念。这种范式转变鼓励了新的视角和研究方向,强调了不完全遵循常规扩展规则时所能实现的高效性。Phi-2独特的高质量训练数据和创新的扩展技术,标志着自然语言处理迈向前沿,并为未来带来了新的可能性和更安全的语言模型。 本文首发于Microsoft AI团队推出Phi-2:一个参数为27亿的小型语言模型,展示出卓越的推理和语言理解能力,转载请注明出处。
Leave a Comment来自卡内基梅隆大学和Google DeepMind的研究人员合作开发了RoboTool,这是一个利用大型语言模型(LLM)的系统,赋予机器人在涉及隐性物理约束和长期规划的任务中创造性地使用工具的能力。该系统包括四个关键组成部分: 用于解释自然语言的分析器 用于生成策略的规划器 用于计算参数的计算器 用于将计划转化为可执行的Python代码的编码器 使用GPT-4,RoboTool旨在为复杂的机器人任务提供比传统的任务与动作规划方法更灵活、高效和用户友好的解决方案。 该研究解决了机器人创造性使用工具的挑战,类似于动物在使用工具方面展示智能的方式。它强调机器人不仅要为其预定目的使用工具,还要以创造性和非常规的方式使用工具,以提供灵活的解决方案。传统的任务与动作规划(TAMP)方法需要在处理具有隐性约束的任务时进行修订,并且往往计算代价高昂。大型语言模型(LLM)在编码有益于机器人任务的知识方面显示出潜力。 该研究引入了一个用于评估创造性工具使用能力的基准,包括工具选择、顺序工具使用和制造。所提出的RoboTool在模拟和真实环境中进行评估,展示了在没有创造性工具使用的情况下将会具有挑战性的任务处理能力。该系统的成功率超过了基准方法,展示了其在解决具有隐性约束的复杂、长期规划任务方面的效果。 通过计算3种类型的错误进行评估: 工具使用错误,指示是否使用了正确的工具 逻辑错误,关注规划错误,如按错误的顺序使用工具或忽略提供的约束 数值错误,包括计算错误的目标位置或添加错误的偏移量 没有分析器的RoboTool显示出使用分析器的工具使用错误较大,没有计算器的RoboTool在与RoboTool相比的情况下有较大的数值错误,展示了它们在模型中的作用。 该研究展示了RoboTool在各种任务中的成就,例如在沙发之间穿越间隙、到达放置在机器人工作区域外的物体以及创造性地使用工具超出其传统功能。该系统利用LLMs对对象属性和人类常识的知识来识别关键概念和推理三维物理世界。在与机械臂和四足机器人的实验中,RoboTool展示了创造性的工具使用行为,包括即兴创作、顺序工具使用和工具制造。尽管在模拟中实现了与或超过基准方法相当的成功率,但其在真实环境中的表现受到感知错误和执行错误的轻微影响。 总之,由LLMs驱动的RoboTool是一个具有创造性的机器人工具用户,能够解决长期规划问题并具有隐性物理约束。该系统能够识别关键概念、生成创造性计划、计算参数和生成可执行代码,有助于其在处理需要创造性工具使用的复杂机器人任务方面取得成功。
Leave a Comment三维人体动作重建是一个复杂的过程,涉及准确捕捉和建模人体主体在三维空间中的动作。当处理由移动相机在现实世界环境中捕获的视频时,这项工作变得更加具有挑战性,因为它们经常出现脚滑等问题。然而,来自卡内基梅隆大学和马克斯普朗克智能系统研究所的研究人员开发了一种名为WHAM(基于世界的具有准确运动的人体)的方法来解决这些挑战,并实现精确的三维人体动作重建。 该研究审查了从图像中恢复三维人体姿态和形状的两种方法:无模型和基于模型。它强调了在模型化方法中使用深度学习技术来估计统计身体模型参数的重要性。现有基于视频的三维人体姿态估计方法通过各种神经网络架构引入时间信息。某些方法使用附加传感器(如惯性传感器),但它们可能会对使用者造成干扰。WHAM通过有效地结合三维人体运动和视频上下文、利用先验知识并在全局坐标中准确重建三维人体活动而脱颖而出。 该研究解决了从单目视频准确估计三维人体姿态和形状的挑战,强调全局坐标一致性、计算效率和真实脚地接触。利用AMASS动作捕捉和视频数据集,WHAM结合运动编码器-解码器网络将2D关键点提升到3D姿态,利用特征集成器处理时间线索,并利用考虑脚接触的全局运动估计的轨迹细化网络,提高在非平面表面上的准确性。 WHAM采用单向RNN进行在线推理和精确的三维动作重建,其中运动编码器用于上下文提取,运动解码器用于SMPL参数、相机平移和脚接触概率。利用包围盒标准化技术有助于提取运动上下文。图像编码器在预训练的人类网格恢复时捕捉和整合图像特征与运动特征。轨迹解码器预测全局方向,细化过程减小脚滑动。在合成的AMASS数据上进行训练,WHAM在评估中优于现有方法。 https://arxiv.org/abs/2312.07531 WHAM超越了当前最先进的方法,展现出在单帧和基于视频的三维人体姿态和形状估计方面的卓越准确性。WHAM通过利用运动上下文和脚接触信息实现精确的全局轨迹估计,减小脚滑动,增强国际协调性。该方法通过整合2D关键点和像素特征,提高了三维人体运动重建的准确性。对野外基准数据集的评估证明了WHAM在MPJPE、PA-MPJPE和PVE等指标上的卓越表现。轨迹细化技术进一步提升了全局轨迹估计的精度,减小了脚滑动,通过改进的错误指标得到了证明。 总之,该研究的要点可以总结为: WHAM引入了一种结合三维人体运动和视频上下文的先导性方法。 该技术提升了三维人体姿态和形状回归。 该过程使用了全局轨迹估计框架,包括运动上下文和脚接触。 该方法解决了脚滑动问题,确保在非平面表面上的准确三维跟踪。 WHAM的方法在多个基准数据集上表现出色,包括3DPW、RICH和EMDB。 该方法在全局坐标中优秀地完成了高效的人体姿态和形状估计。 该方法的特征集成和轨迹细化显著提高了运动和全局轨迹的准确性。 该方法的准确性通过深入的消融研究得到了验证。
Leave a Comment使用大量推理规则和构建子证明的就业使得证明的复杂性在许多演绎推理任务中无限发展,例如医学诊断或定理证明。由于巨大的证明空间,不可能找到覆盖所有大小保证的数据。因此,从基本证明开始,通用推理模型应能够推广到更复杂的证明。 纽约大学和谷歌AI研究人员的一个团队证明,LLMs在接受上下文学习(ICL)和思维链(CoT)提示的训练后可以进行演绎推理。一些演绎规则,例如假言附加式,是早期研究的主要重点。评估也是在演示中进行的,这意味着测试用例与上下文演示的分布相同。 纽约大学、谷歌和波士顿大学的研究人员进行的一项新研究探讨了LLMs能否推广到比演示更复杂的证明。学术界根据三个维度对证明进行分类: 在演示的每个阶段使用的前提数量。 构成证明的顺序步骤的长度。 所使用的演绎规则。 总大小是这三个维度的函数。 该团队在两个重要方面对之前的研究进行了扩展,以评估LLMs的一般演绎推理能力。除了假言附加式外,他们测试LLMs是否掌握了所有演绎规则。他们的推理能力通过以下两种方式进行测试: 深度和宽度的推广涉及对比上下文示例提供的较长证明进行推理。 组合推广涉及在单个证明中使用大量的演绎规则。 根据他们的研究,推理任务在接受展示各种演绎规则的基本示例时最受益于上下文学习。为了防止模型过拟合,这些上下文示例必须包含它不熟悉的推导原则,例如分情况证明和反证法。此外,这些示例应该伴随有干扰项。 根据他们的发现,CoT可以使LLMs进行超领域推理,推广到组合证明。这些LLMs包括GPT-3.5 175B、PaLM 540B、LLaMA 65B和FLAN-T511B,其规模和训练目标各异。这一发现令人惊讶,考虑到大量文献主张LLMs缺乏组合泛化能力。ICL的泛化方式与监督学习不同,特别是在上下文样本上进行的梯度下降。明显地,使用与测试示例相同分布的上下文样本是更差的,因为它们在多个实例中被发现。例如,当上下文示例中包含特定演绎规则时,研究人员有时看到了更好的组合证明泛化效果。 似乎预训练并不能教育模型创建假设的子证明。没有明确的示例,LLMs无法推广到某些演绎规则(例如分情况证明和矛盾证明)。模型规模与性能之间的关系较弱。通过定制指导和更多的预训练,较小的模型(不是最小的,但可比较)可以与较大的模型竞争。 为了进一步了解ICL和CoT触发过程,研究人员指出了一个关键的领域需要今后进行研究。他们发现,最好的上下文示例通常来自于与测试示例本身不同的分布,即使是对于特定的测试示例。贝叶斯推理和梯度下降并不能解释这一点。他们有兴趣研究是否简单的示例效果更好,即使测试案例稍微复杂。需要进一步研究来了解如何更进一步地表征从特定实例进行推广。
Leave a Comment许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。 然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。 来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。 当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。 考虑到这些目标和实现障碍,团队提出了以下内容: TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集 BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。 TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。 BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。 团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。 尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。
Leave a Comment<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-14-at-1.29.58-AM-1024×635.png”/> <img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-14-at-1.29.58-AM-150×150.png”/> <p>本研究探讨了自回归神经算子领域中一个艰巨的挑战:延长预测时间范围的能力受限。虽然自回归模型有着很大的潜力,但其不稳定性问题严重影响了其在时空预测中的有效性。这个普遍存在的问题涉及从相对平滑的领域到以ERA5等数据集为代表的复杂的大规模系统的各种情况。 <p>当前的方法在试图延长自回归神经算子的时间预测范围时面临着严峻的障碍。鉴于这些局限性,研究团队提出了一种革命性的解决方案来增强可预测性。该方法通过对频谱神经算子进行根本性的架构转变,以缓解不稳定性问题。与现有方法形成鲜明对比的创新方法赋予这些算子无限的预测时间范围,标志着一个重大的飞跃。 <p>目前,自回归神经算子在预测能力方面遇到了一个重大障碍,无法超越有限的时间范围。传统方法的不稳定性问题限制了其在复杂的时空预测场景中的有效性。针对这个问题,研究团队提出了一种新颖的解决方案,从根本上重塑了频谱神经算子的架构,开启了预测时间范围的潜力。 <p>提出的方法的核心在于重构神经算子块。为了解决混叠和不连续性等挑战,研究人员引入了一个新颖的框架,其中非线性函数始终紧随可学习的滤波器之后,这些滤波器能够有效处理新生成的高频分量。一个关键的创新是引入动态滤波器,取代静态卷积滤波器,并根据特定的数据进行调整。这种适应性通过频率域中的模式多层感知器(MLP)实现。 <p>提出的方法的精髓在于重新构想神经算子块。为了解决混叠和不连续性等挑战,研究人员引入了一个复杂的框架,其中非线性函数始终紧随可学习的滤波器之后,这些滤波器擅长处理新生成的高频分量。一个开创性的元素是将动态滤波器与传统的静态卷积滤波器替换,以适应特定数据的复杂性。这种适应性通过频率域中的模式多层感知器(MLP)实现。 <figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/pJ92lyIAeUqFKKoR7NqTsQ7V5yn9_1PlJBbl4xX6XG-kBZQWZWFaO0Yja8oPN0xANRMvBMyimdjeKHYFMTWEtItS4KliuxsGGdt_28T045Ildl2zyjCX1XFHx8E2d7xIwczLogd46TPgu5UJnvJV9Tw”/><figcaption>https://openreview.net/forum?id=RFfUUtKYOG</figcaption></figure> <p>实验结果突显了该方法的功效,显示了显著的稳定性改善。当将该方法应用于旋转浅水方程和ERA5数据集等场景时,这一点尤为明显。通过频率自适应MLP生成的动态滤波器对于确保模型对多种数据集的适应性至关重要。通过将静态滤波器替换为动态对应物,该方法能够灵活处理与数据相关的混叠模式,这是固定策略无法实现的。 <figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/ui3wefz0SoNWsJo9njj6tWnCZncx0EtcpS76P1ZRRrFRCk2-wlyfi6sMB9gUo9ks3smjjfdjfJI_3tRbF9uG_vGmh2x6mHpvuY9StcgE2hQQzYzUkaY2Ik9NFgkCO2zE-cgpvLd6_FVKxHrNljpBAkU”/><figcaption>https://openreview.net/forum?id=RFfUUtKYOG</figcaption></figure> <p>总结起来,本研究对于克服自回归神经算子中延长预测时间范围的持久挑战具有开创性的意义。通过重构神经算子块,引入通过频率自适应MLP生成的动态滤波器,是一种高效的策略,可以缓解不稳定性问题,实现无限的预测时间范围。在研究界处理预测的复杂性时,这项工作可以作为一个指南,引领未来努力朝着更健壮和可靠的时空预测模型前进。
Leave a Comment“`html 在不断发展的技术进步领域中,语言模型已成为不可或缺的一部分。这些由先进的人工智能驱动的系统增强了我们与数字平台的互动。语言模型旨在理解和生成类似人类的文本,弥合了人类沟通与机器理解之间的差距。技术的进步引领着一个数字时代,语言模型在信息处理、沟通和问题解决中扮演越来越重要的角色。 最近,Deci推出了DeciLM-7B,这是一种具有高精度和速度的创新模型,适用于70亿参数级别。这个模型在Apache 2.0许可下,处于新一代语言模型的前沿,拥有70亿参数级别中无与伦比的准确性和速度。该模型是语言处理领域的一种增量革新和变革性力量。 在“开放语言模型排行榜”上,DeciLM-7B显示出令人印象深刻的平均得分为61.55。这表明DeciLM-7B是70亿参数级别中最先进的基础语言模型,提供了在各种应用中改进的准确性和可靠性。Mistral 7B在诸多基准测试中表现优异,包括Arc、HellaSwag、MMLU、Winogrande和GSM8K等。 DeciLM-7B不仅准确,而且速度出色。与Mistral 7B相比,它的吞吐量增加了83%,与Llama 2 7B相比增加了139%。DeciLM-7B提高了语言模型的效率标准。PyTorch基准测试突显了其在吞吐量上优于Mistral 7B和Llama 2 7B,分别显示出1.83倍和2.39倍的增加。 DeciLM-7B与Infery和Dec开发的推理SDK相互协作,相对于具有vLLM的Mistral 7B,能够提供4.4倍的速度提升,为成本效益高、大量用户交互提供机会。 DeciLM-7B利用NAS的引擎AutoNAC。该模型采用了变量分组查询注意力。在顶级的70亿参数大型语言模型中,该模型在没有复杂的偏好优化方法的情况下表现出色。研究人员强调,DeciLM-7B和Infery-LLM具有在多个行业引发革命性变革的潜力。它们在提供实时聊天机器人的高容量客户服务方面提升了智能度、响应度和可负担性,并在医疗、法律、市场营销和金融等文本密集型专业领域中实现了工作流自动化的革新。 总之,DeciLM-7B在大型语言模型中具有重要作用。它不仅在准确性和效率方面出类拔萃,还在可访问性和多功能性方面表现出众。随着技术的不断进步,像DeciLM-7B这样的模型在塑造数字世界方面变得更加重要。它们给我们提供了一个令人兴奋的前景,展示了无数未来可能性的一瞥。随着技术的进步,这些模型变得越来越重要,为我们提供了数字领域中众多选择的引人入胜且广阔的预览。 “`
Leave a Comment来自Google AR & VR与佛罗里达中央大学的研究团队合作开展了一项全面研究,验证了一个名为VALID的虚拟化身库,其中包含了210个完全装配的化身,代表了七种多样化的种族。七种种族的选择是在美国人口普查局的指导下进行的。他们利用了数据驱动的面部平均值,并与每个种族的志愿代表合作,创建了42个基本化身(7种种族 X 2种性别 X 3个个体)。该研究涉及全球参与者,以获取每个化身被感知的种族和性别的经过验证的标签和元数据。 验证过程采用了主成分分析(PCA)和K均值聚类,以了解参与者如何感知化身的种族。为了确保参与者在种族和性别上的多样性,总共选择了来自全球33个不同国家的132名参与者进行研究。 结果显示,亚洲人、黑人和白人化身在各种族的参与者中被一致认可。然而,代表美洲印第安和阿拉斯加原住民(AIAN)、西班牙裔、中东和北非(MENA)以及夏威夷和太平洋岛民(NHPI)种族的化身显示出更多的模糊性,其感知差异基于参与者的种族。如果某个化身被相应的同类种族参与者认定为其预期种族,则该化身以该种族命名。 在讨论中,研究人员强调了亚洲人、黑人和白人化身的成功识别率超过了95%,挑战了识别与自己不同种族人脸准确度约为65-80%的观念。他们将这归因于知觉专业知识或对多样化种族群体的熟悉程度,可能受全球媒体表现的影响。 观察到自我种族偏见效应,一些化身主要由同类种族的参与者正确识别。例如,西班牙裔化身在参与者中获得了不同的评级,但在仅有西班牙裔参与者中更准确地被感知。该研究强调了在虚拟化身研究中考虑参与者种族的重要性,以确保准确的表现。 由于识别不清晰,某些化身被标记为模糊,像发型这样的因素会影响感知。夏威夷和太平洋岛民化身的验证面临着局限性,突显了表现的挑战和更广泛的招募工作的需求。 研究团队讨论了虚拟化身应用的影响,强调了同组内和异组间的分类和刻板印象及社会判断的潜力。他们建议引入规定,以改善虚拟现实中的跨种族互动。 作为对研究界的贡献,该团队提供了开放访问的VALID化身库,为各种场景提供了多样化的适用化身。该库包括65个面部变形形状的化身,用于动态表情,并与Unity和Unreal等流行游戏引擎兼容。研究人员承认了局限性,例如关注年轻和体格健壮的成年人。他们概述了未来更新中通过引入不同地区分类、身体类型、年龄和性别来扩大多样性的计划。 总结而言,研究团队成功创建和验证了一个多样化的虚拟化身库,挑战了刻板印象并促进了包容。该研究强调了自我种族偏见对化身感知的影响,并为开发和应用虚拟化身在各个领域提供了宝贵的见解。该开放访问的VALID库被定位为研究人员和开发者寻找多样化和包容性化身的宝贵资源。
Leave a Comment“`html Meta最近在生成影片领域展现了Emu,这标志着一个转折点,技术和文化以前所未有的方式相互交汇。 Emu不仅是人工智能在创造能力上的进步,更是生成人工智能领域新时代的灯塔,它标志着我们获得信息和娱乐的潜在革命。 我们正处在生成人工智能革命的临界点上,即将改变出版和娱乐领域的基本结构。语言模型以其非凡的综合和表达信息的能力,承诺打造一座全球无与伦比的图书馆,覆盖多种语言下的各种主题。然而,这些生成信息的准确性至关重要,需要保持警惕的事实核查和审查。 将注意力转向娱乐领域,其影响是深远的。Emu所开辟的道路,生成人工智能能够从根本上改变Netflix和Amazon Prime等平台,实现以前无法想象的电影体验个性化。设想一下未来,通过一系列要点来构成电影的叙事,而算法会据此调整剧情。你的英雄命运,无论是胜利还是失败,由你决定。这不仅仅是关于偏好,而是个性化达到了高峰。我们将很快看到我们决定英雄在结局时是否死去。幸福快乐…只有我意愿为之!然而,这种个性化带来了一个重要的警示。将艺术体验根据个人口味调整的能力,有可能限制我们接触多样化的观点,导致一个过于简化和以回声室为特点的世界。 这种倾向于简化,通常被代表为“用5岁儿童的方式解释”,可能有助于初步理解,但有可能侵蚀我们对复杂问题的充分理解的丰富性和深度。爱因斯坦关于使事情尽可能简单但不过分简单的指导在这里特别适用。它强调了在保持清晰度的同时保留复杂主题的细微差别的重要性。 尽管存在潜在的陷阱,这项技术的魅力是无可否认的。它触动了我们对独特性和认可的深刻渴望,这与可定制产品如NikeId的吸引力相似。然而,危险在于让人工智能加强我们的偏见,并使我们远离具有挑战性和多样性的思想。这与创造力的本质相背离,而创造力在于与广泛的知识接触。 在人工智能领域,特别是在强化学习中,我们训练代理人在探索和利用之间取得平衡,这是我们自己的知识之旅的一种策略。然而,在与信息的互动中,我们经常限制自己只接触与我们现有信念相一致的内容。这种悖论强调了我们在应用人工智能时关键性的疏忽。 当我们站在人工智能重塑我们的世界的潜力的边缘时,我们必须考虑如何利用这个强大的工具。真正的危险不在于人工智能本身,而在于我们与之互动的方式。我们必须将人工智能视为一种促进探索和理解的催化剂,营造一个欢迎复杂性、培养智力好奇心的环境。通过这样做,人工智能能够真正成为一种力量,拓宽我们的视野,丰富集体的人类经验。 本文来源:长尾狗摇头摆尾:人工智能个性化艺术的意外后果 – MarkTechPost “`
Leave a Comment鉴于大型语言模型(LLM)具备较强的概括和推理能力,它们显著地提升了人工智能(AI)社区的水平。这些模型在自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面展示了令人瞩目的能力。然而,包括语境学习(ICL)和思维链(CoT)提示在内的新发展,导致了使用较长提示的部署,有时甚至超过几万个令牌。这在模型推理方面带来了成本效益和计算效率的问题。 为了克服这些挑战,微软公司的研究团队推出了LLMLingua,一种独特的粗粒度快速压缩技术。LLMLingua的主要目标是最小化与处理长提示相关的开销,并加速模型推理。为此,LLMLingua采用了一些重要策略,包括以下几点。 预算控制器:创建了一个动态预算控制器,用于分配压缩比率给原始提示的各个部分。这确保提示的语义完整性在大量压缩比率下仍然保持。 令牌级迭代压缩算法:将令牌级迭代压缩算法集成到LLMLingua中。这种技术通过捕捉压缩元素之间的相互依赖关系,实现了更复杂的压缩,同时保留了提示的关键信息。 基于指令调整的方法:该团队提出了一种基于指令调整的方法,以解决语言模型之间分布不匹配的问题。调整语言模型的分布可以提高用于快速压缩的小语言模型与预期的LLM之间的兼容性。 研究团队使用来自不同情况的四个数据集进行了分析和实验,以验证LLMLingua的实用性。这些数据集包括推理的GSM8K和BBH、对话的ShareGPT以及摘要的Arxiv-March23。结果表明,该方法在每种情况下都取得了最先进的性能。结果甚至显示,LLMLingua可以在牺牲很少性能的情况下,实现高达20倍的显著压缩。 实验中使用的小语言模型是LLaMA-7B,封闭式LLM是GPT-3.5-Turbo-0301。LLMLingua在最大压缩比20倍时超越了以前的压缩技术,在保留推理、摘要和讨论能力方面表现出了韧性、经济性、高效性和可恢复性。 LLMLingua的有效性在多个封闭式LLM和小语言模型中得到证实。在使用GPT-2-small时,LLMLingua展示了出色的性能结果,与更大的模型大致匹配。它还在强大的LLM上表现出色,超过了预期的快速结果。 LLMLingua的可恢复性是一个值得注意的方面,因为当使用它来恢复压缩的提示时,GPT-4能够有效地从完整的9步CoT提示中检索重要的推理信息,并保持原始提示的含义和相似性。这个功能保证了可恢复性,即使在翻译后仍保留了关键信息,增加了LLMLingua的整体印象。 总而言之,LLMLingua为LLM应用中长提示带来的困难提供了全面的解决方案。该方法展现了出色的性能,并提供了提高LLM应用的效果和价格效益的有用途径。
Leave a Comment大型语言模型(LLMs)正在通过展示惊人的文本生成能力和执行各种语言任务而改变深度学习。获得高质量的与人类相关的数据是一个重大障碍,即使使用人类收集的数据进行监督微调(SFT)也能进一步提高它们在感兴趣的任务上的性能。这对需要大量资源和专业知识的复杂问题解决任务尤为困难。为了克服这一障碍,模型生成的合成数据在其质量能够得到保证的情况下被认为是一种可扩展且经济实惠的解决方案。 来自Google Deepmind和Mila的研究人员在这项研究中研究了一个更加简单的场景,其中外部的标量反馈信号作为每个生成样本的质量指标,即使LLMs能够自行评估生成的数据。研究团队提出了一种简单而有效的语言模型自训练技术,只涉及两个技能:1) 使用模型创建样本,2) 使用评分机制评估这些样本。这种方法使我们能够研究在模型创建的数据上进行训练。研究团队使用了加强自训练的命名方式,并将这种技术称为ReST𝐃𝑀,以实现统一性和清晰度。研究团队演示了如何将ReST𝐃𝑀视为使用期望最大化进行强化学习。 具体而言,ReST𝐃𝑀在以下方式上在期望和最大化阶段之间切换:1. 生成 (E-step):对于每个输入背景,语言模型产生多个输出样本。然后,研究团队通过使用二进制奖励来筛选这些样本,以收集训练数据集。2. 改进 (M-step):使用前面生成阶段的训练数据集来对原始语言模型进行监督和微调。然后,下一个生成阶段使用调整后的模型。ReST𝐃𝑀及其变体已经证明在许多领域的语言模型中提高了效能,例如机器翻译、语义解析和偏好对齐。 ReST𝐃𝑀主要在以前关于非常小型语言模型(最多7B参数)的研究中使用,对于更大的模型而言,其可扩展性有限。他们的工作旨在通过比较模型创建的合成数据的可扩展性和有效性与人类提供的数据在两个具有挑战性但研究不足的领域中: 代码生成 (APPS) 和具有竞争水平的数学问题解决 (MATH)。他们的研究结果表明,将ReST𝐃𝑀应用于不同规模的PaLM 2模型可以显著改善数学推理和代码生成能力。 令人惊讶的是,通过模型生成的人工数据进行改进的模型在性能上大幅优于以人类提供的数据训练的模型。此外,经过几个ReST𝐃𝑀周期后,改进效果会减弱,表明可能会过度拟合数量有限的训练案例。此外,使用ReST𝐃𝑀进行优化的模型增强了 pass@k 和多数投票能力。最后,这些改进的模型在类似但不同的基准测试中展现出增强的性能,包括Big-Bench Hard任务、编码(HumanEval)和算术问题(GSM8K和Hungarian HS决赛)。最后,还进行了消融研究,以调查训练问题、迭代次数和模型生成解决方案数量对ReST𝐸𝑀微调的影响。
Leave a Comment大型语言模型领域迎来了一个重要的跨越,Mixtral 8x7b的到来。Mistral AI开发了这个具有卓越能力和独特架构的新模型。它用稀疏的Expert混合(MoE)层取代了前馈层,这是变换器模型中的一种创新方法。 Mixtral 8x7b 在一个框架内拥有八个专家模型。这个模型是一个专家混合模型(MoE),使Mixtral能够实现卓越的性能。 专家混合技术可以使模型的预训练所需的计算能力大大减少。这意味着可以显著增加模型或数据集的大小而不增加计算预算。 在MoE层中引入了路由器网络,它可以高效选择处理哪些令牌的专家。尽管与含有12B参数的密集模型相比,Mixtral的模型拥有四倍的参数,但由于每个时间步选择了两个专家,因此可以快速解码。 Mixtral 8x7b具有32,000个令牌的上下文长度容量,优于Llama 2 70B,并在各种基准测试中展现出与GPT3.5相媲美或更好的结果。研究人员表示,该模型具有适用于各种应用的多功能性。它可以多语言操作,并展现其在英语、法语、德语、西班牙语和意大利语方面的流利性。其编码能力也非常出色;在HumanEval测试中得分40.2%,巩固了它作为一个全面的自然语言处理工具的地位。 Mixtral Instruct在MT-Bench和AlpacaEval等行业标准上表现出色。它在MT-Bench上的表现超过其他公开模型,并与GPT-3.5相匹配。尽管参数达到70亿,但该模型的性能类似于八个模型的集合。虽然它可能没有达到560亿参数的规模,但总参数数约为450亿。此外,Mixtral Instruct在指导和聊天模型领域表现出色,表达了其优势。 Mixtral Instruct的基本模型没有与其他基本模型对齐的特定提示格式。这种灵活性允许用户顺畅地扩展输入序列,获得合理的延续或将其用于零样本/少样本推理。 然而,有关预训练数据集的维度、组成和预处理方法的完整信息仍需进一步提供。同样,仍不知道对Mixtral instruct模型的DPO(域预提供目标)和SFT(部分微调)使用了哪些微调数据集和相关超参数。 总结一下,Mixtral 8x7b通过结合性能、适应性和创造力改变了语言模型的游戏规则。当AI社区继续研究和评估Mistral的架构时,研究人员迫切希望看到这种先进语言模型的影响和应用。MoE的8x7B能力可能为科学研究和发展、教育、医疗保健和科学开辟新的机遇。 这篇文章Meet Mixtral 8x7b: The…
Leave a Comment训练大型变压器模型面临重大挑战,尤其是在追求具有数十亿甚至数万亿参数的模型时。主要障碍在于如何在多个GPU上高效分配工作负载,同时减轻内存限制。当前的情况依赖于复杂的大型语言模型(LLM)扩展框架,如Megatron、DeepSpeed、NeoX、Fairscale和Mosaic Foundry。然而,随着模型大小的增加,这些框架引入了相当大的复杂性。讨论的研究介绍了Cerebras的gigaGPT作为解决这些挑战的新颖方法,提供了一种消除对复杂并行化技术的需要的替代方法。 对于训练大型变压器模型,像Megatron和DeepSpeed这样的方法依赖于多GPU之间的分布式计算。然而,随着模型大小超过几十亿个参数,这些方法会遇到内存限制,需要复杂的解决方案。相比之下,Cerebras的gigaGPT引入了一种范式转变。它实现了nanoGPT,它具有仅565行的非常紧凑的代码库。这个实现可以训练具有超过1000亿个参数的模型,而无需额外的代码或依赖第三方框架。GigaGPT利用了Cerebras硬件的大量内存和计算能力。与其同行不同的是,它可以无缝操作而不引入额外的复杂性,既提供了简洁可靠的代码库,又能够训练GPT-3规模的模型。 GigaGPT在其核心是实现了基本的GPT-2架构,与nanoGPT的原则紧密对齐。它使用了学习的位置嵌入、标准的自注意力机制、模型中的偏置以及模仿nanoGPT的结构的选择。值得注意的是,该实现不仅适用于特定的模型大小;gigaGPT通过训练具有111M、13B、70B和175B个参数的模型,证明了它的多功能性。 与GPT-2分词器和nanoGPT的预处理代码配合使用的OpenWebText数据集成为测试基础。GigaGPT的性能得到了证明,它可以从数百万个参数的模型扩展到具有数百亿个参数的模型,而不需要专门的并行化技术。这565行代码涵盖了整个代码库,展示了其简单和高效。 该实现的成功在特定的模型配置中得到了进一步的体现。例如,111M配置与Cerebras-GPT相一致,保持了相同的模型维度、学习率、批量大小和训练计划。类似地,13B配置与相应的Cerebras-GPT配置相匹配,70B配置借鉴了Llama-2 70B。70B模型保持了稳定性和性能,展示了其可扩展性。在验证了70B模型之后,研究人员通过配置基于GPT-3论文的175B模型来推动界限。最初的步骤展示了该模型在处理增加的规模时的内存问题,暗示了gigaGPT可能扩展到超过1万亿个参数的模型。 总之,gigaGPT成为训练大型变压器模型的一项突破性解决方案。研究团队的实施不仅通过提供简洁和易于操作的代码库简化了过程,还使得训练GPT-3规模的模型成为可能。利用Cerebras硬件的广阔记忆和计算能力,标志着在使大规模AI模型训练更加可访问、可扩展和高效方面的重要进步。这种创新的方法为机器学习研究人员和从业者解决训练大规模语言模型中的复杂性提供了一个有前途的途径。 Introducing gigaGPT: our implementation of @karpathy’s nanoGPT that trains GPT-3 sized models in just 565 lines of…
Leave a Comment