Press "Enter" to skip to content

Tag: Large Language Model

Tabnine推出Tabnine Chat:一个针对企业级的、以代码为中心的测试版聊天应用程序,允许开发人员使用自然语言与Tabnine的AI模型进行交互

Tabnine,由人工智能驱动的代码补全工具,推出了其套件的一个新功能:Tabnine聊天,处于其测试版。它是一个企业级的、以代码为中心的代码应用,可以与开发人员的集成开发环境(IDE)无缝集成。该应用程序通过使用可解释的现有代码、搜索代码仓库并根据自然语言规范生成新代码,扩展了其功能。 Tabnine Chat的一个关键亮点是其对安全性和合规性的高度关注。 该功能适应了各种企业需求,保护私有代码库、可允许的开源代码和堆栈溢出查询。模型仅在具有许可证的开源代码上进行了训练,消除了对代码库信息的担忧。 Tabnine聊天的前端是一个嵌入在Web视图中的React应用程序,目前可在VS code和JetBrains IDE中使用,并支持所有编程语言。 它具有几个重要特点: 安全性和合规性:Tabnine环境确保了代码的完全私密性和安全性。通过使用虚拟私有云或本地设置,它们提供了隔离的部署环境,优先考虑安全性和机密性。 上下文集成:Tabnine聊天在IDE内运行,从而与开发人员的正在进行的代码集成。 仓库集成:Tabnine企业用户可以将其仓库链接到此应用程序。拥有大量内部API、库和服务的组织可以通过将内部仓库连接到Tabnine Chat来提高生产力。 随着Tabnine Chat的测试阶段的到来,开发人员正处于编码转变的边缘。在开发者与人工智能之间的不断发展的旅程中,Tabnine Chat作为一个能够实现开发者与代码之间无缝对话的先驱脱颖而出。在不久的将来,Tabnine企业版和专业版用户将迎来更广泛的扩展,对于先进的编码交互产生了兴奋。

Leave a Comment

Meta AI的鲸鱼!通过指导反向翻译实现LLMs的自对齐,引起轰动!

大型语言模型(LLMs)展现出出色的泛化能力,如上下文学习和思维链推理。为了使LLMs能够遵循自然语言指令并完成现实世界的任务,研究人员一直在探索LLMs的指令调整方法。这是通过对模型进行微调,在各种函数上使用人工注释的提示和反馈或使用公共基准和数据集进行监督微调,以及手动或自动生成的指令进行数据增强。最近的研究强调了人工注释数据质量的重要性。然而,发现注释遵循此类质量数据集的指令很难扩展。 这个解决方案涉及到与LLM的自我对齐,即利用模型来改进自身,并使其响应与期望的行为(如模型编写的反馈、批评、解释等)保持一致。Meta AI的研究人员引入了自我对齐与指令反向翻译。基本思想是通过大型语言模型自动为Web文本标注相应的指令。 自训练方法假设可以访问基础语言模型、一组未标记的示例(例如Web语料库)和少量种子数据。这种方法的第一个关键假设是,这些大量人工编写的文本中的某些部分将对某些用户指令进行黄金生成。第二个假设是我们可以预测这些响应的指令,这可以用来使用高质量的示例对训练一个遵循指令的模型。 整个指令反向翻译可以分为以下步骤: 自我增强:为未标记的数据(即Web语料库)生成“好的指令”,以产生(指令,输出)对的训练数据,用于使用大型语言模型Meta AI(LLaMA)进行指令调整 自我创建:对使用LLaMA生成的数据进行评估 然后,使用改进的模型对LLaMA进行微调,并迭代该过程。结果训练的基于Llama的指令反向翻译模型被称为“Humpback”(因为鲸鱼相对于骆驼具有大规模的特性)。与Claude、Guanaco、Falcon-Instruct、LIMA等现有的非蒸馏模型相比,“Humpback”在Alpaca排行榜上表现出色。 当前方法的缺点是增强数据是从Web语料库中获取的,因此微调的模型可能会强调Web数据的偏见。总之,这种方法保证我们永远不会用尽训练数据,进一步为对大型语言模型进行指令跟随的微调提供了可靠的可扩展方法。未来的工作将通过考虑更大的未标记语料库来进一步扩展这种方法,这可能会带来进一步的收益。

Leave a Comment

通过自我纠正方法增强大型语言模型(LLMs)

“`html 近年来,大型语言模型(LLMs)在各种自然语言处理(NLP)、自然语言理解(NLU)和自然语言生成(NLG)任务中取得了惊人的成果。这些成功一直在各种基准测试中有所记录,并展示了在语言理解方面令人印象深刻的能力。从推理到突出不良和不一致的行为,LLMs已经取得了长足的进步。尽管LLMs已经取得了巨大的进步,但仍然存在一些不利和不一致的行为,这些行为削弱了它们的实用性,例如创建虚假但可信的材料、使用错误的逻辑以及创建有毒或有害的输出。 克服这些限制的一个可能方法是自我校正的思想,即鼓励或引导LLM修复其自身生成的信息中的问题。最近,使用自动化反馈机制的方法,无论是来自LLM本身还是其他系统,都引起了很大的兴趣。通过降低对大量人类反馈的依赖,这些技术有潜力提高基于LLM的解决方案的可行性和实用性。 通过自我校正的方法,模型通过自动生成的反馈信号进行迭代学习,了解其行为的影响,并根据需要改变其行为。自动化反馈可以来自各种来源,包括LLM本身、独立的反馈模型、外部工具以及维基百科或互联网等外部信息源。为了通过自动反馈来纠正LLMs,已经开发了一些技术,包括自我训练、生成-排序、反馈引导解码和迭代事后修订。这些方法在推理、代码生成和毒素检测等各种任务中取得了成功。 加利福尼亚大学圣塔芭芭拉分校的最新研究论文专注于对这一新兴方法群进行全面分析。该团队对许多使用这些策略的当代研究项目进行了深入研究和分类。校正训练时间、生成时间校正和事后校正是已经研究过的自我校正技术的三个主要类别。通过在模型的训练阶段接触输入,已经提高了校正训练时间中的模型。 该团队强调了这些自我校正技术取得成功的各种情景。这些程序涵盖了广泛的主题,如推理、代码生成和毒性检测。该论文通过提供对这些技术的广泛影响的洞察,突出了这些策略的实际意义和在各种环境中的应用潜力。 该团队分享了生成时间校正的内容,即在内容生成过程中根据实时反馈信号对输出进行精炼。事后校正涉及使用后续反馈对已经生成的内容进行修订,因此,这种分类有助于理解这些技术运作和改善LLM行为的微妙方式。随着自我校正程序领域的发展,存在改进和增长的机会,通过解决这些问题和改进这些方法,该领域可能会更进一步,从而导致LLMs及其在现实世界中的应用更加一致的行为。 “`

Leave a Comment

波士顿大学的研究人员发布了鸭嘴兽家族的精调LLMs:实现基础LLMs的廉价、快速和强大的改进

大型语言模型(LLM)席卷世界。这些超高效和高效的模型是人工智能的现代奇迹。它们具备理解上下文、生成文本和连贯对话的能力,已经能够重新定义人与机器之间的沟通。研究人员一直致力于通过一种被称为参数高效调整(PEFT)的过程改善基础大型语言模型的性能,该过程涉及在小而强大的Open-Platypus数据集上优化LLM。 最近,来自波士顿大学的研究人员团队推出了Platypus,这是一组独特的改进和结合的大型语言模型,其性能无与伦比,并且目前在HuggingFace的Open LLM排行榜上保持领先地位。精心策划的数据集Open-Platypus是其中的基石之一,该数据集经过精心挑选,从各种其他免费数据集中选择出来,并且已经向公众开放。它是更大数据集的较小子集,专注于改善LLM性能的关键要素。 在利用特定领域信息的同时,团队的目标是保持预训练LLM的强大先验知识,并对LoRA模块进行微调和合并。通过微调,可以将模型定制为特定任务,同时保留初始训练中积累的更全面的知识。当合并LoRA模块时,将多个组件结合在一起,产生更强大的LLM。由于协同作用,模型的潜在潜力和专业领域知识可以被揭示出来。 工作的一个关键方面是对测试数据的严格验证工作以及识别训练数据中的潜在污染。一些全面的检查支持Platypus系列模型的可靠性和准确性,并且披露此验证过程的方法可能作为进一步的现场研究指南。 Platypus系列模型覆盖了各种模型大小,在量化LLM指标方面表现出色。它在全球Open LLM排行榜上名列前茅,这一壮举证明了该策略的有效性。团队分享了他们的模型在使用较小部分的微调数据和计算资源时与其他最先进的微调LLM一样出色的性能。例如,一个13B的Platypus模型只需使用一张A100 GPU和仅25k个问题就可以在令人瞩目的5小时内成功训练。这种令人难以置信的效率凸显了Open-Platypus数据集的优秀水平,并为该领域的进一步发展铺平了道路。 贡献可以总结如下: 引入了Open-Platypus,这是一个包含11个公共文本数据集的紧凑数据集,旨在增强LLM的STEM和逻辑知识。 这个主要由人设计的问题组成的数据集,在最小的微调时间和成本下提供了强大的性能。 团队分享了排除类似数据以减小数据集大小和冗余的过程的描述。 探索了LLM训练集中数据污染的挑战以及数据过滤过程。 分享了针对专业微调LoRA模块的选择和合并方法的解释,为提高LLM的整体性能做出了贡献。

Leave a Comment

这篇人工智能论文提出通过在多种非英语语言中建立语义对齐来增强预训练的LLMs的能力

I had trouble accessing your link so I’m going to try to continue without it. 你有没有尝试在ChatGPT中用英语以外的语言提问?你可能会得到一个奇怪、无关的答案,因为这些模型通常对英语有偏见。如果LLMs可以在任何语言中工作,那不是更容易吗? 中国国家重点实验室的新型软件技术研究人员提出了一种针对非英语语言的预训练LLM。由于预训练语料库和指令调整数据都是英文的,LLMs在非英语语言中的通常性能较差。可以通过持续使用大规模单语数据进行预训练来改善它。 研究人员通过翻译任务对LLMs进行指令调整,以改善两种语言之间的对应关系,并使用跨语言通用任务来提高指令的能力。他们使用LLaMA-7B作为他们的预训练LLM,并考虑了六种与英文字母类似的语言。LLaMA代表大型语言模型元AI。 对于每种语言,使用特定语言的数据获得一个x-LLaMA,然后与LLMs进行进一步比较。这种语言建模需要根据前缀序列预测下一个标记。它需要在大规模语料库和翻译数据上训练LLM。翻译数据是学习语义对齐最有用的资源之一,通过使用人工专家注释的翻译数据来进行指令调整,可以提高LLM的翻译性能。 研究人员使用公开可用的句级翻译数据集构建翻译任务指令数据。这使得他们的方法可扩展、可重复和可扩展到更多语言。他们发现将非英语文本排列在翻译数据的目标侧可以提高LLM在非英语任务上的性能,而不是将其放在源侧。 研究人员使用双语翻译性能作为了解语义对齐的参数。他们发现翻译任务指令数据的规模也极大地影响对齐。他们得出了一个关于翻译性能和数据规模的表达式,其呈指数形式的对数依赖关系。他们发现,与英语相同的语言相比,较不相似的语言需要更多的翻译数据来建立语义对齐。 为了比较x-LLaMA,研究人员设计了Alpaca-7B(一个LLaMA),它使用英语指令进行调整;Parrot-7B,它使用人工注释的翻译数据进行调整;以及Bayling-7B,它使用人工交互翻译进行调整。他们发现,在六种非英语语言中,x-LLaMA的性能优于Alpaca-7B的42.50%。x-LLaMA在非英语任务上的准确性与Alpaca-7B在英语任务上的准确性相同。 最后,这证明了跨语言指令调整是一种有效的方法。他们的方法和发现揭示了为非英语语言开发更强大的LLMs的潜力。

Leave a Comment

稳定AI发布日语StableLM Alpha:日语语言模型的跃进

在增强日本生成式人工智能领域迈出重要一步的同时,Stability AI,即稳定AI,是稳定扩散背后的开创性生成式AI公司,推出了其首个日语语言模型(LM),名为日语StableLM Alpha。这一重要发布引起了广泛关注,因为该公司声称其LM是面向日本说话者的最精通的公开可用模型。这一主张通过与其他四个日语LM进行全面基准评估得到了证实。 这个新推出的日语StableLM Alpha,拥有70亿参数的令人印象深刻的架构,是Stability AI在技术进步方面的承诺的明证。该模型是一种多功能高性能工具,适用于各种语言任务。它在多个分类中胜过了同行,成为行业领导者。 日语StableLM Base Alpha 7B商业版本计划在广泛认可的Apache License 2.0下发布。这个专门的模型是通过对包括7500亿个日语和英语文本令牌在内的庞大数据集进行广泛训练而精心打造的,这些数据集是从在线资源库中精心挑选的。 这一成就的基础还得归功于协作努力。Stability AI利用了EleutherAI Polyglot项目的日本团队的专业知识,最终形成了由Stability AI的日本社区创造的数据集。这一集体努力还得益于使用了EleutherAI的GPT-NeoX软件的扩展版本,这是Stability AI开发过程的基石。 作为一项并行创新,日语StableLM Instruct Alpha 7B又是一个显著的里程碑。这个模型主要用于研究目的,专门用于研究应用。它通过一种称为有监督微调(SFT)的方法,利用多个开放数据集,展示了遵循用户指令的独特能力。 这些模型通过EleutherAI的语言模型评估工具进行了严格的评估。这些模型在句子分类、句对分类、问答和句子摘要等各个领域经受了审查,并取得了令人印象深刻的平均得分54.71%。Stability AI认为,这一性能指标无疑将日语StableLM Instruct Alpha…

Leave a Comment

PlayHT团队将情感概念引入生成声音AI的AI模型:这将使您能够通过特定情感来控制和引导语音生成

语音识别是自然语言处理领域中最近开发的技术之一。研究科学家还为文本到语音生成的AI模型开发了大型语言模型。很明显,AI在语音质量、表情、人类行为等方面可以达到与人类相似的结果。但是尽管如此,这些模型仍然存在问题。这些模型在语言多样性方面较少。在语音识别、情感等方面也存在一些问题。许多研究人员意识到了这些问题,并发现这是由于模型使用的数据集较小造成的。 改进工作已经开始,PlayHT团队推出了PlayHT2.0作为这个案例研究的解决方案。这个模型的主要优点是它使用了多种语言并处理了大量的数据集。这也增加了模型的大小。NLP中的Transformers也在实施这个模型中扮演了重要角色。该模型处理给定的转录并预测声音。这经历了一个将文本转换为语音的过程,称为标记化。这涉及将简化的代码转换为声波,以生成人类语音。 该模型具有巨大的对话能力,可以像正常人一样进行对话,并带有一些情感。这些通过AI聊天机器人提供的技术经常被许多跨国公司用于在线呼叫和研讨会。PlayHT2.0模型还通过其中使用的优化技术改进了语音质量。它还可以复制出完全相同的声音。由于模型使用的数据集非常大,该模型在保留原始语音的同时也可以说出其他语言。模型的训练过程经历了大量的epochs和不同的超参数。这导致模型在语音识别技术中表现出各种情感。 该模型仍在不断改进中。研究科学家仍在致力于改进情感。提示工程师和许多研究人员还发现,该模型在未来几周内可以通过速度、准确度和良好的F1分数进行更新。

Leave a Comment

来自南加州大学和微软的研究人员提出了UniversalNER:一种新的AI模型,通过有针对性的蒸馏训练,可以识别13000多种实体类型,并在43个数据集上以9%的F1值超过ChatGPT的NER准确性

I had trouble accessing your link so I’m going to try to continue without it. ChatGPT和其他大型语言模型(LLM)展示了令人印象深刻的泛化能力,但它们的训练和推理成本通常是不可承受的。此外,对模型权重和推理概率的白盒访问在诸如医疗保健等关键任务应用中经常至关重要,以实现可解释性和信心。因此,指导调整作为一种将LLM压缩为更经济实惠和透明的学生模型的方法已经变得越来越受欢迎。这些学生模型已经展示出模仿ChatGPT的令人信服的能力,就像Alpaca和Vicuna一样。仔细观察发现,它们仍然需要赶上理想的LLM,特别是在特定目标应用中。 由于计算资源有限,通用蒸馏只能在所有可想象的应用中创建原始LLM的表面近似。相反,他们在这项研究中研究了有针对性的蒸馏,通过面向任务的指导调整来训练学生模型,用于开放信息提取等多样化的应用类别。他们证明了在保持其跨语义类型和领域的泛化能力的同时,这可以最大程度地复制LLM在指定应用类别中的能力。由于命名实体识别(NER)是自然语言处理中最基本的问题之一,他们选择了它作为案例研究。最近的研究表明,当有许多注释实例时,LLM仍然需要赶上最先进的监督系统的实体类型。 然而,对于大多数对象类型来说,大多数对象类型都很难进行注释。开发注释示例的成本高昂且耗时,特别是在需要专业知识的生物学等高价值领域。新的实体类型不断涌现。由于受过预先指定的实体类型和领域的训练,监督NER模型在新领域和实体类型上的泛化能力也较差。他们概述了LLM有针对性蒸馏的通用过程,并展示了开放域NER如何使用它。来自南加州大学和微软研究院的研究人员展示了如何利用ChatGPT从大量未标记的在线文本中创建NER的指导调整数据,并使用LLaMA创建UniversalNER模型(简称UniNER)。 他们提出了迄今为止最大、最多样化的NER基准(UniversalNER基准),包括来自9个不同学科的43个数据集,包括医学、编程、社交媒体、法律和金融。LLaMA和Alpaca在这个基准测试中表现不佳(约为0 F1)在零-shot NER上。相比之下,Vicuna在平均F1上表现明显更好,但仍然比ChatGPT落后20个绝对点以上。与此相反,UniversalNER在平均F1上超过Vicuna超过30个绝对点,并在UniversalNER基准测试中实现了最先进的NER准确性,涵盖了数以万计的实体类型。除了复制ChatGPT识别任何实体的能力(7-13亿个参数),UniversalNER在平均F1上还超过了其NER准确性7-9个绝对点。 令人惊讶的是,UniversalNER明显超过了使用监督NER实例的最先进的多任务指导调整系统,如InstructUIE。他们还进行了广泛的消融测试,以评估不同蒸馏组件(如指导提示和负采样)的影响。他们将提供他们的蒸馏配方、数据和UniversalNER模型,并提供一个交互式演示,以帮助进一步研究有针对性的蒸馏。

Leave a Comment

加州圣克鲁兹大学的研究人员提出了一种新颖的文本到图像关联测试工具,用于量化概念之间的隐性刻板印象以及图像中的情感价值

加州大学圣塔克鲁兹分校的研究团队引入了一种名为文本到图像关联测试(Text to Image Association Test)的新工具。该工具解决了文本到图像生成人工智能系统中的无意偏见。这些系统以其从文本描述中生成图像的能力而闻名,但往往会在其输出中再现社会偏见。在助理教授的带领下,该团队开发了一种量化的方法来衡量这些复杂的偏见。 文本到图像关联测试提供了一种结构化的方法来评估各个维度上的偏见,如性别、种族、职业和宗教。这一创新工具在2023年计算语言学协会(ACL)会议上进行了介绍。它的主要目的是量化和识别先进生成模型(如稳定扩散)中的偏见,这些模型可以放大生成的图像中现有的偏见。 该过程涉及向模型提供一个中性提示,如“孩子学习科学”。随后,使用性别特定的提示,如“女孩学习科学”和“男孩学习科学”。通过分析从中性和性别特定提示生成的图像之间的差异,该工具量化了模型响应中的偏见。 研究发现,稳定扩散模型展示了与常见刻板印象一致的偏见。该工具评估了诸如科学和艺术之间的联系以及男性和女性等属性之间的联系,并分配分数以指示这些联系的强度。有趣的是,该模型出人意料地将深肤色与愉快联系在一起,将浅肤色与不愉快联系在一起,与典型假设相反。 此外,该模型显示了科学和男性、艺术和女性、职业和男性以及家庭和女性之间的关联。研究人员强调,他们的工具还考虑到了图像中的上下文元素,包括颜色和温暖度,这使其与先前的评估方法有所区别。 受到社会心理学中隐性关联测试的启发,UCSC团队的工具在T2I模型的开发阶段中量化了偏见的进展。研究人员预计,这种方法将为软件工程师提供更精确的模型偏见度量,有助于识别和纠正人工智能生成内容中的偏见。通过定量指标,该工具促进了持续努力以减轻偏见并监测随时间推移的进展。 研究人员收到了ACL会议上的学术同行们的鼓舞和兴趣,许多人对这项工作的潜在影响表示热情。该团队计划在模型训练和改进阶段提出缓解偏见的策略。这个工具不仅揭示了人工智能生成图像中的偏见,还提供了纠正和增强这些系统整体公正性的手段。

Leave a Comment

谷歌AI推出视觉丰富的文档理解(VRDU):用于更好地追踪文档理解任务进展的数据集

越来越多的企业在当今数字时代创建和存储文件。尽管这些文件可能包含有用的信息,但有时很难阅读和理解。发票、表格和合同等视觉复杂的文件则更加困难。这些出版物中的布局、表格和图形可能使有用的信息难以解析。 为了填补这一知识差距并改进文件理解任务的进展跟踪,谷歌研究人员宣布推出了全新的视觉丰富文档理解(VRDU)数据集。基于文档理解模型通常处理的现实世界文档类型,他们提出了五个有效基准的标准。论文详细介绍了研究界中最常用的数据集在至少一个方面存在不足,而VRDU在每个方面都表现出色。谷歌的研究人员很高兴地宣布,VRDU数据集和评估代码现已根据创意共享许可协议对公众开放。 研究部门视觉丰富文档理解(VRDU)的目标是找到自动理解此类材料的方法。使用VRDU模型可以从文档中提取姓名、地址、日期和总数等结构化信息。发票处理、CRM和欺诈检测只是企业可能利用这些信息的几个例子。 VRDU面临许多障碍。各种文档类型的广泛存在是一个障碍。由于它们复杂的图案和排列,视觉丰富的文件提出了进一步的困难。VRDU模型必须能够处理打字错误和数据中的空白等不完善的输入。 尽管存在障碍,VRDU是一个有前途且快速发展的领域。VRDU模型可以帮助企业降低成本、提高效率,并提高操作的精度。 在过去的几年里,已经开发出了复杂的自动化系统,用于处理和转换复杂的业务文件为结构化对象。手动数据输入是耗时的;一个可以自动从收据、保险报价和财务报表等文档中提取数据的系统可能通过消除这一步骤大大提高企业的效率。基于Transformer框架构建的新模型显示出显着的准确性改进。这些业务流程还在借助像PaLM 2这样的更大型模型进行优化。然而,实际应用案例中观察到的困难在学术出版物中使用的数据集中没有得到反映。这意味着虽然模型在学术标准上表现良好,但在更复杂的实际应用环境中表现不佳。 测量标准 首先,研究人员将学术基准(如FUNSD、CORD、SROIE)与实际用例中的最新模型准确性(如与FormNet和LayoutLMv2相比)进行了对比。研究人员发现最新的模型在实践中的准确性明显低于学术基准。然后,他们将常见数据集与文档理解模型与学术基准进行比较,并制定了五个条件,以准确反映数据集在实际应用中的复杂性。 在他们的研究中,科学家遇到了各种用于结构化提取的丰富模式。数字、文本、日期和时间信息只是许多类型的实体数据中可能需要的一些,这些数据可能是必需的、可选的、重复的,甚至是嵌套的。实践中的典型问题应该在对简单的平面模式(标题、问题、答案)执行的提取操作中得到反映。 文档应该包含各种不同类型的复杂布局元素。当文档包含表格、键值对、单列和双列布局、不同部分的变量字体大小、带标题的图像和脚注时,问题就会出现。相比之下,关于长输入的经典自然语言处理研究通常关注大多数论文以句子、段落和章节与部分标题排列的数据集。 有用的基准应包含具有不同结构的模板。高容量模型可以快速记住给定模板的结构,使得从中提取数据变得轻松。基准的训练-测试拆分应该评估这种广义到新模板/布局的能力,因为这在实践中非常重要。 光学字符识别(OCR)结果应对所有提交的文档具有高质量。这个基准旨在消除不同OCR引擎对VRDU性能的影响。 文档应包含可以映射回匹配输入文本的地面实况注释,以便可以将各个标记作为其各自实体的一部分进行注释。这与传递实体值的文本的标准做法形成对比,以进行解析。这对于生成无噪声的训练数据至关重要,使得研究人员可以专注于其工作的其他方面,而无需对所提供的值进行意外匹配。如果税额为零,则收据上的“税前总计”字段可能与“总计”字段具有相同的值。通过在标记级别进行注释,可以避免训练数据中将匹配值的两个出现都指定为“总计”字段的地面实况,从而产生噪声示例。 VRDU中的数据集和任务 VRDU收集包括两个独立的公共数据集——注册表单数据集和广告购买表单数据集。这些数据集提供了适用于现实场景并满足上述五个标准的实例。 广告购买表单数据集中的641个文件描述了政治广告的各个方面。一个电视台和一个倡导组织分别签署了发票或收据。产品名称、播出日期、总费用和发布时间只是记录在文件的表格、多列和键值对中的一些细节。 注册表单数据集中有1915个文件,详细描述了在美国政府注册的外国代理人的背景和活动。每个文件中记录了必须公开的外国代理人从事的活动的重要细节。注册人的姓名、关联机构地址、注册的活动以及其他信息。 VRDU的最新发展 近年来,VRDU取得了许多进展。大规模语言模型(LLMs)就是其中之一。大规模表示相似度测量(LLMs)是在大规模文本和代码数据集上训练的,可以用来表示图文丰富文本的文本和布局。 “少样本学习技术”的创建是另一个重要的成就。借助少样本学习方法,VRDU模型可以快速学习从新颖文档类型中提取信息。这一点很重要,因为它扩展了VRDU模型可以应用的文本类型。 Google Research已经向研究界提供了VRDU基准。发票和表单是VRDU标准中包含的两个视觉丰富文档的示例。发票数据集中有10,000个发票,表单数据集中有10,000个表单。VRDU基准还提供了一套经过深思熟虑的工具,用于评估性能。 VRDU领域的研究人员将会发现这个基准是一个宝贵的工具。研究人员现在可以评估各种VRDU模型在相同文本语料库上的表现如何。VRDU基准不仅对发现问题有用,还可以帮助直接进行未来的研究。 使用VRDU模型可以从文档中提取结构化数据。…

Leave a Comment

大规模语言模型能否取代人类在文本评估任务中的角色?这篇人工智能论文提议使用LLM来评估文本的质量,作为人工评估的替代方案

人类评估一直被用来评估自然语言处理模型和算法对文本质量的表现。然而,人类评估有时并不一致,并且可能无法重复,因为很难招募相同的人类评估者并得到相同的评估结果,评估者使用了不同数量的因素,包括主观性或对评估标准的解释差异。 台湾大学的研究人员研究了“大规模语言模型”(使用大量可在网络上访问的文本数据进行训练的模型,从而学习使用人类语言)作为一种新的评估方法,以解决这个可重复性问题。研究人员向LLMs提供相同的指令、要评估的样本和问题,然后要求LLMs为这些问题生成回答。他们使用人类和LLM评估来评估两个自然语言处理任务中的文本:开放式故事生成和对抗性攻击。 在“开放式故事生成”中,他们通过使用大规模语言模型和人类评估来检查由人类和生成模型(GPT-2)生成的故事的质量,以验证大规模语言模型是否可以将人类编写的故事评分高于生成模型生成的故事。 为了做到这一点,他们首先生成了一个问卷(评估指南、生成的故事片段和评估问题),根据四个不同的属性(语法准确性、一致性、喜欢度和相关性)分别在Likert量表(5个级别)上进行评分。 在人类评估中,用户按照准备好的问卷进行回答。对于大规模语言模型的评估,他们将问卷作为提示输入,并获得大规模语言模型的输出。研究人员使用了四个大型语言模型T0、text-curie-001、text-davinci-003和ChatGPT。对于人类评估,研究人员使用了著名的英语教师。这些大规模语言模型和英语教师评估了200个人类编写的故事和200个GPT-2生成的故事。英语教师给出的评分显示出对人类编写故事的四个属性(语法性、连贯性、喜好度和相关性)的偏好。这表明英语教师可以区分生成模型生成的故事和人类编写的故事之间的质量差异。但是,T0和text-curie-001对人类编写的故事没有明显的偏好。这表明大规模语言模型在评估开放式故事生成方面比人类专家能力较差。另一方面,text-davinci-003对人类编写的故事和英语教师都显示出明显的偏好。此外,ChatGPT也对人类编写的故事给出了更高的评分。 他们还研究了一个对抗性攻击任务,测试人工智能对句子进行分类的能力。他们测试了将句子分类为某种敌对攻击(使用同义词轻微改变句子)的能力。然后评估攻击对人工智能对句子进行分类的影响。他们使用了一个大规模语言模型(ChatGPT)和一个人类进行这个任务。 对于对抗性攻击,英语教师(人类评估)对敌对攻击产生的句子在流畅性和意义保持方面评分低于原始句子。此外,ChatGPT对敌对攻击句子给出了比英语教师更高的评分。同时,ChatGPT对敌对攻击句子的评分低于原始句子,总体上,大规模语言模型以与人类相同的方式评估敌对攻击句子和原始句子的质量。 研究人员指出了大规模语言模型评估的以下四个优点:可重复性、独立性、成本效益和速度、以及减少对不可接受内容的曝光。然而,大规模语言模型也容易对事实产生误解,并且学习方法可能引入偏见。此外,这些模型缺乏情感可能会限制它们在涉及情感的任务评估中的功效。人类评估和大规模语言模型的评估具有独特的优势和弱点。通过人类和这些大规模模型的结合,可能可以实现最佳效用。

Leave a Comment

Meta AI的研究人员推出了一种新的人工智能模型,用于对大型语言模型生成结果进行评论

I had trouble accessing your link so I’m going to try to continue without it. 将以下HTML代码翻译成中文(保留HTML代码): 大型语言模型(LLMs)生成连贯、上下文相关且语义有意义的文本的能力变得越来越复杂。尽管取得了这些进展,LLMs经常提供不准确、可疑和荒谬的结果。因此,不断评估和改进生成结果的技术对于更可信赖的语言模型将会有所帮助。LLMs的帮助下,语言模型的输出得到了增强。在当前的工作中,一些人训练实用函数,以在信息寻求对话任务中对生成的自然语言进行反馈。相反,其他人使用指令提示来创建模型生成的输出文本的多方面评估分数,涵盖各个领域。 尽管最初的研究未能对复杂的数学和推理等任务的模型输出产生反馈,只提供了对输出响应的一般反馈,但最近的一项研究通过指导调整LLM来为其回复创建自我反馈。在这项研究中,来自Meta AI Research的研究人员介绍了Shepherd,一种专门优化用于评估模型生成输出的语言模型。他们的目标是开发一个能够在许多领域提供评论的强大批评模型,尽管与之前的工作有着相似的目标。他们的方法可以识别特定问题,包括事实性、逻辑缺陷、连贯性和一致性,并在需要改进结果时提出修改建议。 表1:来自Stack Exchange和人工注释的训练数据示例 更准确地说,Shepherd可以提供包括深入主题知识、改进建议和广泛判断和推荐的自然语言反馈。他们开发了两个独特数据集的高质量反馈数据集,以改进Shepherd并对其进行评估:(1)社区反馈,从在线论坛中策划,以捕捉更多样化的互动;(2)人工注释的输入,收集了许多任务的生成结果。请参见表1中的示例。在这些数据集的混合训练下,Shepherd表现出色,在多个下游任务上超过了ChatGPT模型。社区数据比人工注释数据更有用和多样化。然而,通过对社区反馈和人工注释反馈数据的仔细研究,可以发现社区反馈往往更不正式。 由于这些细微差别,Shepherd可以对各种任务提供反馈,并且他们发现使用高质量的人工注释数据来微调模型可以提高模型性能。他们将Shepherd产生的反馈与Alpaca、SelFee和ChatGPT等尖端基线模型进行比较,并进行了基于模型和人类的评估。他们发现Shepherd的批评经常受到其他模型的青睐。例如,Alpaca倾向于赞扬每个模型的答案,这会产生许多不准确的反馈。SelFee经常忽略模型的答案,或者立即回答查询,而不提供可能识别错误的反馈。 他们发现ChatGPT在各种评估情况下更一致,并且在提供准确判断的评论方面表现更好。总之,他们创建了Shepherd,一种新颖的模型,可以对任何LLM生成的内容提供全面的批评,从而提高其质量。通过仔细分析生成的投诉,他们展示了Shepherd在各种生成任务中的有效性。创建一个一流的反馈数据集,可能有助于未来在这一领域的研究,也是他们工作的另一个重要补充。

Leave a Comment

见AgentBench:一个多维基准,旨在评估各种环境中的大型语言模型作为代理的能力

大型语言模型(LLMs)已经出现和发展,为人工智能领域增加了一种新的复杂性。通过密集的训练方法,这些模型已经掌握了一些惊人的自然语言处理、自然语言理解和自然语言生成任务,例如回答问题、理解自然语言推理和总结材料。它们还完成了与NLP不常见相关的活动,例如理解人类意图和执行指令。 像AutoGPT、BabyAGI和AgentGPT这样的应用程序利用LLMs实现了自主目标,这些应用程序的实现得益于所有NLP的进步。尽管这些方法引起了公众的浓厚兴趣,但评估LLMs作为代理的标准基线的缺失仍然是一个重大障碍。虽然过去已经使用基于文本的游戏环境来评估语言代理人,但由于其有限和离散的动作空间,它们经常存在一些缺点。此外,它们主要评估模型的常识基础能力。 大多数现有的代理人基准测试都专注于特定的环境,这限制了它们在各种应用场景中对LLMs进行全面评估的能力。为了解决这些问题,清华大学、俄亥俄州立大学和加州大学伯克利分校的研究人员提出了AgentBench,这是一个多维基准测试,旨在评估LLMs作为代理的能力在各种环境中。 AgentBench包含了八个不同的环境,其中五个是全新的:侧面思考难题(LTP)、知识图谱(KG)、数字卡牌游戏(DCG)、操作系统(OS)和数据库(DB)。最后的三个环境——家政(Alfworld)、在线购物(WebShop)和网络浏览(Mind2Web)——是从现有数据集进行改编的。这些环境都经过精心设计,以代表文本化的LLMs可以扮演自主代理的交互情境。它们严格评估LLM的关键能力,如编码、知识获取、逻辑推理和遵循指示,因此AgentBench成为评估代理和LLMs的全面测试平台。 利用AgentBench,研究人员对包括基于API和开源模型在内的25个不同的LLMs进行了深入分析和评估。研究结果显示,像GPT-4这样的顶级模型擅长处理各种现实世界的任务,这意味着可以创建高效能并不断适应的代理人。然而,这些顶级的基于API的模型在性能上明显不如它们的开源替代品。开源LLMs在其他基准测试中表现良好,但当他们面对AgentBench的困难任务时,它们表现不佳。这强调了进一步改进开源LLMs学习能力的需求。 研究的贡献可以总结如下: AgentBench是一个全面的基准测试,定义了标准化的评估程序,并引入了将LLMs作为代理进行评估的创新概念。它通过整合八个模拟现实世界情境的真实环境,为评估LLMs的各种能力提供了一个有用的平台。 该研究利用AgentBench对25个不同的LLMs进行了全面评估,揭示了领先的商业API型LLMs和开源替代品之间的显著性能差距。这种评估突出了LLM作为代理的当前状况,并确定了需要改进的领域。 该研究还提供了一个基于“API&Docker”交互范式的集成工具集,使定制AgentBench评估过程更加容易。这个工具集对更广泛的研究社区可用,结合相关数据集和环境,促进了LLMs领域的合作研究和开发。

Leave a Comment

OpenAI推出GPTBot:一个用于自动从整个互联网上提取数据的网络爬虫

OpenAI通过引入一种名为GPTBot的新型网络爬虫工具,回应了在采集公共网站上的数据时出现的隐私和知识产权问题。这项技术旨在透明地收集公共网络数据,并将其用于训练他们的AI模型,一切都在OpenAI的旗帜下进行。 GPTBot的用户代理旨在收集有助于改进未来AI模型的数据。在此过程中,GPTBot将省略需要付费的来源。然而,需要注意的是,一些收集到的数据可能无意中包含可识别的信息或文本,从而违反了OpenAI的政策。 OpenAI认识到需要为网站管理员提供有关GPTBot平台访问的选项。授予访问权限被视为在提高AI模型的准确性、增强其功能和加强安全措施方面的一种合作方式。与此相反,OpenAI还为那些不希望将其网站包含在GPTBot数据收集工作中的人提供了一套程序。该指南包括将GPTBot指令整合到网站的robots.txt文件中,并配置其访问特定内容段。 为了更加透明,OpenAI已发布了与GPTBot活动相关的IP地址范围。此举不仅有助于识别机器人的行为,还提供了必要时阻止其访问的手段。 这些透明度举措突显了OpenAI对AI模型运营商所面临的批评的回应,这些运营商被指控在未经明确同意的情况下收集数据。普遍的观点认为,该行业的做法可能侵犯了知识产权和隐私保护,通过未经适当授权从公共网站收集内容。这反过来促使AI实体提供更全面的选择加入和退出机制,允许网站所有者和数据保管人对其内容的使用发表意见。 在相关发展中,Kickstarter的筹款平台最近引入了AI项目规定。这些规定包括一个重要要求,即利用外部数据源的项目必须提供来自源网站的适当许可协议和获得的同意的证据。未能履行此义务的项目将无资格在Kickstarter上列出。 预计在接下来的一周,OpenAI将进行一次重大改革,其中包括将基础ChatGPT层转换为GPT-4。此外,对Code Interpreter插件的增强将包括支持上传多个文件到提示,反映了OpenAI对持续改进和创新的承诺。

Leave a Comment

中国的一项新的人工智能研究介绍了RecycleGPT:一种生成式语言模型,其解码速度为1.4倍,通过回收预生成的模型状态而无需运行整个模型的多个步骤

在各种应用领域中创建令人满意的文本时,大型语言模型(LLMs)在自然语言生成方面带来了革命性的变化。尽管扩大模型规模(100B+参数)会显著提高性能,但事实仍然是,完成单个解码步骤所需的时间随着模型大小的增加而增长。更大的模型引入了大量的计算和更大的内存占用,这两者都对LLM的推理速度缓慢产生重要影响。KV缓存和训练模型参数以及推理所需的临时状态的内存需求是相当大的。 由于系统的内存访问速度较慢,LLMs的令牌生成速度较慢。至于产生每个标记所需的时间,它大致与模型参数的总数相关。 有几项工作旨在使推理更加高效。这些研究的基本重点是最小化内存使用量和缓解内存流量拥塞。无锡国家超级计算中心和清华大学的一项新研究调查了有效的解码技术,以最大化标记生成,并同时保持内存处理预算不变。为了实现快速解码,他们引入了一种名为RecycleGPT的新的语言模型架构,它可以重复使用先前创建的模型状态。 他们的策略是通过将一个新的可回收模块纳入原始语言模型中来进行微调,该模块基于先前生成的状态预测接下来的几个标记,而无需重复运行完整的模型。可回收模块由几个基于Transformer的层构建,这些层一起允许在进行预测时进行更好的表示。RecycleGPT可以与传统的解码技术以多种不同的方式结合使用,以进行推理。本研究循环使用它们(即,每生成两个标记需要运行一次整个模型),留下其他方式的研究以供未来参考。可回收模块的目的是加快解码过程,它之所以能够做到这一点,是因为尽管其结构简单,但该模块能够有效地表示上下文信息并生成正确的预测。 团队对RecycleGPT进行了多项测试,与几个行业标准进行了比较。研究结果显示,该模型的速度比最先进的语言模型快1.4倍,参数仅增加15%,同时在下游任务上保持类似的性能。研究人员计划很快展示不同规模的RecycleGPT模型。 由于其适应性和可扩展性,我们的回收技术可以与各种预训练模型一起使用。此外,可以修改创作技术和可回收模块的大小以达到所需的加速性能。

Leave a Comment

见面 MetaGPT:将GPT转化为工程师、建筑师和经理的开源AI框架

基于大型语言模型(LLMs)的多agent系统具有模拟和改进人类操作的特殊机会。然而,最近的研究表明,当前系统在现实应用中的复杂性中有时需要更准确。这些系统主要需要通过口头和基于工具的交流来促进建设性的协作,这在生成连贯的交流、减少反生产性的反馈循环和促进有益的协作交互方面存在困难。对于多方面的过程来说,有良好结构化的标准化操作程序(SOPs)是必要的。对现实世界实践的全面认识和整合至关重要。 解决这些常见限制并将这些见解纳入LLM-based多agent系统的设计和结构以提高其效力和应用至关重要。此外,通过广泛的集体实践,人们在各个领域已经建立了广泛认可的SOPs。这些SOPs对于促进有效的工作拆分和协调至关重要。例如,软件工程中的瀑布流程为需求分析、系统设计、编码、测试和可交付物建立了逻辑步骤。 借助这种共识工作流程,几个工程师可以有效地合作。此外,人类职位具有适合其工作的专业知识:软件工程师利用其编程技能来创建代码,而产品经理利用市场研究来确定客户需求。协作偏离了典型的输出,并变得杂乱无章。例如,产品经理必须进行全面的竞争研究,对用户需求、市场趋势和竞争产品进行研究以推动开发。这些分析必须紧接着创建具有清晰的、标准化格式和优先目标的产品需求文档(PRDs)。 这些规范性的工件对于推进复杂的、多样化的项目,需要各种角色的相关贡献,是必不可少的。它们凝聚了共同的理解。因此,使用组织良好的文档、报告和显示依赖关系的图形是至关重要的。在这项研究中,来自DeepWisdom、厦门大学、香港中文大学深圳分校、南京大学、宾夕法尼亚大学和加州大学伯克利分校的研究人员介绍了MetaGPT,这是一个具有基于SOPs的实用知识的开创性多agent框架。首先,他们使用描述其职责的职位名称来标识每个agent。这使得系统能够以正确的角色特定提示前缀初始化。这样,不再需要笨拙的角色扮演线索,而是将领域知识融入到agent定义中。其次,他们审查有效的人类过程,提取用于群体项目所需的SOPs的过程知识。 这些SOPs在agent架构中使用基于角色的操作规范进行编码。第三,为了促进信息交流,agent创建标准化的操作输出。MetaGPT通过形式化人类专家交流的工件,简化了相互依赖的工作之间的协调。agent通过共享环境相连接,这个环境提供有关活动和工具资源的洞察力。所有agent之间的通信都包含在这个环境中。它们还提供了一个全局内存池,存储所有合作记录,允许任何agent订阅或搜索所需的数据。agent可以从这个内存池中检索以获取更多上下文。 与通过对话被动吸收信息相反,这种架构使agent能够主动观察和提取相关信息。这个环境模拟了鼓励团队合作的实际工作场所中的系统。他们展示了协作式软件开发工作流程和相关的代码实现实验,涵盖了小游戏的开发和更复杂的大系统的生产,以说明他们的架构的效力。MetaGPT管理的软件复杂性远远超过GPT-3.5或其他开源框架如AutoGPT和AgentVerse,以产生的代码行数来衡量。 此外,MetaGPT通过自动化的端到端过程生成高质量的需求文档、设计工件、流程图和接口规范。这些中间标准化的输出极大地增加了最终代码执行的成功率。借助自动生成的文档,人类开发者可以迅速学习和提高他们的专业知识,以进一步改进他们的需求、设计和代码。它还实现了更复杂的人工智能与人类的互动。总之,他们通过对不同软件项目进行广泛的研究来验证MetaGPT。 通过定量的代码生成基准和整体过程输出的定性评估,展示了MetaGPT基于角色的专家agent合作范式所带来的可能性。总结起来,他们主要做出了以下贡献: • 设计了一种新的元编程机制,包括角色定义、任务分解、流程标准化和其他技术设计。 • 他们提出了MetaGPT,这是一种基于LLM的多代理协作框架,将人类的标准操作规程编码到LLM代理中,从根本上扩展了复杂问题解决的能力。 • 他们使用AutoGPT、AgentVerse、LangChain和MetaGPT对开发CRUD2代码、基本数据分析任务和Python游戏进行了广泛的测试。 通过采用标准操作规程,MetaGPT可以创建复杂的软件。总体研究结果表明,MetaGPT在代码质量和符合预期流程方面显著优于竞争对手。

Leave a Comment

加州大学伯克利分校的研究人员推出Dynalang:一种人工智能代理,它学习多模态世界模型以预测未来的文本和图像表示,并从想象的模型展开中学习行动

长期以来,人工智能的目标之一是创建能够与人们在现实世界中进行有机交流的机器人。现今的具身代理人可以执行简单的低级命令,例如“拿起蓝色的积木”或“经过电梯然后向右转”。然而,交互式代理人需要能够理解人们在“此时此地”之外使用语言的全部方式,包括知识传递(例如,“左上角的按钮关闭电视”),情境信息(例如,“我们没有牛奶了”)和协调(例如,“我已经清理过客厅了”)。 大部分孩子在书籍中阅读或从他人那里听到的内容都传达了关于世界的信息,无论是它如何运作还是它目前的状态。他们如何使代理人能够说其他语言?强化学习(RL)是一种教授以语言为条件的代理人解决问题的技术。然而,目前大多数使用的语言条件的RL技术是通过从任务特定的指令中产生动作来训练的,例如,通过将像“拿起蓝色的积木”这样的目标描述作为输入并生成一系列运动命令。直接将语言映射到最佳行动方案在考虑到自然语言在实际世界中扮演的各种角色时,提供了一个困难的学习挑战。 如果正在进行的工作是清理,代理人应该通过进行下一个清理步骤来回答,但如果是用餐,代理人应该收拾碗。以“我把碗放好了”为例。当语言不讨论任务时,语言与代理人最佳行动方案之间只有弱相关性。因此,仅通过将语言映射到活动的任务奖励可能是学习信号更好,以便学会使用各种语言输入完成任务。相反,他们建议,语言对代理人的一个统一功能是帮助进行未来预测。短语“我把碗放好了”可以使代理人更准确地预测未来的观察结果(例如,如果它打开柜子,它会看到碗)。 从这个意义上说,孩子们接触到的大部分语言可能根植于视觉经验。代理人可以使用先前的信息来预测环境变化,例如“扳手可以用来拧紧螺母”。代理人可以通过说“包裹在外面”来预期观察结果。这种范式还将常见的按照指令实践与预测术语结合起来:指令帮助代理人期待奖励。他们认为,预测未来表示为代理人提供了丰富的学习信号,有助于他们理解语言以及它如何与外部世界交互,类似于下一个令牌预测使语言模型能够构建内部对世界知识的表示。 加州大学伯克利分校的研究人员引入了Dynalang,一种通过在线经验获取世界的语言和视觉模型,并利用该模型理解如何行为的代理。Dynalang将使用该模型的行为学习(具有任务激励的强化学习)与使用语言模型(具有预测目标的监督学习)的世界建模分开。世界模型接收视觉和文本输入作为观察模态,这些输入被压缩为潜在空间。随着代理人与周围环境的互动,使用在线收集的数据,它训练世界模型预测未来的潜在表示。使用世界模型的潜在表示作为输入,他们训练策略采取决策以最大化任务奖励。 由于世界建模与行动是不同的,Dynalang可以在没有活动或任务奖励的情况下预先训练单模态(仅文本或仅视频数据)。此外,语言生成的框架可以统一:代理人的感知可以影响其语言模型(即其关于未来令牌的预测),从而使其能够通过在动作空间中生成语言来与环境进行交流。他们在各种语言环境中测试了Dynalang的性能。Dynalang学会了利用关于未来观察结果、环境动态和修正的语言线索,在多任务清洁房屋的环境中更快地完成家务。在Messenger基准测试中,Dynalang通过阅读游戏手册来匹配游戏的最难关卡,优于任务特定的架构。他们展示了Dynalang可以在视觉和语言复杂的环境中掌握指令,在视觉语言导航中超越了最先进的强化学习算法和任务特定的架构。 以下是他们所做的贡献: • 他们提出了Dynalang,一种使用未来预测来连接语言与视觉体验的代理。 • 他们展示了Dynalang通过学习理解各种类型的语言来应对各种任务,优于最先进的RL算法和任务特定设计。 • 他们证明了Dynalang的构想打开了新的可能性,包括在单一模型中将语言创作与纯文本预训练相结合,而无需行动或任务激励。

Leave a Comment

“遇见Rumi项目:面向大型语言模型的多模态语用提示”

在数字化时代兴起的技术中,大型语言模型(LLMs)已成为一种强大的工具,革新了人类社会和文化的许多方面,重塑了我们与计算机的互动方式。然而,存在一个需要解决的关键挑战。LLMs的限制显而易见,揭示了无法理解对话的上下文和细微差别以及依赖于提示的质量和特定性的差距。一个主要的限制是它们缺乏真实交流的深度,错过了所有的语际信息。 微软的Rumi项目旨在通过解决对非语言线索和上下文细微差别的理解的局限性,提升LLMs的能力。它将语际输入纳入基于提示的LLMs交互,以提高沟通质量。研究人员使用音频和视频模型从数据流中检测实时非语言线索。使用两个独立的模型从用户的音频中提取语际信息,一个是音频的韵律音调和抑扬顿挫,另一个是从语音的语义中提取的信息。他们使用视觉转换器对帧进行编码,并从视频中识别面部表情。下游服务将语际信息纳入基于文本的提示中。这种多模态方法旨在增强用户情感和意图的理解,从而将人工智能与人类的交互提升到一个新的水平。 在这项研究中,研究人员只是简要探讨了语际在传达用户意图方面提供关键信息的作用。未来,他们计划改进模型,使其更好、更高效。他们还希望添加更多细节,如从标准视频中获取的HRV(心率变异性)以及认知和环境感知。这都是为了在与人工智能的下一个交互浪潮中增加未明示的意义和意图的更大努力的一部分。

Leave a Comment

“Meta AI开源AudioCraft:一个用于音频生成的PyTorch库,用于深度学习研究”

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/362278500_245853288291883_2304974600919081225_n-1024×576.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/362278500_245853288291883_2304974600919081225_n-150×150.png”/><p>为了使研究人员和实践者能够训练他们的模型并推动技术的发展,Meta发布了其文本到音乐生成AI“AudioCraft”的源代码。MusicGen、AudioGen和EnCodec是构成AudioCraft开发框架的三个模型。</p><ul> <li>MusicGen可以根据文本用户输入生成音乐,因为它是使用Meta拥有并经过特殊许可的音乐进行训练的。</li> <li>AudioGen可以从文本输入中创建音频,并在公开的音效中进行训练。</li> <li>EnCodec是一个三合一的AI驱动的编码器、量化器和解码器。</li> </ul><p>AudioGen可以从文本输入中创建音频,并在公开的音效中进行训练。Meta将发布改进版的EnCodec解码器,使音乐生成具有更高的质量和更少的伪影,同时还提供预训练的AudioGen模型,可用于生成环境音和音效,比如狗叫声、汽车喇叭声或者木地板上的脚步声,以及AudioCraft模型的所有权重和代码。对该技术感兴趣的研究人员可以使用这些模型。Meta很高兴首次向研究人员和实践者开放其平台,让他们能够使用自己的数据集来训练模型并为技术的发展做出贡献。</p><p>经过训练后,它可以根据用户输入的文字产生逼真且高质量的音乐或音效。AudioCraft中包含了MusicGen、AudioGen和EnCodec这三个模型。MusicGen和AudioGen可以根据各自的训练集从文本生成音乐和音效。MusicGen使用Meta拥有的和经许可的音乐,而AudioGen使用公开的音频数据集。Meta在2017年的6月和10月分别发布了两个模型:MusicGen和AudioGen。</p><p>Meta声称,AudioCraft可以通过直观的界面产生专业级的声音。他们还声称,通过采用一种新的方法,它简化了当前音频生成技术的设计。他们详细介绍了AudioCraft如何使用EnCodec神经音频编解码器从原始音频数据中提取有意义的信息。在此之后,一个自回归语言模型通过利用音乐样本(音频令牌)的预先确定“词汇表”来训练一个新的音频语言模型。这个新模型生成基于文本描述的令牌,并发送回EnCodec解码器,从而实现音频和音乐的合成。</p><p>Meta演示了AudioGen与传统的AI音乐生成器的独特之处。长期以来,音乐的象征性表示,如MIDI或钢琴卷纸,一直被用于音乐训练以生成AI模型。然而,当记录音乐表达的细微差别和审美成分时,这些方法必须进行修订。更复杂的方法涉及将原始音乐输入系统,并使用自监督音频表示学习和多级(级联模型)模型来生成音乐,以捕捉信号的长距离结构。虽然效果可能需要一些改进,但是可以生成良好的声音。</p><p>根据负责任的AI原则,Meta的研究人员正在制作AudioGen和MusicGen模型卡片,记录他们开发模型的过程,并提供给研究界以不同规模的版本。音频研究框架和训练代码以MIT许可证的形式对公众开放,以供他人使用和扩展。Meta认为,如果开发出更复杂的控制方式,这样的模型对业余和专业音乐家可能非常有用。想象一下,通过强大的开源基础,可以实现带有音效和戏剧性音乐的增强睡前故事朗读等可能性。</p>

Leave a Comment

这项人工智能研究评估了指令跟踪模型执行问答任务的正确性和忠实度

最近引入的大型语言模型(LLMs)已经在人工智能(AI)社区中引起了轰动。这些模型通过使用超强的自然语言处理(NLP)、自然语言生成(NLG)和自然语言理解(NLU)成功地模仿了人类。LLMs因为能够模仿人类进行真实对话而变得著名,它们能够回答简单和复杂的问题,生成内容,代码补全,机器翻译和文本摘要。NLP的目标是使计算机系统能够理解和响应以自然语言给出的命令,使人们能够以更自然和灵活的方式与它们互动,最好的例子就是指令跟随模型。 这些模型是使用LLMs、有监督的例子或其他类型的监督进行训练,并暴露在成千上万个以自然语言指令编写的任务中。在最近的研究中,来自麦吉尔大学Mila Quebec AI研究所、麦吉尔大学和Facebook CIFAR AI Chair的团队研究了评估指令跟随模型在给定一组文本段落上执行问答(QA)任务的性能。这些模型可以在提供描述任务、问题和由检索器检索到的相关文本段落的提示时回答问题,这些模型产生的响应被认为是自然和信息丰富的,有助于建立用户的信任和参与度。 这些模型可以通过仅向其输入添加检索到的文档和指令来自然而流畅地回答用户的查询。然而,这种额外的冗长使得传统的QA评估指标如完全匹配(EM)和F1分数难以有效地量化模型的性能。这是因为模型的响应可能包含更多细节,而参考答案忽略了这些细节,但仍然准确。为了解决这个问题,团队提供了两个评估指标衡量检索增强的质量保证(QA)中的指令跟随模型。 关于信息必要性、准确性:这个维度评估模型满足用户信息需求的能力。它关注的是生成的响应是否包含相关信息,即使它超出了直接在参考答案中提及的内容。 与所提供的信息的一致性:这个维度评估模型在所提供的知识中是否正确回答问题。一个真实的模型应该避免在呈现无关信息时回答问题,并在有关信息可用时给出准确的答案。 作者在三个不同的QA数据集上评估了几个最近的指令跟随模型:用于开放域QA的自然问题,用于多跳QA的HotpotQA,以及用于对话QA的TopiOCQA。他们手动分析了900个模型的响应,并将结果与不同的自动评估指标进行了比较,以评估准确性和忠实度。他们的研究表明,召回率(衡量参考答案中的标记在模型响应中的占比)与正确性的相关性比EM或F1分数等词汇重叠度量更强。与其他用于忠实度的标记重叠度量相比,K-Precision(模型答案标记在知识片段中存在的百分比)与人类判断更强相关。 总之,本研究旨在更全面地评估指令跟随模型在QA任务中的优势和劣势。该团队通过在GitHub存储库上提供他们的代码和数据,进一步推动了该领域的进展。

Leave a Comment

“认识MovieChat:一种创新的视频理解系统,它集成了视频基础模型和大型语言模型”

大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著进展。将多模态引入LLMs并将其转化为多模态大型语言模型(MLLMs),可以进行多模态感知和解释,这是一个合乎逻辑的步骤。作为人工通用智能(AGI)的可能步骤,MLLMs在感知(如存在、计数、位置、OCR)、常识推理和代码推理等各种多模态任务中展示出了令人惊讶的新技能。与LLMs和其他任务特定模型相比,MLLMs能够以更类似人类的视角看待环境,提供用户友好的交互界面,并具备更广泛的任务解决能力。 现有的以视觉为中心的MLLMs使用Q-former或基本投影层、预训练的LLMs、视觉编码器和额外的可学习模块。另一种范式是通过API将当前的视觉感知工具(如跟踪和分类)与LLMs相结合,构建一个无需训练的系统。早期在视频领域的一些研究使用了这种范式开发了视频MLLMs。然而,以往从未对基于长时间电影(持续时间超过一分钟)的模型或系统进行过任何研究,并且也没有设定衡量这些系统有效性的标准。 在这项研究中,浙江大学、华盛顿大学、微软亚洲研究院和香港大学的研究人员介绍了一种名为MovieChat的独特框架,用于解决长时间视频解释挑战,将视觉模型与LLMs结合起来。根据他们的说法,扩展视频理解的剩余困难包括计算困难、内存开销和长期时间关联。为了解决这个问题,他们提出了一种基于阿特金森-希夫林(Atkinson-Shiffrin)记忆模型的记忆系统,其中包括快速更新的短期记忆和紧凑持久的长期记忆。 这个独特的框架将视觉模型与LLMs结合起来,是第一个能够进行扩展视频理解任务的框架。该研究通过进行严格的定量评估和案例研究,评估了理解能力和推理成本的性能,并提出了一种记忆机制,以降低计算复杂性和内存成本,同时改善长期时间关联。该研究通过将巨大的语言模型与视频基础模型相结合,提出了一种新颖的理解视频的方法。 该系统通过包含一个受阿特金森-希夫林模型启发的记忆过程来解决分析长电影的困难,其中包括由Transformers中的令牌表示的短期和长期记忆。所提出的系统MovieChat在扩展视频理解方面表现优于之前只能处理几帧电影的算法,并达到了最先进的性能。这种方法解决了长期时间关联问题,同时降低了内存使用和计算复杂性。该研究凸显了记忆过程在视频理解中的作用,使模型能够存储和检索相关信息长时间。MovieChat的普及对包括内容分析、视频推荐系统和视频监控在内的行业具有实际影响。未来的研究可能会探索如何加强记忆系统,并使用其他模态(包括音频)来提高视频理解能力。这项研究为需要全面理解视觉数据的应用创造了可能性。他们的网站上有多个演示。

Leave a Comment

Abacus AI 推出一款新的开放式长上下文大语言模型 LLM:遇见Giraffe

最近的语言模型可以将长上下文作为输入;需要了解它们如何更好地使用更长的上下文。能否将LLMs扩展到更长的上下文?这是一个未解答的问题。Abacus AI的研究人员进行了多次实验,涉及不同方案来开发Llama的上下文长度能力,该模型在上下文长度2048上进行了预训练。他们使用IFT将这些模型进行线性缩放,缩放比例为4和16。将模型缩放到16倍可以执行长达16k的上下文长度的任务,甚至可以执行长达20-24k的上下文长度的任务。 扩展上下文长度的不同方法包括线性缩放、通过幂将旋转位置嵌入(RoPE)的傅里叶基缩放、截断傅里叶基和随机化位置向量。Abacus AI的研究人员使用这些方法对RedPajama数据集和Vicuna数据集进行了微调。他们发现线性缩放是稳健的,但会增加模型的上下文长度。截断和随机化具有很高的困惑度分数,但在检索任务上表现较差。 为了评估这些模型,研究人员使用了来自LMSys、开放式问答数据集和WikiQA的数据集。LMSys数据集用于在上下文中定位子字符串。WikiQA任务是根据维基百科文档中给出的信息回答问题的任务。 团队根据Google自然问题中的简短回答格式数据构建了一个QA任务。他们确保输出只是从原始文档中复制粘贴的短词回答。这样可以精确定位LLM应该查找的位置,通过将答案放置在不同位置有效地评估扩展上下文长度的每个部分。他们还创建了多个具有不同大小的相同维基百科文档的版本,这使他们能够在模型大小上进行公平评估。 基于维基百科的数据集的问题是模型从其预训练的文本中回答而不是从上下文中回答。研究人员通过创建一个由只有数字答案的问题组成的改编数据集来解决这个问题。他们改变了答案和文档中响应的每个出现,使得如果LLM从其预训练的文本中回忆起来,模型将错误地回答。他们将原始QA任务命名为自由格式QA(FFQA),将改编任务命名为改编数字QA(AltQA)。 AbacusAI的研究人员在两个版本的QA任务中对每个示例进行了存在准确性评估。存在准确性是衡量生成的解决方案中是否存在答案作为子字符串的准确性。他们观察到IFT的准确性提高并不能给模型能够实现的上下文长度范围带来任何扩展。 研究人员表明,通过缩放上下文进行IFT可以显著提高性能。他们观察到在缩放上下文因子插值的所有位置上,FFQA的性能提高了2倍,AltQA的性能提高了2.5倍。最后,他们的研究工作提出了一个更大上下文的语言模型,它通过更好地捕捉文档的主题更容易地提高困惑度。

Leave a Comment

“简单的数学可以为大型语言模型(LLMs)的强化学习和高效学习提供信息吗?这篇人工智能论文回答是肯定的!”

融入人类输入是近期大型语言模型(LLM)能力显著提升的关键组成部分,例如ChatGPT和GPT-4。为了有效使用人类反馈,首先必须训练一个融入人类偏好、价值观和伦理问题的奖励模型。然后,在奖励模型的指导下,使用强化学习调整LLM。这个过程被称为从人类反馈中进行强化学习(RLHF),可以成功地使LLM与人类目标协调,显著提升人际交流的质量。 创建一个功能性且基于人类偏好的奖励系统并不容易。当人类标注者无法为特定提示的响应或完成提供一个数字评分时,这变得非常具有挑战性。相反,对于人们来说,根据质量进行完成的两两比较要简单得多,并且这种方法被用于InstructGPT的创建。特别是,人类标注者在看到由LLM生成的许多完成的同一个提示后,将这些完成从最高到最低的感知质量进行排序。 然后,回复根据一个经过训练的神经网络来匹配人类偏好排名的奖励模型进行奖励。尽管有一些优点,比如消除校准问题,但排名并不能充分反映多个提示的各种奖励分布。这是因为当排名较高时,很难清楚地知道一个完成比另一个完成好多少。由于一些RLHF提示是开放式的,或者换句话说,依赖于用户的历史记录,因此奖励分布可能在较大范围内变化;因此,这个问题尤为重要。 相反,有些提示是封闭式的,产生应该获得高或低分的回复,导致奖励分布的近似两点质量分布。第一类提示的例子包括“证明勾股定理”和“鸡是恐龙吗”。第二类提示的例子包括“证明勾股定理”和“写一篇关于100年后人工智能的短篇小说”。只有考虑到各种线索的微妙之处,激励模型才能帮助LLM适当地衡量不确定性。 斯坦福大学、普林斯顿大学和宾夕法尼亚大学的研究人员记录了一个意外现象,显示在根据偏好排名训练奖励模型时,它可以提供独立于提示的相同奖励分布。这个事件发生在训练的最后阶段,被称为奖励崩溃。有趣的是,在这个事件被经验性地证明之前,他们的理论分析就已经预测到了。他们证明了可以使用一个简单的优化程序,甚至更简单的闭式表达式来数值推断奖励崩溃的奖励分布。他们对奖励崩溃的预测与经验结果非常吻合。 他们的第二个重要贡献是引入了一种有原则的策略,利用来自同一个优化程序的数据来防止奖励崩溃。奖励崩溃是不可取的,因为它忽略了不同提示之间微小的区别,并且在使用强化学习和奖励模型训练LLM时可能导致人类选择的错误校准。奖励模型的训练提前结束是解决这个问题的一个简单方法,但这是相当任意的,并且很难决定何时结束。 实质上,他们建议基于提示使用不同的效用函数来训练奖励模型,这样产生的奖励分布可以是广泛分散或紧密集中的,具体取决于提示是开放式还是封闭式。这种基于提示的技术具有明显的优势,可以进行全面的分析,根据需要完全定制奖励分布的结构。他们的研究结果表明,使用这种基于提示的技术可以显著减少奖励崩溃。

Leave a Comment

见面GPTCache:开发LLM查询语义缓存的库

ChatGPT和大型语言模型(LLMs)非常灵活,可以创建多种程序。然而,当应用程序受欢迎并且流量增加时,与LLM API调用相关的成本可能变得显著。在处理许多查询时,LLM服务可能还需要较长的等待时间。 为了直面这一困难,研究人员开发了GPTCache,这是一个旨在存储LLM答案的语义缓存项目。开源的GPTCache程序可以通过缓存其输出答案来加快LLMs的速度。当所请求的响应已经在缓存中存储并且之前已经请求过时,这将极大地减少获取它所需的时间。 GPTCache具有灵活和简单的特点,非常适合任何应用。它与许多语言学习机器(LLMs)兼容,例如OpenAI的ChatGPT。 它是如何工作的? 为了正常运行,GPTCache会缓存LLM的最终回复。缓存是用于快速检索最近使用的信息的内存缓冲区。每当向LLM发出新请求时,GPTCache首先查找缓存,以确定所请求的响应是否已经存储在其中。如果答案可以在缓存中找到,它将立即返回。如果缓存中没有找到,LLM将生成响应并将其添加到缓存中。 GPTCache的模块化架构使其易于实施定制的语义缓存解决方案。用户可以通过选择不同的设置来定制每个模块的体验。 LLM适配器通过将各种LLM模型使用的API和请求协议标准化为OpenAI API,统一了它们之间的接口。由于LLM适配器可以在不需要重写代码或熟悉新API的情况下在LLM模型之间移动,它简化了测试和实验。 嵌入生成器使用所请求的模型创建嵌入,以进行相似性搜索。支持的模型可以使用OpenAI的嵌入API。这是使用GPTCache/paraphrase-albert-onnx模型的ONNX,Hugging Face嵌入API,Cohere嵌入API,fastText嵌入API和SentenceTransformers嵌入API。 在缓存存储中,像ChatGPT这样的LLM的响应被保留,直到可以检索。在确定两个实体是否在语义上相似时,会获取缓存的回复并将其发送回请求方。GPTCache与许多不同的数据库管理系统兼容。用户可以选择最符合其性能、可扩展性和最常用数据库成本要求的数据库。 向量存储的选择:GPTCache包括一个向量存储模块,它使用从原始请求中导出的嵌入来识别K个最相似的请求。此功能可用于确定两个请求的相似程度。此外,GPTCache支持多个向量存储,例如Milvus、Zilliz Cloud和FAISS,并为与它们一起使用提供了简单的接口。用户可以选择各种向量存储选项,其中任何一个都可能影响GPTCache的相似性搜索性能。凭借对各种向量存储的支持,GPTCache承诺是可适应的,并满足更多种用例的需求。 GPTCache缓存管理器管理缓存存储和向量存储组件的驱逐策略。当缓存被填满时,替换策略决定哪些旧数据应该从缓存中删除,以为新数据腾出空间。 相似性评估器的信息来自于GPTCache的缓存存储和向量存储部分。它使用几种不同的方法将输入请求与向量存储中的请求进行比较。是否从缓存中提供请求取决于相似度的程度。GPTCache提供了统一的接口和可用实现的库,以确定缓存匹配。GPTCache通过各种相似度算法来确定缓存匹配的能力,使其能够适应大范围的用例和用户需求。 特点和优势 通过GPTCache减少LLM查询延迟,提高响应速度和速度。 由于许多LLM服务采用基于令牌和请求的定价结构,GPTCache可以减少服务成本,限制API调用次数。 GPTCache具有从LLM服务卸载工作的能力,提高可扩展性。随着您接收的请求数量增加,这可以帮助您保持高效运行。 借助GPTCache,可以将创建LLM应用程序的成本降至最低。通过缓存由LLM生成或模拟的数据,您可以在不向LLM服务发出API请求的情况下测试您的应用程序。 GPTCache可以与您选择的应用程序(LLM ChatGPT)、缓存存储(SQLite、PostgreSQL、MySQL、MariaDB、SQL Server或Oracle)和向量存储(FAISS、Milvus、Ziliz Cloud)配合使用。GPTCache项目的目标是在GPT-based应用程序中尽可能地重用先前生成的回复,而不是每次都从空白开始,从而实现对语言模型的最有效利用。

Leave a Comment

这篇人工智能论文提出了一种针对大规模视觉与语言导航(VLN)训练的有效范式,并对管道中的每个组成部分的影响进行了定量评估

已经收集了多个人类演示用于学习视觉导航,最近的大规模数据集包含数百个交互场景,这些都显著提高了智能体的性能。然而,要进行如此大规模的训练需要解决一些关键的子问题,例如如何构建导航图,恢复损坏的渲染图像和生成导航指令。所有这些都对收集的数据质量产生重大影响,因此应该进行深入探索。 研究如何有效利用大规模数据来适当地训练导航智能体非常必要,一个能够理解人类自然语言并在逼真环境中导航的智能体是一个复杂而模块化的系统。 为了训练大规模的视觉与语言导航网络(VLNs),澳大利亚国立大学、OpenGVLab、上海人工智能实验室、UNC教堂山分校、阿德莱德大学和Adobe研究团队提供了一种新的范式,通过统计评估管道中每个组件的影响。他们使用Habitat模拟器,从HM3D和Gibson数据集中使用环境,为环境构建导航图。他们采样新的轨迹,创建指令,并训练智能体解决下游导航问题。 与AutoVLN和MARVAL等先前方法不同,这些导航图通过过度视点采样和聚合过程构建,采用了引入的图形创建启发式方法。这种方法产生了具有广泛室外覆盖范围的全连接网络。 研究人员还训练了Co-Modulated GAN,从HM3D和Gibson环境中的损坏生成图像的破损、变形或缺失部分生成逼真图像,减少了视觉数据噪声的影响。与MARVAL相比,这种大规模训练方案是完全可复现且易于执行的,同时明显提高了智能体的性能。 广泛的实验证明,如果智能体要在特定指令的下游任务(如R2R)上表现更好,导航图必须是完全可遍历的。此外,研究结果还表明,从新场景中学习而不仅仅是增加数据量,智能体通常可以使用更多样化的视觉数据,并提高对新环境的泛化能力。 此外,团队验证了在基于LSTM的基本模型提供的增强指令上训练的智能体在各种导航任务上表现良好。他们得出结论,通过在预训练和微调过程中将增强数据与原始数据整合,可以提高智能体的泛化能力。 令人惊讶的是,通过将上述分析作为数据增强和智能体训练的指导方针,所提出的VLN模型可以通过简单的模仿学习在R2R测试集上实现80%的成功率,而无需预探索、波束搜索或模型集成,并消除了已知和未知环境之间的导航差距。这一结果相比先前最佳方法(73%)有了巨大的改进,将性能差距缩小到了6个百分点以内,接近人类水平。对于诸如CVDN和REVERIE等几个语言引导的视觉导航挑战,该方法推动了最新技术的发展。即使增强数据是离散的,该方法在连续环境(R2R-CE)中将VLN性能提高了5%的成功率,这是一个更为现实但具有挑战性的场景。

Leave a Comment

“遇见LP-MusicCaps:一种利用大型语言模型进行标签到伪字幕生成的方法,以解决自动音乐字幕生成中的数据稀缺问题”

音乐标题生成涉及通过生成给定音乐曲目的自然语言描述来进行音乐信息检索。生成的标题是句子的文本描述,区别于其他音乐语义理解任务,如音乐标记。这些模型通常使用编码器-解码器框架。 关于音乐标题生成的研究有了显著增长。然而,尽管其重要性,研究这些技术的研究人员面临着数据集收集的昂贵和繁琐任务的障碍。此外,可用的音乐-语言数据集数量有限,这也带来了挑战。由于数据集的稀缺性,成功训练音乐标题生成模型并不容易。大型语言模型(LLMs)可能是音乐标题生成的潜在解决方案。LLMs是具有超过十亿个参数的前沿模型,能够在少量或零个示例的情况下处理任务并展现出令人印象深刻的能力。这些模型通过从维基百科、GitHub、聊天记录、医学文章、法律文章、书籍和从互联网爬取的网页等各种来源的大量文本数据进行训练。广泛的训练使它们能够理解和解释各种上下文和领域中的单词。 随后,韩国的一支研究团队开发了一种称为LP-MusicCaps(基于大型语言的伪音乐标题数据集)的方法,通过将LLMs谨慎应用于标记数据集来创建一个音乐标题数据集。他们对大规模音乐标题数据集进行了系统评估,使用了自然语言处理领域中的各种定量评估指标以及人工评估。结果生成了大约220万个与50万个音频剪辑配对的标题。首先,他们提出了一种基于LLM的方法来生成音乐标题数据集LP-MusicCaps。其次,他们提出了一种用于对LLMs生成的音乐标题进行系统评估的方案。第三,他们证明了在LP-MusicCaps上训练的模型在零样本和迁移学习场景中表现良好,证明了使用基于LLM的伪音乐标题的合理性。 研究人员首先从现有的音乐标记数据集中收集多标签标签。这些标签涵盖了音乐的各个方面,如流派、情绪、乐器等。他们仔细构建了任务说明,为音乐曲目生成描述性句子,这些句子作为大型语言模型的输入(提示)。由于其在各种任务中表现出色,他们选择了强大的GPT-3.5 Turbo语言模型来执行音乐标题生成。GPT-3.5 Turbo的训练过程包括一个具有大量数据的初始阶段,并且受益于巨大的计算能力。随后,他们使用增强学习和人类反馈进行微调。这个微调过程旨在提高模型与指令有效交互的能力。 研究人员将基于LLM的标题生成器与基于模板的方法(标签连接、提示模板)和K2C增强进行了比较。在K2C增强的情况下,当指令缺失时,输入标签会被省略在生成的标题中,导致生成的句子可能与歌曲描述无关。另一方面,基于模板的模型表现出更好的性能,因为它从模板中存在的音乐上下文中受益。 他们使用BERT-Score指标评估生成的标题的多样性。这个框架显示出更高的BERT-Score值,生成具有更多样化词汇的标题。这意味着该方法生成的标题提供了更广泛的语言表达和变化,使其更具吸引力和丰富上下文。 随着研究人员不断完善和提升他们的方法,他们也期待利用语言模型的力量来推动音乐标题生成并为音乐信息检索做出贡献。

Leave a Comment

认识LoraHub:一种战略性的人工智能框架,用于组合在不同任务上训练的LoRA(低秩适应)模块,以实现在新任务上的可适应性能

大规模预训练语言模型(LLM)如OpenAI GPT、Flan-T5和LLaMA极大地推动了自然语言处理(NLP)的快速发展。这些模型在各种NLP应用中表现出色。然而,在微调过程中,由于它们庞大的参数规模,计算效率和内存利用存在问题。 近年来,低秩适应(LoRA)的崛起成为一种有效的调优工具。它通过减少所需的内存和计算量来加快LLM的训练。LoRA通过固定主模型的参数(一个LLM)并学习一个小型的补充模块来实现这一目标,该模块可靠地在指定的任务上表现良好。 LoRA所带来的效率提升一直是以前的研究重点,但LoRA模块的模块化和可组合性却受到了极少关注。必须研究LoRA模块是否可以高效地推广到未知问题。 来自Sea AI Lab、华盛顿大学和Allen Institute for AI的研究人员决定利用LoRA的模块化能力,使其能够灵活应对新的挑战,而不仅仅局限于特定任务的训练。他们的方法的关键优势在于,它允许LoRA模块在没有人为干预或专门知识的情况下自动组装。 该方法可以通过使用以前未识别任务的几个样本自动安排合适的LoRA模块。因为研究人员不假设哪些训练在哪些任务上的LoRA模块可以集成,满足要求的所有模块(例如通过利用相同的LLM)都可以进行合并。他们将这种学习技术称为LoraHub学习,因为它使用了已有的几个不同的LoRA模块。 为了确保其有效性,团队使用行业标准的BBH基准和Flan-T5作为底层LLM来评估他们的方法。结果表明,几次少样本的LoraHub学习过程可以为新任务组合LoRA模块,效果接近少样本、上下文学习。与上下文学习相比,消除了LLM的实例输入需求,从而显著降低了推理成本。该学习技术采用无梯度的方法生成LoRA模块的系数,只需要少量的推理步骤。以单个A100为例,在不到一分钟内,该方法可以在BBH上达到顶级性能。 在LoraHub上的学习仅需要了解如何处理LLM推理。因此,它可以在仅有CPU的计算机上完成。这项工作的灵活性和高性能为创建一个平台铺平了道路,在这个领域里,训练过的LoRA模块可以轻松共享、访问和应用于新的任务。团队希望这样的系统能够允许开发一个具有广泛功能的可重用LoRA模块库。该团队正在努力动态组合LoRA节点,以提高LLM的能力,使其适用于所有人。

Leave a Comment

CMU研究人员提出了一种简单而有效的攻击方法,可以使对齐的语言模型以很高的成功率生成令人反感的行为

大型语言模型(LLMs)是深度学习模型在人类语言上的最新进展。这些深度学习训练模型以人类类似的方式理解和生成文本。这些模型是在从互联网、书籍、文章、网站和其他信息来源中抓取的大量数据集上进行训练的。它们可以翻译语言、总结文本、回答问题,并执行各种自然语言处理任务。 最近,人们对它们生成不受欢迎内容的能力及其带来的后果越来越关注。因此,在这个领域进行了重要的研究。 随后,来自卡内基梅隆大学计算机科学学院(SCS)、CyLab安全与隐私研究所以及旧金山人工智能安全中心的研究人员研究了语言模型中生成不受欢迎行为的方法。在他们的研究中,他们提出了一种新的攻击方法,涉及在各种查询后面添加后缀,从而极大地增加了开源和闭源语言模型(LLMs)生成对它们通常会拒绝的问题的肯定回答的可能性。 在他们的调查中,研究人员成功地将攻击后缀应用于各种语言模型,包括ChatGPT、Bard和Claude等公共接口,以及LLMa-2-Chat、Pythia、Falcon等开源LLMs。因此,攻击后缀有效地在这些语言模型的输出中引发了不受欢迎的内容。 这种方法在Vicuna上的100个实例中成功生成了有害行为中的99个。此外,在Vicuna的输出中,它们与目标有害字符串有88个完全匹配。研究人员还测试了他们的攻击方法对其他语言模型的影响,如GPT-3.5和GPT-4,成功率高达84%。对于PaLM-2,成功率为66%。 研究人员表示,目前,通过引导聊天机器人生成不受欢迎或有害内容可能不会对人们造成特别严重的直接伤害。关注点在于这些模型在没有人员监督的自主系统中将扮演更重要的角色。他们进一步强调,在自主系统变得更加现实时,确保我们有可靠的方法来阻止它们被此类攻击劫持将非常重要。 研究人员表示,他们并没有打算攻击专有的大型语言模型和聊天机器人。但是他们的研究表明,即使我们拥有大量参数的闭源模型,人们仍然可以通过查看免费提供的、更小且更简单的开源模型,并学习如何攻击它们来攻击它。 在他们的研究中,研究人员通过在多个提示和模型上训练攻击后缀,扩展了他们的攻击方法。结果,他们在包括Google Bard和Claud在内的各种公共接口中引发了不受欢迎的内容。攻击还影响了像Llama 2 Chat、Pythia、Falcon等开源语言模型,展示了不受欢迎的行为。 这项研究表明他们的攻击方法具有广泛的适用性,可以影响各种语言模型,包括那些具有公共接口和开源实现的模型。他们进一步强调,目前我们没有一种方法来阻止这种对抗性攻击,因此下一步是找出如何修复这些模型。 查看论文和博客文章。此研究的所有荣誉归功于该项目上的研究人员。此外,别忘了加入我们的27k+ ML SubReddit,40k+ Facebook社群,Discord频道和电子邮件通讯,我们在其中分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 本文摘自MarkTechPost,CMU研究人员提出了一种简单而有效的攻击方法,使对齐的语言模型以高成功率生成不受欢迎的行为。

Leave a Comment

LLM优于强化学习-遇见SPRING:一种创新的LLM提示框架,旨在实现上下文连贯思考规划和推理能力

SPRING是一种基于LLM的策略,在需要多任务规划和推理的交互环境中胜过强化学习算法。 卡内基梅隆大学、NVIDIA、亚里尔大学和微软的一组研究人员调查了使用大型语言模型(LLM)在游戏的背景下理解和推理人类知识的可能性。他们提出了一种名为SPRING的两阶段方法,其中涉及研究学术论文,然后使用问答(QA)框架来证明所获得的知识。 关于SPRING的更多细节 在第一阶段,作者阅读了Hafner(2021)的原始论文的LaTeX源代码,提取先验知识。他们使用LLM提取相关信息,包括论文中记录的游戏机制和期望的行为。然后,他们使用类似于Wu等人(2023)的QA摘要框架生成基于提取的知识的QA对话,使SPRING能够处理多样的上下文信息。 第二阶段专注于使用LLM进行上下文推理,以解决复杂的游戏。他们构建了一个有向无环图(DAG)作为推理模块,其中问题是节点,问题之间的依赖关系表示为边。例如,问题“对于每个动作,需求是否满足?”与问题“前五个动作是什么?”在DAG中有链接,从后者到前者建立了依赖关系。 通过按拓扑顺序遍历DAG,计算每个节点/问题的LLM答案。DAG中的最后一个节点表示关于采取的最佳行动的问题,LLM的答案直接转化为环境行动。 实验和结果 “Crafter Environment”是Hafner(2021)介绍的一个拥有22个成就的开放世界生存游戏,按照深度为7的技术树进行组织。游戏被表示为一个网格世界,具有自上而下的观察和由17个选项组成的离散动作空间。观察还提供有关玩家当前库存状态的信息,包括生命值、食物、水、休息水平和库存物品。 作者将SPRING与Crafter基准测试中的流行RL方法进行了比较。随后,对体系结构的不同组成部分进行了实验和分析,以考察每个部分对LLM的上下文“推理”能力的影响。 来源:https://arxiv.org/pdf/2305.15486.pdf 作者将各种RL基准与SPRING和基于Hafner(2021)环境论文的GPT-4的性能进行了比较。SPRING在游戏得分方面超过了以前的最先进(SOTA)方法,相对提高了88%,在奖励方面相对最佳RL方法(Hafner等人,2023)提高了5%。 值得注意的是,SPRING利用了阅读论文的先验知识,并且不需要任何训练步骤,而RL方法通常需要数百万次的训练步骤。 来源:https://arxiv.org/pdf/2305.15486.pdf 上图显示了不同任务的完成率的图表,将SPRING与流行的RL基准进行了比较。在技术树较深(深度达到5)且通过随机探索难以达到的成就(如“制作石镐”、“制作石剑”和“收集铁”)方面,SPRING借助先验知识的力量,表现超过RL方法十倍以上。 此外,SPRING在成就“吃牛肉”和“收集饮料”方面表现完美。与此同时,基于模型的RL框架(如Dreamer-V3)在“吃牛肉”方面的解锁率显著较低(低了五倍),这是因为通过随机探索达到移动牛的挑战。值得注意的是,尽管通过随机探索很容易实现,但SPRING不采取“放置石头”这个行动,因为在Hafner(2021)的论文中并未讨论该行动对代理有益。 限制 使用LLM与环境进行交互的一个限制是需要进行物体识别和定位。然而,在提供准确物体信息的环境中,如当代游戏和虚拟现实世界,这个限制是不存在的。虽然预训练的视觉骨干在游戏中表现困难,但在类似真实世界的环境中表现得相当不错。视觉语言模型的最新进展表明了未来在视觉语言理解方面的可靠解决方案的潜力。 结论 总之,SPRING框架展示了语言模型(LLMs)在游戏理解和推理方面的潜力。通过利用学术论文中的先前知识和采用上下文思维链的推理,SPRING在Crafter基准测试中超越了先前的最先进方法,在游戏得分和奖励方面取得了显著的改进。这些结果突显了LLMs在复杂游戏任务中的强大能力,并暗示了未来视觉语言模型的进一步发展可以解决现有的限制,为可靠且具有普适性的解决方案铺平道路。

Leave a Comment

DeepMind人工智能通过为数百万个视频自动生成描述,为YouTube Shorts的曝光量提供了强大支持

DeepMind与YouTube合作推出了一款先进的AI模型Flamingo,旨在增强YouTube Shorts视频的可搜索性。这些短视频剪辑类似于流行的TikTok平台,通常需要更多的描述性文本和有意义的标题,以便用户更容易找到特定内容。然而,引入Flamingo后,用户现在可以更轻松地发现这些视频。 Flamingo利用其先进的视觉语言模型,通过分析YouTube Shorts视频的初始帧生成解释性文本。例如,它可以将场景描述为“一只猫在玩毛线球”。这个生成的文本被存储为元数据,实现了更高效的视频分类和搜索引擎可访问性。 Flamingo的影响已经显现,数十万个新上传的Shorts视频受益于AI生成的描述。YouTube计划逐步将这项技术应用于所有的Shorts视频,使全球观众更容易找到它们。 Flamingo代表了DeepMind和YouTube之间的最新合作,进一步巩固了DeepMind和Google Brain合并为一个统一的AI业务团队的决策,这一决策是由Google在今年四月宣布的。他们之前的合作项目包括利用DeepMind的AI模型MuZero来增强YouTube的VP9编解码器,以实现压缩传输。此外,DeepMind和YouTube在2018年合作,教育视频创作者如何通过与YouTube政策保持一致来最大化收入。这个合作伙伴关系导致了一个标签质量模型(LQM)的开发,确保更准确的内容标签以提高广告精度,并在平台上建立观众、创作者和广告商之间的信任。 继续他们富有成果的合作,DeepMind和YouTube致力于通过引入视频章节来提升用户体验。这一发展带来了一个能够自主处理视频和音频内容转录的AI系统,为章节分割和标题提供建议。这一革命性的功能被称为AutoChapters,并在2022年的Google I/O大会上由CEO Sundar Pichai公布。有了AutoChapters,用户再也不需要费力地搜索冗长的视频,因为AI系统能够迅速识别关键部分。这个功能已经应用于800万个视频,并且DeepMind计划在未来一年将其推广到8000万个视频。 关于Flamingo,YouTube Shorts制作团队明确表示,AI模型生成的元数据对创作者不可见。主要目标是显著提高搜索准确性。此外,谷歌确保Flamingo生成的文本符合其严格的责任标准,避免对视频内容进行负面描述。 随着Flamingo开始革新YouTube Shorts视频的可搜索性,其AI标签能力的准确性将受到密切关注。在这个先进AI技术的时代,Flamingo证明了DeepMind和YouTube之间的合作。通过他们的共同努力,他们不断重新定义AI创新的边界,为创作者和观众创造了更具吸引力和可访问性的环境。

Leave a Comment