Press "Enter" to skip to content

Tag: Large Language Model

遇见Open Interpreter:OpenAI代码解释器的开源本地运行实现

在不断发展的编程和软件开发领域,对高效、灵活和易用工具的需求从未如此之高。开发人员寻求能够在本地开发环境中无缝工作的解决方案,不受托管服务所限制。本文探讨了一种突破性的解决方案——Open Interpreter。 虽然OpenAI的Code Interpreter with GPT-4是一个改变游戏规则的工具,但它也有特定的限制。OpenAI的解决方案是托管的,它在受控的远程环境中运行,限制了开发人员对本地设置的控制。这其中有一些明显的限制,包括无法访问互联网、预装的软件包数量有限、最大上传大小为100MB,以及120秒的运行时间限制。当环境结束时,生成的文件或链接将会丢失,这对于较长时间的任务可能会不方便。 Open Interpreter使开发人员能够充分发挥计算机的潜力,同时绕过与托管服务相关的限制。 Open Interpreter为开发人员提供了广泛的功能,包括内容创建;它可以轻松创建和编辑各种格式的内容,如照片、视频、PDF等。开发人员可以控制Chrome浏览器,实现高效的研究和自动化。Open Interpreter可以无缝处理与数据相关的任务,允许用户绘制、清洗和分析大型数据集,以便做出明智的决策。 Open Interpreter提供了交互式和编程式聊天功能。用户可以在终端中运行’interpreter’来启动交互式会话,与Open Interpreter进行对话。对于更精确的控制,开发人员可以高效地编写脚本任务和工作流程,直接传递消息给Interpreter。Open Interpreter通过允许用户检查和配置系统消息来提供灵活性。这种定制化扩展其功能,修改权限或添加上下文,以符合个人偏好和项目要求。 Open Interpreter代表了本地开发环境领域的重大飞跃。它的卓越能力赋予开发人员高效、灵活地工作,摆脱了托管服务的限制。有了Open Interpreter作为您可信赖的伙伴,拥抱软件开发的未来,在本地开发之旅中开启新的视野。

Leave a Comment

认识SMPLitex:一种用于从单张图像估计3D人体纹理的生成AI模型和数据集

在不断发展的计算机视觉和图形领域中,一个重要的挑战是从2D图像中创建逼真的3D人体表示。这不仅仅是技术上的障碍,也是从沉浸式虚拟环境到高级视频编辑等众多应用的入口。为了应对这一挑战,研究团队提出了一种突破性的解决方案,称为“SMPLitex”。该研究深入探讨了问题本身、提出的方法论、其复杂性以及SMPLitex的出色性能。 从单个图像中创建3D人体表示是计算机图形和计算机视觉中的一个长期愿景。虽然我们在捕捉3D形状方面取得了重大进展,但赋予物体逼真外观的纹理仍然是一个艰巨的领域。想象一下,只需拍摄一个人的单张照片,就能够重新创建他们的3D形状和详细的皮肤纹理、服装甚至配饰。这正是SMPLitex研究团队要解决的挑战。 在深入研究SMPLitex之前,了解现有方法及其局限性是至关重要的。传统方法通常依赖于耗时的手动纹理映射或3D扫描等工艺,这对于现实世界的应用来说可能更具可扩展性。这些方法在处理被遮挡或不完整的被拍摄对象时也会遇到困难,限制了它们的实用性。 研究团队通过引入SMPLitex,一种从单个图像中估计和操作完整3D人体外观的革命性方法,迈出了大胆的一步。SMPLitex的独特之处在于将最初设计用于2D图像的生成模型集成到3D领域中。关键创新在于根据输入图像建立像素到表面的对应关系,然后用于重建3D纹理。 该方法的核心是一种专门设计用于完整3D人体外观的生成模型。该模型经过广泛训练,学习了人体纹理在3D空间中的表现方式。但真正的魔力发生在该模型基于输入图像中可见部分的条件下。 通过计算出令人瞩目的精确的像素到表面的对应关系,将2D图像映射到其3D对应物。通过利用这种对应关系,SMPLitex可以生成一个完整的3D纹理映射,忠实地呈现被拍摄对象的外观。生成模型对图像中可见部分的适应性确保了即使在处理部分遮挡的对象时,SMPLitex也能产生逼真的3D纹理。 SMPLitex不仅承诺实现范式转变,而且实现了。研究团队在三个公开可用的数据集上进行了严格的定量和定性评估。结果令人惊叹,SMPLitex在人体纹理估计方面显著优于现有方法,展示了其强大的能力。 SMPLitex的一个突出特点是其多功能性。它在准确的纹理估计方面表现出色,并为更广泛的任务打开了大门。从编辑和合成到操作,SMPLitex可以无缝地将3D纹理集成到各种应用中,丰富了计算机图形和计算机视觉领域。 总之,SMPLitex代表了从单个图像中提取逼真的3D人体纹理的巨大进步。通过弥合2D图像和逼真3D重建之间的差距,该方法具有巨大的潜力。其潜在应用涵盖了娱乐、游戏、医疗保健和时尚等各个领域。SMPLitex展示了未来捕捉3D人体外观就像拍照一样简单的前景,研究团队的创新为更具沉浸感的体验、增强内容创作以及新的计算机视觉和图形领域铺平了道路。 随着技术的进步,我们只能期待像SMPLitex这样的方法所能带来的令人难以置信的可能性。将生成模型和精确的像素到表面对应相结合,可以彻底改变行业,并重新定义我们与人体形态的数字表示的互动。由于SMPLitex及其有远见的研究团队,从2D到3D的旅程迈出了重要的一步。

Leave a Comment

让ChatGPT成为更好的软件开发人员:SoTaNa是一个面向软件开发的开源AI助手

我们做事的方式在最近几年发生了快速变化。我们已经开始使用虚拟助手来完成我们大部分的任务,并发现自己处于一种需要将任务委派给AI代理的位置。 有一把钥匙可以解锁推动所有这些进步的力量:软件。在一个日益技术驱动的世界中,软件开发是创新的关键,涵盖了从医疗保健到娱乐等各个领域。然而,软件开发的过程往往充满了复杂性和挑战,要求开发人员快速解决问题和创造性思考。 这就是为什么AI应用程序在软件开发领域迅速找到了自己的位置。它们简化了这个过程,为开发人员提供了及时的编码查询答案,并在他们的努力中支持他们。我的意思是,你可能也在使用它。你上次去StackOverflow而不是ChatGPT是什么时候?或者当你安装了GitHub协作者时,你按Tab键的次数有多少? ChatGPT和Copilot都不错,但它们在软件开发中仍然需要有良好的指导才能发挥更好的作用。今天,我们见到了一个新的参与者;SoTaNa。 SoTaNa是一个利用LLM的能力来提高软件开发效率的软件开发助手。像ChatGPT和GPT4这样的LLM已经展示了它们在理解人类意图和生成类似人类的回应方面的能力。它们在包括文本摘要和代码生成在内的各个领域都变得有价值。然而,由于某些限制,它们的可用性受到了限制,而SoTaNa旨在解决这些限制。 SoTaNa作为一个开源软件开发助手,致力于弥合开发者和LLM的巨大潜力之间的鸿沟。这个倡议的主要目标是使基础LLM能够在有限的计算资源下理解开发者的意图。这项研究采用了多步骤的方法来实现这一目标,利用ChatGPT来生成面向软件工程任务的高质量基于指令的数据。 SoTaNa概述。来源:https://arxiv.org/pdf/2308.13416.pdf 该过程通过引导ChatGPT进行具体提示,详细说明生成新实例的要求来开始。为了确保准确性和与期望输出的对齐,手动注释的软件工程相关实例的种子池作为参考。这个池子涵盖了各种软件工程任务,为生成新数据奠定了基础。通过巧妙的采样技术,这种方法有效地使演示实例多样化,并确保创建满足规定要求的高质量数据。 为了更好地提高模型对人类意图的理解,SoTaNa采用了Lora,一种参数高效的微调方法,使用有限的计算资源来增强开源基础模型,特别是LLaMA。这个微调过程使模型在软件工程领域内更好地理解人类意图。 生成数据使用的提示。来源:https://arxiv.org/pdf/2308.13416.pdf SoTaNa的能力是使用Stack Overflow问题回答数据集进行评估的,包括人工评估在内的结果强调了该模型在协助开发人员方面的有效性。 SoTaNa向世界介绍了一个基于LLMs构建的开源软件开发助手,能够理解开发人员的意图并生成相关的响应。此外,它通过发布模型权重和专为软件工程而设计的高质量基于指令的数据集,对社区做出了重要贡献。这些资源有望加速未来在该领域的研究和创新。

Leave a Comment

来自Inception、MBZUAI和Cerebras的研究人员开源了“Jais”:全球最先进的阿拉伯大型语言模型

大型语言模型如GPT-3及其对社会各个方面的影响是一个备受关注和争议的话题。大型语言模型显著推动了自然语言处理领域的发展。它们提高了各种与语言相关的任务的准确性,包括翻译、情感分析、摘要和问答。由大型语言模型驱动的聊天机器人和虚拟助手变得越来越复杂,能够处理复杂的对话。它们被用于客户支持、在线聊天服务,甚至成为某些用户的伴侣。 构建阿拉伯语大型语言模型(LLM)面临着由于阿拉伯语言的特性和其方言的多样性而产生的独特挑战。与其他语言的大型语言模型类似,阿拉伯语LLMs可能会继承训练数据中的偏见。解决这些偏见并确保在阿拉伯语境中负责任地使用人工智能是一个持续关注的问题。 Inception、Cerebras和阿布扎比人工智能大学(UAE)的研究人员推出了一种新的基于阿拉伯语的大型语言模型Jais和Jais-chat。他们的模型基于GPT-3生成式预训练架构,仅使用了130亿个参数。 他们面临的主要挑战是获取用于训练该模型的高质量阿拉伯语数据。与拥有高达2万亿个标记的英文数据相比,阿拉伯语语料库要小得多。语料库是用于语言学、自然语言处理(NLP)和文本分析的大型结构化文本集合,用于研究和语言模型训练。语料库是研究语言模式、语义、语法等方面的宝贵资源。 为了解决这个问题,他们训练了双语模型,通过增加有限的阿拉伯语预训练数据与丰富的英文预训练数据相结合。他们对Jais进行了预训练,包括72亿个阿拉伯语标记和2320亿个英文标记。他们开发了一种专门的阿拉伯文本处理流程,包括彻底的数据过滤和清理,以生成高质量的阿拉伯语数据。 他们表示,他们的模型的预训练和微调能力超越了所有已知的开源阿拉伯模型,并且与在更大数据集上训练的最先进的开源英文模型相当。考虑到大型语言模型的固有安全问题,他们通过安全导向的指令进一步微调了模型。他们通过安全提示、基于关键词的过滤和外部分类器添加了额外的安全防护。 他们表示,Jais代表了中东自然语言处理和人工智能领域的重要发展和扩展。它推进了阿拉伯语的理解和生成,为当地参与者提供了主权和私有部署选择,并培育了一个应用和创新的活跃生态系统;这项工作支持了数字和人工智能转型的更广泛战略计划,以迎接一个更开放、更具语言包容性和文化意识的时代。

Leave a Comment

理解大型语言模型的黑暗面:安全威胁和漏洞的综合指南

近年来,LLM在自然语言处理(NLP)领域越来越受欢迎。基于神经网络的机器学习模型的扩展使得最近取得了一些进展,产生的自然语言几乎和人类产生的语言难以区分。 LLM可以提高人类的生产力,从代码生成到辅助写邮件和共同撰写大学作业,都有很好的效果,并在法律、数学、心理学和医学等领域展现出了惊人的成果。尽管取得了这些进展,学术界对其文本生成技能的有害使用问题提出了许多问题。 因此,蒂尔堡大学和伦敦大学学院的研究人员对LLM的安全研究现状进行了调查,并根据危险、预防措施和安全漏洞对现有技术进行了分类。LLM复杂的生成能力使其成为制造网络钓鱼邮件、恶意软件和虚假信息等威胁的天然滋生地。 包括内容过滤、从人类反馈中强化学习和红队测试在内的现有努力都旨在减少这些能力带来的风险。然而,由于不足的防范措施和遮掩技术(如越狱和即时注入),漏洞会出现,之前被禁用的威胁重新出现。研究人员澄清了关键术语,并针对每个广泛领域提供了学术和现实示例的全面参考文献。 该论文解释了为何任何不能完全消除LLM不良行为的技术都会使模型容易受到快速对抗的攻击。研究也提出了类似的观点,认为大型人工智能模型(LAIMs),包括语言领域以及超越语言的基础模型,由于其训练数据所具有的三个特征,本质上是不安全和脆弱的。他们还指出,如果我们要增加模型的安全性,那么与基准模型相比,准确性将显著下降。这种论点进一步质疑了LLM的安全和可靠程度。鉴于LLM的实用性和安全性之间的紧张关系,LLM的提供者和用户都应该仔细考虑这种权衡。

Leave a Comment

来自弗吉尼亚理工大学和微软的研究人员介绍了思维算法:一种增强大型语言模型(LLMs)中思想探索和推理能力的人工智能方法

大型语言模型(LLMs)最近取得了进展,这引起了人们对它们在各种问题解决活动中的有用性的关注。这些模型在各种问题解决的背景下都证明了它们的能力,包括代码生成、指令跟随和一般问题解决。当代研究已经转向更复杂的方法,包括线性推理路径,与使用直接答案策略的第一批模型相比。在更近期的方法中,复杂的问题被划分为较小的任务,以便于系统性的解决方案搜索。此外,外部过程正在被整合进来,通过修改上下文来改变令牌的生成。 当前的研究主要使用了一个外部的操作机制,它会停止、修改,然后再恢复生成过程,以试图超越当前的思维链方法。这样做是为了提高LLMs的推理能力,但它带来的缺点是它会生成更多的查询请求,因此会有更多的开销、更高的内存需求和更多的计算开销。 为了克服这些挑战,弗吉尼亚理工学院微软的研究团队引入了一种独特的方法,称为思维算法(Algorithm of Thoughts)。通过这种策略,LLMs沿着算法推理的路径前进,有效地创造了一种在上下文中学习的新方法。利用算法示例,LLMs中固有的循环动力学被用来扩展概念的探索,而只需要很少的查询。 AoT的主要目标是通过算法的例子来教导LLMs,这些例子完美地体现了探索的精神。该技术减少了所需的查询数量,同时扩展了LLMs对概念的研究。AoT击败了旧的单查询技术,并与使用复杂树搜索算法的当代多查询策略相媲美。 这种方法可以超越只使用一个查询的旧技术,这使得这种方法独特。此外,这种方法的性能与最近使用复杂树搜索算法的多查询方法相当。结果表明,当LLMs使用这种方法进行训练时,它有可能胜过算法。这一发现表明,LLMs有将直觉融入增强搜索过程的内在能力。 总而言之,AoT的用例非常广泛。AoT能够彻底改变LLMs处理推理问题的方式,从一般问题解决到复杂的编程困难。算法路径的引入使LLMs能够考虑各种解决方案,模拟回溯技术,并评估各种子问题的潜力。AoT通过弥合LLMs和算法思维之间的差距,为上下文学习提供了一种新的范式。

Leave a Comment

遇见DevOpsGPT:一种将LLM与DevOps工具结合起来,将自然语言需求转化为可工作软件的多智能体系统

DevOpsGPT将大型语言模型(LLM)和DevOps工具结合起来,为软件开发提供了一个以人工智能驱动的自动化解决方案。DevOpsGPT可以将自然语言表达的需求转化为功能软件,从而提高效率,减少周期时间和降低沟通成本。 DevOpsGPT的工作原理 DevOpsGPT开始处理自然语言描述的用户需求。可以通过文本、语音和代码等多种方式输入这些规格。DevOpsGPT利用其LLM,在消费了这些规格后生成符合规格的代码。然后使用DevOps技术检查所创建的代码是否有错误,并确保满足用户的需求。有关详细信息,请访问GitHub页面。 主要特点 DevOpsGPT不仅提供以下优点,还提供以下优势和功能: DevOpsGPT支持多种编程语言,可以创建Python、Java、C++等代码。 DevOpsGPT具有适应性,可以根据任何企业的独特需求进行定制。 DevOpsGPT的可扩展性意味着它可以用于自动化大型公司的软件开发。 DevOps-GPT的好处 DevOpsGPT能够自动化多个软件开发过程,包括需求收集、文档编制和代码生成,从而提高生产力。这可以极大地提高开发生产力,并为开发人员提供更具创造性和战略性的工作机会。 通过自动化许多通常会减慢开发进程的流程,DevOpsGPT可以帮助缩短开发周期。因此,新的软件功能和产品可以更快地面向消费者。 DevOpsGPT能够将自然语言需求转化为代码的自动化过程,减少沟通成本。因此,在开发过程中更容易避免混淆和误解。 DevOpsGPT的自动代码检查功能有助于整个软件交付过程的质量。这有助于在开发的早期阶段发现和修复缺陷,从而得到更高质量的软件,并降低在生产环境中出现故障的风险。 限制 虽然DevOpsGPT提供了许多优势,但也有一些缺点。 DevOpsGPT仍在不断发展中,因此其正确性会随着需求的变化而改变。 DevOpsGPT可能不像人类开发人员那样具有创造力,因此可能需要帮助解决新问题。 DevOpsGPT应谨慎使用,因为它可能被滥用用于创建恶意代码。 DevOpsGPT是一种前沿的新解决方案,可以帮助企业提高开发生产力,缩短迭代时间,并减少沟通成本。通过自动化重复的操作,DevOpsGPT使程序员能够更多地投入战略性和创造性的工作中。这可以提高软件交付质量,并缩短推出新功能和产品的时间。

Leave a Comment

威斯康星大学麦迪逊分校的研究人员提出了Eventful Transformers:一种成本效益高、准确度损失最小的视频识别方法

最初用于语言建模的Transformer最近被研究人员作为一种可能的视觉相关任务架构来进行研究。视觉Transformer在目标识别、图片分类和视频分类等应用中具有最先进的性能,在各种视觉识别问题上表现出色。视觉Transformer的高计算成本是其主要缺点之一。与标准卷积网络(CNN)相比,视觉Transformer有时需要更高的计算量,每张图片高达数百GFlops。视频处理中涉及的大量数据进一步增加了这些开销。这种有趣的技术的潜力受到了高计算需求的限制,这些需求阻止了视觉Transformer在资源有限或需要低延迟的设备上的使用。 这项工作由威斯康星大学麦迪逊分校的研究人员提出,旨在利用连续输入之间的时间冗余来降低视觉Transformer在处理视频数据时的成本。想象一下将视觉Transformer逐帧或逐段应用于视频序列。这个Transformer可能是一个简单的逐帧模型(如目标检测器)或者是一个时空模型中的过渡阶段(如初始分解模型)。与语言处理不同,他们将Transformer视为应用于时间上的几个不同输入(帧或片段),而不是代表整个序列的一个Transformer输入。自然电影具有很高的时间冗余度和帧间变化很小的特点。然而,尽管如此,深度网络(如Transformer)在每一帧上都经常被“从头开始”计算。 这种方法是低效的,因为它丢弃了先前结论中任何可能有用的数据。他们的主要观点是,他们可以通过重复使用先前时间步骤的中间计算来更好地利用冗余序列。智能推理。视觉Transformer(和深度网络一般)的推理成本通常由设计确定。然而,现实世界应用中可用的资源可能随着时间的推移而发生变化(例如,由于竞争进程或电源供应的变化)。因此,需要能够实时修改计算成本的模型。适应性是这项研究的主要设计目标之一,该方法旨在提供对计算成本的实时控制。有关他们如何在电影中更改计算预算的示例,请参见图1(下部分)。 图1:该策略利用了连续模型输入之间的时间重叠。 (上)他们仅检测和更新在每个Transformer块中随时间发生重大变化的令牌。 (下)他们的解决方案在提高效率的同时提供了对运行时计算成本的精细控制。 以前的研究已经研究了CNN的时间冗余和适应性。然而,由于Transformer和CNN之间存在重大的架构差异,这些方法通常与Transformer的视觉不兼容。尤其是,Transformer引入了一种新的原语——自注意力,这与多个基于CNN的方法有所不同。尽管存在这些障碍,视觉Transformer提供了巨大的可能性。将CNN的稀疏性增益(特别是通过考虑时间冗余所获得的稀疏性)转化为明显的加速是具有挑战性的。要做到这一点,必须对稀疏结构设置大约束条件,或者使用特殊的计算核心。相比之下,由于Transformer操作的本质是围绕令牌向量的操作,因此将稀疏性转化为更短的运行时间使用传统操作符更简单。具有事件的Transformer。 为了促进有效的自适应推理,他们提出了一种称为Eventful Transformers的新型Transformer,该Transformer利用输入之间的时间冗余。 “Eventful”一词是为了描述被称为事件相机的传感器,它们在响应场景变化时创建稀疏输出。Eventful Transformers选择性地在每个时间步更新令牌表示和自注意力图,以跟踪令牌级别的变化。门控模块是Eventful Transformer中的块,允许对更新的令牌数量进行运行时控制。他们的方法适用于各种视频处理应用,并可以用于预先构建的模型(通常无需重新训练)。他们的研究表明,基于当前最先进模型创建的Eventful Transformers可以大大降低计算成本,同时基本保持原始模型的准确性。 他们的源代码包含了用于创建Eventful Transformers的PyTorch模块,并向公众开放。Wisionlab的项目页面位于wisionlab.com/project/eventful-transformers。他们在CPU和GPU上展示了加速的实际时间。从技术角度来看,他们基于标准PyTorch操作符的方法可能不是最佳选择。他们确信通过进一步减少开销(例如构建用于门控逻辑的融合CUDA内核)可以进一步提高加速比。此外,他们的方法会导致一定的内存开销。毫不奇怪,保留某些张量在内存中是必要的,以便重用之前时间步骤的计算。 查看论文。本研究的所有功劳归功于该项目的研究人员。此外,别忘了加入我们的29k+机器学习SubReddit,40k+ Facebook社区,Discord频道和电子邮件通讯,我们在那里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 如果你喜欢我们的工作,你会喜欢我们的通讯。 这篇文章来自威斯康星大学麦迪逊分校的研究人员,提出了Eventful Transformers:一种在视频识别中成本效益高且准确度损失最小的方法。该文章最初发表于MarkTechPost。

Leave a Comment

LLM会取代知识图谱吗?元研究人员提出“头对尾”:一种衡量大型语言模型事实知识的新基准

大型语言模型因其超强的能力而受到了很多赞赏。它们能够模仿人类并生成与人类类似的内容。预训练的大型语言模型(LLMs),例如ChatGPT和LLaMA,展示了惊人的理解材料和回答常见问题的能力。一些研究已经证明了它们吸纳知识和回答问题的能力。尽管LLMs取得了显著进展,但它们经常缺乏对特定领域细微差别的复杂理解,并容易产生错误信息,即幻觉。这突显了提高LLM准确性和减少幻觉回答发生率的重大障碍。 与LLMs相关的讨论主要集中在三个主要领域,即减少LLM生成的幻觉回答、提高LLMs的事实准确性以及推测LLMs是否最终可能取代知识图谱(KGs)作为以符号格式存储世界知识的手段。最近,来自Meta Reality Labs的研究人员采用了一种新方法来回答这些问题,试图确定LLMs实际拥有多少信息。 在回答LLMs在知识方面掌握程度的问题时,团队讨论了两个方面。首先,直接问一个LLM所包含的知识可能是困难的。即使知识已经并入模型的参数中,幻觉可能是由于缺乏知识或发生故障的生成模型引起的。研究建议使用正确性作为评估LLM内知识程度的指标。这涉及评估模型回答清晰准确的问题的能力,例如“篮球运动员迈克尔·乔丹出生在哪里?”LLM还被要求提供简洁的回答,并在自信度较低时使用“unsure”一词表示不确定。 其次,没有一个能够准确反映用户兴趣多样性或世界信息广度的便利基准。即使是最全面的知识图谱在知识方面也存在空白,特别是在涉及较不知名的事实时。主要LLMs或搜索引擎的查询日志并不公开。 为了解决所有的限制,团队引入了一个他们创建的基准,名为“Head-to-Tail”。该基准包括18,000个问题-回答(QA)对,根据其各自主题的受欢迎程度被划分为头部、躯干和尾部事实。这些类别反映了不同的公众熟悉程度。团队创建了一种自动化评估方法和一组能够反映LLM已经有效吸收的知识广度的度量标准,以评估LLMs所保持的知识。 研究的核心是评估对公众可用的14个LLMs。结果显示,现有的LLMs在完善其对事实数据的理解方面仍需要显著改进。这尤其适用于属于躯干到尾部区域并涉及较不知名组织的信息。 总之,这项研究使用最近提出的基准和尖端评估技术考察了LLMs的事实知识。该研究通过解决重要的研究问题和概述具体发现,对于关于大型语言模型在整合事实信息方面的可靠性和未来发展的持续讨论做出了重大贡献。

Leave a Comment

该新的AI研究通过将预训练的蛋白质语言模型整合到几何深度学习网络中,推进了蛋白质结构分析

在科学探索中,一个引人入胜的谜题等待着解决——蛋白质复杂而多样的结构。这些分子工作马在生物过程中起着关键作用,以令人着迷和神秘的方式发挥着影响力。然而,由于当前分析方法的局限性,解读蛋白质复杂的三维(3D)结构长期以来一直是一个挑战。在这个复杂的谜题中,一个研究努力展开,旨在利用几何神经网络的潜力来理解这些大分子的复杂形态。 揭示蛋白质结构的现有方法是一段艰辛的旅程。这些结构存在于指导其生物功能的三维领域中,使其捕捉成为一项艰巨的任务。传统方法面临着需要更多结构数据的需求,通常在我们的理解中留下了空白。与此同时,另一条探索之路蓬勃发展——蛋白质语言模型。这些模型以氨基酸的线性一维(1D)序列为基础,展现出在各种应用中的卓越能力。然而,它们在理解蛋白质复杂的3D性质方面的局限性促使了一种创新方法的诞生。 https://www.nature.com/articles/s42003-023-05133-1 研究的突破在于将这两个看似不相关的领域融合起来:几何神经网络和蛋白质语言模型。这种巧妙而简洁的方法旨在将几何网络注入到语言模型所获得的见解中。挑战在于弥合1D序列理解和复杂的3D结构理解之间的差距。解决方案是寻求经过良好训练的蛋白质语言模型的帮助,例如著名的ESM-2,以解读蛋白质序列中的微妙之处。这些模型解开了序列的密码,产生了包含重要信息的每个残基表示。这些表示是与序列相关的见解的宝库,它们被融入到先进的几何神经网络的输入特征中。通过这种结合,网络被赋予了理解3D蛋白质结构复杂性的能力,同时又从嵌入在1D序列中的庞大知识库中汲取养分。 所提出的方法通过组织1D序列分析和3D结构理解的两个重要步骤,实现了和谐地融合。旅程从蛋白质序列开始,它们进入蛋白质语言模型的领域。在这个领域中,ESM-2是一座灯塔,它解读了氨基酸序列的神秘语言,产生了每个残基的表示。这些表示类似于拼图碎片,捕捉了序列的复杂性的本质。这些碎片无缝地编织到先进的几何神经网络的结构中,丰富了它们的输入特征。这种共生的融合赋予了网络超越3D结构分析的能力,踏上一段旅程,无缝地融入1D序列中嵌入的智慧。 在科学进步的历史中,几何神经网络和蛋白质语言模型的结合呼唤着一个新时代。这项研究旅程应对了蛋白质结构分析所带来的挑战,提供了超越当前方法局限性的新颖解决方案。随着序列和结构的融合,机遇的全景展现。所提出的方法作为1D序列和3D结构世界之间的桥梁,不仅丰富了蛋白质结构分析,还有望揭示分子生物学更深层次的奥秘。通过这种融合,一个变革性的叙事开始形成,全面的蛋白质分析成为一个灯塔,照亮了以前未知的理解领域。

Leave a Comment

斯坦福的研究人员推出了DSPy:一种用于解决语言模型(LMs)和检索模型(RMs)高级任务的人工智能框架

使用语言模型和检索模型可以轻松解决各种复杂任务。语言模型(如GPT-3)旨在根据接收到的输入生成类似人类的文本。另一方面,检索模型用于从数据库或文档集合中检索相关信息。明确定义要解决的任务,确定任务是否需要生成新文本还是从现有资源中检索数据。 使用GPT-3或类似模型,需要提供描述任务的提示,并让模型基于此生成文本。需要通过实验提示的措辞和结构来获得所需的输出。它涉及将语言模型生成的文本与从数据库中检索到的信息相结合。这可能包括根据检索到的信息生成摘要或洞察。 斯坦福大学的研究人员构建了一个用于使用语言模型(LM)和检索模型(RM)解决高级任务的框架。他们称之为DSPy。 DSPy包含了各种用于提示和微调LM以及改进它们的推理和检索增强的技术。 DSPy基于Pythonic语法,提供了可组合和声明性的模块,用于指导LM的操作。 DSPy还有一个自动编译器,用于训练LM以运行程序中的声明性步骤。这个编译器可以在没有手动中间阶段标签的情况下,从最少的数据中进行微调。它使用可训练的模块化组件的系统空间,而不是字符串操作。 DSPy使用两个简单的概念“签名”和“电视台”来编译您编写的任何程序。签名是DSPy模块的输入/输出行为的声明性规范。相比之下,电视台是功能强大的优化器(包含在DSPy中),它可以学会为任何程序的模块选择有效的提示。 签名包括对子任务的最小描述以及将向LM提问的一个或多个输入问题。它还解释了我们期望从LM获得的问题的答案。电视台是远程自动提示。他们说,与其他方法相比,DSPy需要非常少的标记。它将引导任何需要支持用户流水线的中间标签,其中包括多个复杂步骤。 由于DSPy框架与其他库有很大的区别,因此很容易根据我们的用例来解释何时使用它。研究人员表示,这个统一的框架对于NLP / AI研究人员或正在探索新的流水线或新任务以解决高级和复杂问题的人来说非常有用。为了使它适用于每个人,他们发布了安装用户手册。他们还表示,未来将发布各种入门教程和演示以及参考资料。

Leave a Comment

一项新的人工智能研究研究了大型语言模型在多项选择题中对选项顺序的敏感性的问题

大型语言模型(LLMs)因其在各种任务上的出色表现而受到了大量关注。它们的开发方式使它们经常在一些情况下超过监督模型甚至人类。尽管它们的能力令人惊叹,但先前的研究表明,某些功能约束可能会影响它们在实际世界中的实用性。这些模型对提示语言的细微差别、少量示范以及这些示范的组织的敏感性构成了一个重要的性能问题。这种敏感性阻碍了对LLMs能力的客观评估。 在Megagon Labs的最新研究中,一组研究人员对LLMs在处理多项选择题中的鲁棒性进行了研究,这是一种用于测试其推理和事实检索能力的流行任务。调查的主要焦点是LLMs对多项选择测试中选项重新排列的响应。经过深入研究后发现,当选项被改变时,跨多个基准测试的性能差异明显,范围从大约13%到75%不等。 经过深入分析后提出了一个假设,即当LLMs在对预测的前2或前3个选项不确定时,观察到的敏感性会发生。由于问题措辞带来的位置偏见,一些选项的顺序可能有利于这些前选项中的某些预测。在前两个选项中可以看到强调或减弱模型对某些选项放置的倾向的有趣模式。 为了突出偏见,团队采用了一种最佳策略,即将前两个列表中的第一个和最后一个替代方案放在一起以强调偏见。另一方面,为了抵抗偏见,建议将这些选择分散在周围的选项中。进行了一系列研究来验证假设的敏感性。此外,还使用了两种不同的校准技术来改进LLMs的预测。在多个模型和基准测试中看到了高达8个百分点的性能提升,这带来了显着改进。 该研究提出了一些问题,包括敏感性的程度,即LLMs在MCQs选项顺序方面受到多大程度的影响,导致LLMs敏感性的因素以及如何增强LLMs对选项顺序的鲁棒性。使用GPT-4和InstructGPT在五个不同的MCQ基准测试上进行了实验证明第一个问题。在零样本情况下发现了高达75%的敏感性差距。关于第二个问题,数据表明位置偏见是导致LLMs敏感性的原因,因为当LLMs不确定最佳选项时,它们倾向于偏好特定的放置方式。为了回答最后一个问题,研究表明使用两种不同的校准技术可以将LLMs的性能提高高达8个百分点。 总之,这项研究强调了面对LLMs对提示方面和排列方式的敏感性的必要性。通过研究LLMs在多项选择题中对选项重新排序的细微差别,它揭示了LLMs的决策过程,这肯定可以提高LLMs在实际情况下的可用性和可靠性。

Leave a Comment

卡内基梅隆大学和清华大学的研究人员提出了Prompt2Model:一种从自然语言指令生成可部署的AI模型的通用方法

假设您希望构建一个自然语言处理(NLP)模型来解决一个给定的问题。您需要定义任务范围,然后找到或创建能够指定预期系统行为的数据,选择适合的模型架构,训练模型,通过评估来评估其性能,然后将其部署供实际使用。研究人员已经通过一行代码使得原型化这种复杂的NLP模型成为可能! https://arxiv.org/abs/2308.12261 Prompt2Model是一个系统,它保留了使用简单提示指定系统行为的能力,并同时提供了一个可部署的特殊目的模型,保留了所有其优点。上图展示了我们Prompt2Model的工作架构。它实际上是一个自动化的流水线,从用户提示中提取关于任务的所有必要细节,然后收集和组合与任务相关的信息,并使用以下不同的通道进行部署。 数据集检索:给定一个提示,第一个任务是发现现有的手动注释数据,以支持用户的任务描述。 数据集生成:为了支持各种任务,存在一个数据集生成器,根据Prompt解析器解析的用户特定要求生成合成训练数据。Prompt解析器包含具有上下文学习的LLM,用于分段用户提示,使用OpenAI的gpt-3.5-turbo-0613。 模型检索:使用提供的提示,选择一个预训练的语言模型,该模型具有适合用户目标的知识。这个选择的模型作为学生模型,进一步进行微调和评估,使用生成的和检索到的数据。 WebApp:最后,存在一个易于使用的图形用户界面,允许下游用户与训练好的模型进行交互。这个使用Gradio构建的Web应用程序可以轻松地在服务器上公开部署。 总之,Prompt2Model是一个快速构建小而有竞争力的NLP系统的工具。它可以直接用于在几小时内产生优于LLM的任务特定模型,无需手动数据注释或架构。鉴于该模型的可扩展设计,它可以提供一个平台,用于探索模型蒸馏、数据集生成、合成评估、数据集检索和模型检索等新技术。 展望未来,我们可以将Prompt2Model视为促进协作创新的催化剂。通过提出不同的挑战,研究人员旨在在未来在框架的各个组件上促进多样化的实现和改进。

Leave a Comment

认识LegalBench:一个由合作构建的开源AI基准,用于评估英语大型语言模型中的法律推理

由于大型语言模型(LLMs)的进步,美国的律师和行政人员正在重新评估法律职业。根据其支持者的说法,LLMs可能会改变律师处理短文写作和公司合规等工作的方式。它们可能最终通过提高法律服务的可及性来解决美国长期存在的司法准入困境。这一观点受到了LLMs具有使它们更适合法律工作的独特特性的影响。与手动数据注释相关的支出,这些支出通常增加了法律语言模型的创建成本,将会因模型能够从少量标记数据中学习新工作而减少。 它们也非常适合进行法律的严格研究,包括解读带有大量术语的复杂文本和进行整合多种思维方式的推理过程。然而,法律应用程序经常涉及高风险,这种热情受到了一定程度的抑制。研究表明,LLMs可能会产生冒犯性、欺骗性和事实错误的信息。如果这些行为在法律环境中重复发生,可能会造成严重的损害,历史上受压迫和资源匮乏的人承受了不成比例的压力。因此,由于安全影响,迫切需要建立法律环境下衡量LLMs的基础设施和程序。 然而,希望判断LLMs是否能够运用法律推理的实践者面临着重重障碍。第一个障碍是法律基准的生态系统很小。例如,大多数现有的基准都集中在模型通过调整或训练特定任务数据来学习的任务上。这些标准无法捕捉到激发对法律实践兴趣的LLMs的特征,特别是它们只需简短提示即可完成各种任务的能力。类似地,基准倡议主要集中在专业认证考试(如统一律师资格考试)上,尽管它们并不总是反映LLMs的实际应用。第二个问题是律师和现有标准对“法律推理”的定义之间存在差异。 目前使用的基准广泛将需要法律信息或法律作为评估“法律推理”的工作进行分类。相反,律师们知道“法律推理”这个词是广泛的,包括各种形式的推理。不同的法律责任需要不同的能力和知识体系。由于现有的法律标准需要识别这些差异,因此对法律从业者来说,将当代LLMs的表现置于他们对法律能力的认知中是具有挑战性的。法律行业不使用与法律标准相同的术语或概念框架。鉴于这些限制,他们认为为了严格评估LLMs的法律推理能力,法律界需要更多地参与基准设计过程。 为此,他们介绍了LEGALBENCH,这是创建一个英文跨学科协作法律推理基准的初始阶段。过去一年,这项研究的作者们共同努力构建了162个任务(来自36个不同的数据源),每个任务都测试了特定形式的法律推理。他们借鉴了各自的法律和计算机科学背景。据他们所知,LEGALBENCH是第一个开源的法律基准项目。这种基准设计方法,即专家积极参与并积极参与评估任务的开发,是LLM研究中一种多学科合作的典范。他们还主张,这表明法律从业者在评估和推进法律中的LLMs中必须发挥的关键作用。 他们强调LEGALBENCH作为研究项目的三个方面: 1. LEGALBENCH是使用预先存在的针对少量样本LLM范式进行重新格式化的法律数据集的组合构建的,并且还包括由法律专家生成和提供的手动制作的数据集,这些法律专家也被列为本文的作者。参与此合作的法律专家被邀请提供测试有趣的法律推理能力或在法律中具有实际价值应用的数据集。因此,在LEGALBENCH任务上的良好表现提供了相关数据,律师可以用来确认对LLM法律能力的意见,或者找到能够提高工作流程效率的LLM。 2. LEGALBENCH上的任务被分为详细的分类,概述了完成任务所需的法律推理类型。由于该分类法借鉴了法律界常见的框架,并使用他们已经熟悉的词汇和概念框架,法律专业人员可以积极参与LLM性能的讨论。 3. 最后,LEGALBENCH的设计旨在作为更多研究的平台。对于没有法律培训的人工智能研究人员来说,LEGALBENCH在了解如何促进和评估各种活动方面提供了实质性的帮助。他们还打算通过不断征求和包括法律从业者的工作来扩大LEGALBENCH,因为法律界与LLMs的潜在影响和功能的互动越来越多。 他们在本文中做出了如下贡献: 1. 他们提供了一种根据必要的证明来分类和描述法律义务的分类法。这种分类法基于律师用来解释法律推理的框架。 2. 接下来,他们概述了LEGALBENCH中的活动,概述了它们是如何创建的,重要的异质性维度和约束条件。在附录中,对每个任务都进行了详细的描述。 3. 为了分析来自11个不同家族的20个LLMs在不同规模点上的情况,他们使用LEGALBENCH作为最后一步。他们对几种提示工程策略进行了初步调查,并对各种模型的有效性做出了评价。 这些研究结果最终揭示了LEGALBENCH可能有助于的几个潜在研究课题。他们预计各种社区都会对这个基准感到有趣。从业人员可以使用这些活动来决定是否以及如何将LLMs纳入当前流程以提高客户结果。LLMs能够进行的各种类型的注释以及它们允许的各种类型的实证学术工作可能会引起法学界的兴趣。在法律这样一个特殊的词汇特征和挑战性任务可能会揭示新的见解的领域中,这些模型的成功可能会引起计算机科学家的兴趣。 在继续之前,他们澄清了这项工作的目标不是评估计算技术是否应该取代律师和法律人员,也不是理解这种替代的利弊。相反,他们希望创建工具来帮助受影响的社区和相关利益相关者更好地理解LLMs在某些法律责任上的表现。鉴于这些技术的普及,他们认为解决这个问题对于确保计算法律工具的安全和道德使用至关重要。

Leave a Comment

元智能发布Code Llama:一款用于编码的最先进的大型语言模型

在不断发展的软件开发领域中,对高效和高产的编码工具的需求变得日益迫切。开发人员面临着编写强大、有良好文档的代码以及在调试和代码完成的复杂性中航行的挑战。随着代码库变得越来越复杂,解决这些挑战的创新解决方案变得至关重要。传统的编码工具和方法虽然有用,但有时可能无法满足现代软件开发的需求。 现有的编码工具和框架为程序员提供了宝贵的支持,从提供代码建议和完成的集成开发环境(IDE)到基于代码的语言模型(LM),可以根据提示生成代码片段。然而,这些工具在准确性、效率和全面性方面通常存在限制。现代编码任务的复杂性需要更先进的方法,能够理解自然语言指令和复杂的代码逻辑。 请见Code Llama,Meta AI在生成式AI编码方面的突破性进展。通过在代码特定数据集上进一步训练最先进的Llama 2模型开发,Code Llama弥合了自然语言指令和复杂代码生成之间的鸿沟。具有提高生产力和提供编码协助的潜力,Code Llama成为各技能水平开发人员的创世者。 Code Llama是一个多功能工具,具有满足不同编码需求的多个功能。它可以生成代码片段,并提供关于代码的自然语言解释,协助完成代码和帮助调试任务。支持Python、C++、Java等流行的编程语言,Code Llama针对各种编码场景进行了量身定制。 Code Llama的一个突出特点是其能够处理更长的输入序列,使开发人员能够提供更多来自其代码库的上下文。这导致更相关和准确的代码生成,特别适用于在大型代码库中调试复杂问题。 为了评估Code Llama的效果,进行了广泛的基准测试,使用了流行的编码挑战。Code Llama的性能与开源的基于代码的语言模型以及其前身Llama 2进行了比较。结果令人印象深刻,Code Llama的34B版本在HumanEval和Mostly Basic Python Programming (MBPP)等编码基准测试中取得了高分。这些分数超过了现有解决方案,并展示了它在广泛认可的AI模型中的竞争优势。 在编码工具领域,Code Llama以其变革性的工具而脱颖而出,它有潜力重塑开发人员处理任务的方式。通过提供开放和社区驱动的方法,Code Llama鼓励创新并倡导负责任和安全的AI开发实践。…

Leave a Comment

评估大型语言模型:介绍AgentSims,一个基于任务的人工智能框架,用于全面和客观的测试

LLM已经改变了语言处理(NLP)的思考方式,但其评估问题仍然存在。旧的标准最终变得无关紧要,因为LLM可以使用语言数据以人类水平(OpenAI,2023)进行NLU和NLG。 针对像闭书问答(QA)为基础的知识测试、以人为中心的标准化考试、多轮对话、推理和安全评估等领域的新基准的迫切需求,NLP社区提出了新的评估任务和涵盖各种技能的数据集。 然而,这些更新的标准仍然存在以下问题: 任务格式对可评估的能力施加了限制。大多数这些活动使用单轮QA风格,使其不能充分评估LLM的全面性。 操纵基准很简单。在确定模型的有效性时,测试集不被以任何方式破坏至关重要。然而,由于已经训练了如此多的LLM信息,测试用例与训练数据混合的可能性越来越大。 开放型QA目前可用的度量标准是主观的。传统的开放式QA评估包括客观和主观的人工评分。在LLM时代,基于文本段匹配的度量已不再相关。 研究人员目前正在使用基于良好对齐的LLM(如GPT4)的自动评分器来降低人工评分的高成本。虽然LLM对某些特征有偏见,但该方法的最大问题是无法分析超过GPT4级别的模型。 由PTA Studio、宾夕法尼亚州立大学、北京航空航天大学、中山大学、浙江大学和华东师范大学最近进行的研究提出了AgentSims,这是一种用于为LLM策划评估任务的架构,它具有交互式、视觉吸引力和基于编程的特点。AgentSims的主要目标是通过消除研究人员在编程水平差异上可能面临的障碍来促进任务设计过程。 LLM领域的研究人员可以利用AgentSims的可扩展性和可组合性来研究组合多个计划、记忆和学习系统的效果。AgentSims的用户友好界面用于地图生成和代理管理,使其对行为经济学和社会心理学等各个学科的专家都易于使用。这样的用户友好设计对LLM行业的持续增长和发展至关重要。 研究论文称AgentSims比当前的LLM基准更好,当前的基准只测试少数技能,并使用容易解释的测试数据和标准。社会科学家和其他非技术用户可以通过图形界面的菜单和拖放功能快速创建环境和设计任务。通过修改代码的抽象代理、规划、记忆和工具使用类,AI专业人员和开发人员可以尝试各种LLM支持系统。目标驱动的评估可以确定任务的成功率。总之,AgentSims通过基于明确目标的各种社会模拟来促进跨学科社区发展健壮的LLM基准。

Leave a Comment

ChatGPT的Enigma PUMA是一种AI方法,提出了一种快速且安全的LLM推理方式

大型语言模型(LLMs)在人工智能领域引发了一场革命。ChatGPT的发布为LLMs时代点燃了火花,从那时起,我们见证了它们不断改进。这些模型通过大量的数据变得可能,并以其能力给我们留下了深刻的印象,从掌握语言理解到简化复杂任务。 ChatGPT的替代方案有很多,它们每天都在变得越来越好,甚至在某些任务上超越了ChatGPT。LLaMa、Claudia、Falcon等等;新的LLM模型正向ChatGPT的宝座发起冲击。 然而,毫无疑问,ChatGPT仍然是迄今为止最受欢迎的LLM。你最喜欢的基于AI的应用很有可能只是一个处理连接的ChatGPT封装器。但是,如果我们退后一步思考安全问题,它真的是私密且安全的吗?OpenAI确保保护API数据隐私是他们非常关心的事情,但他们同时面临着许多诉讼。即使他们非常努力地保护模型使用的隐私和安全性,这些模型可能过于强大而无法控制。 那么,我们如何确保在使用LLMs的同时不会出现隐私和安全问题?如何利用这些模型的能力而不损害敏感数据?让我们来认识一下PUMA。 PUMA 是一个旨在实现安全高效评估Transformer模型的框架,同时保护您数据的纯洁性。它将安全多方计算(MPC)与高效的Transformer推理相结合。 在其核心,PUMA 引入了一种新颖的技术,用于近似Transformer模型内的复杂非线性函数,如GeLU和Softmax。这些近似是为了保持准确性,同时显著提高效率。与可能牺牲性能或导致复杂部署策略的先前方法不同,PUMA的方法平衡了两个世界-确保准确结果的同时,保持了实际应用所需的效率。 PUMA 引入了三个关键实体:模型所有者、客户端和计算方。每个实体在安全推理过程中都发挥着关键作用。 模型所有者提供经过训练的Transformer模型,而客户端贡献输入数据并接收推理结果。计算方集体执行安全计算协议,确保数据和模型权重在整个过程中得到安全保护。PUMA推理过程的基本原则是保持输入数据和权重的机密性,保护涉及的实体的隐私。 安全嵌入是安全推理过程的一个基本方面,传统上涉及使用令牌标识符生成一位热向量。然而,PUMA 提出了一种与Transformer模型的标准工作流程密切相符的安全嵌入设计。这种简化的方法确保安全措施不会干扰模型的固有架构,简化了在实际应用中部署安全模型。 PUMA中使用的安全GeLU和LayerNorm协议的概述。来源:https://arxiv.org/pdf/2307.12533.pdf 此外,在安全推理中,近似复杂函数(如GeLU和Softmax)以平衡计算效率和准确性的方式是一个重大挑战。PUMA 通过设计更准确的近似方法,根据这些函数的特性进行优化,解决了这个问题。通过利用这些函数的特定特征,PUMA 显著提高了近似的精度,同时优化了运行时间和通信成本。 最后,LayerNorm作为Transformer模型中的关键操作,由于除法平方根公式,它在安全推理中带来了独特的挑战。PUMA 通过巧妙地重新定义使用安全协议的操作,确保LayerNorm的计算既安全又高效。 PUMA 最重要的特点之一是它的无缝集成。该框架可以在不需要进行重大模型架构修改的情况下,实现端到端的安全推理,这意味着您可以轻松利用预训练的Transformer模型。无论是从Hugging Face还是其他来源下载的语言模型,PUMA 都能简化操作。它与原始工作流程相一致,不需要复杂的重新训练或修改。

Leave a Comment

“遇见Cursive:一种通用而直观的与LLM互动的人工智能框架”

在与大型语言模型(LLM)进行接口交互的领域中,开发人员常常面临一个共同的困境。一方面,存在复杂而臃肿的框架,而另一方面,要从零开始构建大量抽象的前景。在简单性、调试易用性和可扩展性之间取得平衡依然是一个艰巨的挑战。 构建者和与LLM相关的开发人员传统上面临着有关框架的问题。复杂和功能繁重的框架位于光谱的一端,往往导致代码混乱和难以控制。另一方面,缺乏适当的工具和抽象使得开发人员需要投入大量时间来构建他们的解决方案,从而阻碍了效率和生产力。这些缺点凸显了需要一个提供简化体验而又不牺牲功能的框架的需求。 为了直面这一挑战,Cursive框架成为一个有前景的解决方案。Cursive试图通过提升与LLM交互时的开发者体验(DX)来重新定义这一领域的格局。它的目标是使与LLM的交互过程直观、愉快,并摆脱不必要的复杂性。此外,Cursive采取了一个非常出色的步骤,确保其适用于包括浏览器、Node.js、Cloudflare Workers、Deno、Bun等各种JavaScript环境。 Cursive的核心承诺在于简化开发人员与LLM之间的交互,为他们提供清晰而愉快的体验。一个值得注意的特点是简化了向模型提问和接收答案的方法。开发人员可以轻松地进行模型查询,并通过最少的代码获得响应,提高工作流程的效率。此外,与模型保持对话线程非常简单,实现了无缝的双向交互。 Cursive还革新了在LLM上下文中调用函数的方式。传统的函数调用经常导致不连贯的代码,难以理解。然而,Cursive引入了一种函数调用方法,保持整个过程的连贯性。函数定义的创建、执行和结果检索无缝集成,提高了代码的可读性和可维护性。 Cursive的影响通过反映增强的DX和改进的开发工作流程的有形指标来衡量。减少了与模型交互所需的代码行数,直观的函数调用以及连贯的对话处理都有助于提高开发者的生产力。该框架能够估算不同模型的成本和使用情况,并处理模型之间的上下文切换,带来了以前缺乏的可靠性和可观察性。 Cursive的引入在LLM交互领域迈出了重要的一步。通过优先考虑开发者体验,该框架解决了现有的挑战,并为更高效、简化和愉快的开发流程铺平了道路。作为一种旨在改变构建者与LLM交互方式的工具,Cursive具有重新定义最佳实践、鼓励创新并提高开发领域生产力的潜力。其在各种JavaScript环境中的多样性进一步巩固了它作为一个具有颠覆性解决方案的地位。

Leave a Comment

微软和香港浸会大学的研究人员推出了WizardCoder:一种代码演变指导的精调代码LLM

大型语言模型(LLMs)最近引起了很大的关注并取得了显著的成功。其中OpenAI的ChatGPT尤为突出。这些模型通过利用大量的互联网数据进行重要的预训练,并通过精确的指导数据进行进一步的微调,实现了各种任务的最新(SOTA)零-shot性能。这种模式在代码的理解和生成中也有所体现。许多代码LLMs已被提出来解决代码相关活动中固有的困难。这些代码LLMs通过使用大量的代码数据进行预训练,使它们能够在与代码相关的各种活动中表现出色。 在代码领域中,与大多数之前的代码LLMs主要侧重于预训练阶段不同,需要对细粒度的指令定制进行更多的研究。为了提高语言模型在各种活动中的泛化能力,首次使用了指令调整。例如,OpenAI的InstructGPT要求人工标注员提供具体的指令以验证与用户目标的符合性。类似于最近的Alpaca,使用ChatGPT通过自我指导方法生成指令数据。Vicuna利用用户在ShareGPT.com上发布的聊天记录。WizardLM建立了Evol-Instruct方法,涉及修改当前的指令数据以生成更复杂和多样化的数据集。 然而,重要的是要注意,这些技术在设计时应该特别考虑到代码领域,而不是主要关注通用领域。受Evol-Instruct方法的启发,微软和香港浸会大学的研究人员在这个项目中打算通过使用特定于代码的Evol-Instruct生成详细的代码指令数据来改进开源代码LLM StarCoder的功能。他们对适用于涉及编码的活动的进化提示过程进行了多方面的修改,以实现这一目标。简化了进化提示,改进了进化指令,并包括了代码调试和时间空间复杂性的限制。他们的方法首先用于开发基本的Code Alpaca指令数据。 接下来,他们使用新开发的代码指令跟随训练集来微调StarCoder并获得他们的WizardCoder。根据包括HumanEval、HumanEval+、MBPP和DS-100在内的四个代码生成基准的实验结果,他们的WizardCoder击败了所有其他开源代码LLM,达到了最先进的(SOTA)性能。他们注意到在HumanEval和HumanEval+上的pass@1得分显著提高,即在HumanEval上增加了22.3(57.3 vs. 35.0),在MBPP上增加了8.2(51.8 vs. 43.6)。令人惊讶的是,尽管规模较小,但他们的WizardCoder在HumanEval和HumanEval+的及格率上甚至超过了Anthropic的Claude和Google的Bard。 以下是本研究的贡献摘要: • 我们提供了WizardCoder,它应用了Code Evol-Instruct来改进开源代码LLM StarCoder的功能。 • WizardCoder在代码生成方面明显优于所有其他开源代码LLM,包括StarCoder、CodeGen、CodeGee、CodeT5+、InstructCodeT5+、StarCoder-GPTeacher和Instruct-Codegen-16B。 • 尽管规模较小,但WizardCoder在代码生成方面超过了主要的闭源LLM,包括Claude、Bard、PaLM、PaLM-2和LaMDA。

Leave a Comment

Hugging Face推出IDEFICS:开创性的开放式多模态对话人工智能与视觉语言模型

在人工智能的动态领域中,一个持续存在的挑战给该领域的进展蒙上了一层阴影:围绕着最先进的AI模型的谜团。虽然不可否认地令人印象深刻,但这些专有的奇迹一直保持着一种隐藏着开放研究和发展进程的神秘氛围。Hugging Face的一支专门研究团队通过IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)的引入,弥合了这个巨大的鸿沟。这个多模态语言模型不仅仅是一个简单的竞争者;在功能方面,它与其闭源的对手齐肩。 此外,它还以令人耳目一新的透明度运作,利用公开可用的数据。这个努力背后的推动力是鼓励开放性、可访问性和协作创新的人工智能。在一个渴望着开放性的AI模型,能够熟练处理文本和图像输入以产生连贯对话输出的世界中,IDEFICS成为进展的光芒。 虽然目前的方法值得赞赏,但它们仍然陷入了专有的限制中。然而,IDEFICS的领导者们提出了一个更大胆的建议:一个开放获取的模型,与其闭源的对手在性能上相当,并且完全依赖于公开可用的数据。这个具有远见的创造以Flamingo的强大为基石,有两个版本可供选择:一个有800亿参数的变体和一个有90亿参数的变体。这种范围的分歧确保了它在各种应用中的适应性。研究团队的愿望超越了简单的进步;他们希望建立一个透明的AI开发范式,解决多模态对话AI中的空白,并为其他人奠定舞台。 IDEFICS登场,一个真正的多模态模型奇才。它具有将图像和文本序列吸收为上下文连贯对话文本的天赋能力。这种创新与团队的总体透明度使命完美契合-这是一种贯穿其中的特质。该模型的基石是公开可用的数据和模型的堆叠,有效地推翻了进入门槛的壁垒。其性能证明了这一点:IDEFICS通过轻松回答关于图像的查询、生动地描述视觉叙事,甚至创造与多张图像相关的故事而令人惊叹。它的800亿和90亿参数版本的双重奏与前所未有的可扩展性相 resonates。这个多模态的奇迹,经过仔细的数据整理和模型开发,展开了开放研究和创新的新篇章。 https://huggingface.co/blog/idefics 作为对闭源专有模型所带来的困难的回应,IDEFICS成为开放创新的火球。超越简单的创造,这个模型象征着走向可访问和协作式AI开发的一大步。将文本和图像输入融合,产生一系列对话输出,预示着跨行业变革的来临。研究团队对透明度、道德审查和共享知识的奉献将人工智能的潜力凝结成实质,有望造福人类。在其本质上,IDEFICS展示了开放研究在引领超凡技术新时代方面的潜能。随着AI社区响应这一鼓舞人心的号召,可能性的边界扩展了,为更加光明、更加包容的数字明天带来了承诺。

Leave a Comment

AI2发布Dolma:一个3万亿令牌语料库,开创语言模型研究的透明度

透明度和开放性在语言模型研究中一直是有争议的问题。封闭数据集的存在、秘密的方法论和有限的监督成为推动该领域发展的障碍。为了应对这些挑战,Allen人工智能研究所(AI2)推出了一项开创性的解决方案——Dolma数据集,该数据集包含了惊人的3万亿个标记。目的是在语言模型研究中引领一个新的合作、透明和共享进步的时代。 在不断发展的语言模型开发领域中,OpenAI和Meta等行业巨头使用的数据集和方法论的模糊性给进展蒙上了阴影。这种不透明性不仅阻碍了外部研究人员对现有模型进行批判性分析、复制和增强的能力,也抑制了该领域的整体增长。AI2的Dolma作为一种开放的象征,出现在一个笼罩在秘密中的领域中。Dolma拥有囊括网络内容、学术文献、代码等的全面数据集,旨在通过赋予研究社区构建、解析和优化其语言模型的工具,赋予他们独立进行研究的能力。 Dolma的创造的核心是一组基础原则。其中最重要的原则是开放性,AI2倡导这一原则以消除与预训练语料库的受限访问相关的障碍。这一理念鼓励开发数据集的改进版本,并促进对数据与其支撑的模型之间复杂关系的深入研究。此外,Dolma的设计强调代表性,模拟已建立的语言模型数据集,以确保可比较的能力和行为。规模也是一个突出的考虑因素,AI2深入研究模型和数据集尺寸之间的动态相互作用。为了进一步加强方法论的透明度和降低风险,AI2采用了可复现性和风险缓解的原则,以及透明的方法论和对个体伤害的最小化承诺。 Dolma的创造是一个数据处理的细致过程。该流程包括特定来源和无源操作,将原始数据转化为干净、朴素的文本文档。这些复杂的步骤包括语言识别、从Common Crawl中筛选网络数据、质量过滤、去重和风险缓解策略等任务。包括代码子集和多样化的来源(包括科学手稿、维基百科和Project Gutenberg等)将Dolma的全面性提升到了新的高度。 描绘数据集透明度变化程度的插图 总的来说,Dolma的引入标志着语言模型研究中透明度和合作协同的重大进展。AI2决心解决隐藏数据集的问题,通过开放获取和细致的文档记录确立了一个变革性的先例。所提出的方法论Dolma是一个宝贵的精选内容库,将成为全球研究人员的基石资源。它打破了主要行业参与者周围的秘密范式,取而代之的是一个倡导集体进步和对该领域的深入理解的新框架。随着自然语言处理学科开辟新的视野,Dolma的影响将产生涟漪效应,远远超越这个数据集,促进共享知识的文化,催生创新,并培育负责任的人工智能的发展。

Leave a Comment

“认识 CoDeF:一种人工智能(AI)模型,可以实现逼真的视频风格编辑,基于分割的跟踪和视频超分辨率”

基于大型数据集训练的生成模型具有出色的质量和精度,使得图像处理领域取得了重大进展。然而,视频素材处理仍然没有取得重大进展。由于神经网络的固有不可预测性,保持高时态一致性可能会很困难。视频文件的特性也带来了另一个困难,因为它们通常比其图片等价物包含更低质量的纹理,并且需要更多的处理能力。因此,基于视频的算法远远不及基于照片的算法。这种差异引发了一个问题,即是否可能在保持高时态一致性的同时,轻松地应用成熟的图像算法到视频素材中。 在深度学习之前的时代,研究人员提出了从动态电影中创建视频镶嵌图,并在隐式神经表示的建议之后,使用神经层次图片图集来实现这一目标。然而,这些方法存在两个主要问题。首先,这些表示能力有限,特别是在准确重现视频中的微小元素时。重新构建的素材经常会错过微小的动作特征,如眨眼或紧绷的笑容。第二个缺点是计算出的图集通常存在失真,导致语义信息贫乏。 因此,当前的图像处理技术未能发挥出最佳效果,因为估计出的图集需要更多的自然性。他们提出了一种新的方法,将3D时间变形场与基于哈希的2D图片场结合起来表示视频。使用多分辨率哈希编码来表达时间变形,大大改善了常规电影的调节。这种方法使得监测水和烟雾等复杂对象的变形更加容易。然而,由于变形场的增强能力,计算一个自然的规范图片是困难的。一个忠实的重建也可以预测一个人工规范图片的相关变形场。他们建议在训练过程中使用退火哈希来克服这个障碍。 首先使用平滑变形网格寻找所有刚性运动的粗略解。然后逐渐引入高频特征。通过这种从粗到细的训练,使得表示在规范的真实性和重建的准确性之间达到了妥协。与早期的隐式层次表示相比,他们在重建质量方面取得了显著的改进。这种改进通过规范图片的真实性明显增加和PSNR约4.4的提高来衡量。他们的优化方法在大约300秒内估计出了带有变形场的规范图片,而早期的隐式层次表示需要超过10小时。 他们通过在他们提出的内容变形场上建立起来,将移动图像处理任务(如提示引导图像翻译、超分辨率和分割)转移到更动态的视频内容中。他们在参考图片上使用ControlNet进行提示引导的视频到视频翻译,通过观察到的变形将翻译材料传播开来。这种翻译过程通过在单个规范图片上操作,消除了对所有帧进行耗时的推断模型(如扩散模型)的要求。与使用生成模型进行最新的零样本视频翻译相比,他们展示了在时态一致性和纹理质量方面显著的提高。 与使用神经层次图集的Text2Live相比,他们的方法在处理更复杂的运动、创建更逼真的规范图片和提供更高的翻译结果方面更加出色。他们还将超分辨率、语义分割和关键点识别等图像技术扩展到规范图片中,使它们在视频环境中有了实际应用。这包括视频关键点跟踪、视频对象分割和视频超分辨率等。他们提出的表示方法始终产生具有高时态一致性的高保真合成帧,突显了其作为视频处理的一种具有改变游戏规则的工具的潜力。 基于大型数据集训练的生成模型具有出色的质量和精度,使得图像处理领域取得了重大进展。然而,视频素材处理仍然没有取得重大进展。由于神经网络的固有不可预测性,保持高时态一致性可能会很困难。视频文件的特性也带来了另一个困难,因为它们通常比其图片等价物包含更低质量的纹理,并且需要更多的处理能力。因此,基于视频的算法远远不及基于照片的算法。这种差异引发了一个问题,即是否可能在保持高时态一致性的同时,轻松地应用成熟的图像算法到视频素材中。 在深度学习之前的时代,研究人员提出了从动态电影中创建视频镶嵌图,并在隐式神经表示的建议之后,使用神经层次图片图集来实现这一目标。然而,这些方法存在两个主要问题。首先,这些表示能力有限,特别是在准确重现视频中的微小元素时。重新构建的素材经常会错过微小的动作特征,如眨眼或紧绷的笑容。第二个缺点是计算出的图集通常存在失真,导致语义信息贫乏。 香港科技大学、蚂蚁集团、CAD&CG和浙江大学的研究人员提出了一种将3D时间变形场与基于2D哈希的图像场结合表示视频的新方法。使用多分辨率哈希编码来表示时间变形可以显著改善通用电影的调控。这种方法使得监测水和烟雾等复杂物体的变形变得更容易。然而,由于变形场的增强能力,计算自然规范图像是困难的。忠实的重建也可以预测与人工规范图像相关的变形场。他们建议在训练过程中使用退火哈希来克服这个障碍。 首先使用平滑变形网格找到所有刚性运动的粗略解,然后逐渐引入高频特征。根据这种从粗到细的训练,该表示在规范的真实性和重建的准确性之间取得了折衷。与早期技术相比,他们观察到重建质量有了显著提高。这种改善表现为规范图像的自然性明显增加和约4.4的峰值信噪比提高。他们的优化方法可以在大约300秒内估计带有变形场的规范图像,而早期的隐式分层表示需要超过10小时。 他们通过基于他们建议的内容变形场来将运动图像处理任务(如提示引导的图像翻译、超分辨率和分割)扩展到更动态的视频内容领域。他们在参考图像上使用ControlNet进行提示引导的视频到视频翻译,在观察到的变形中传播翻译材料。该翻译过程通过在单个规范图像上操作,消除了需要在所有帧上进行耗时推理模型(如扩散模型)的要求。将他们的翻译输出与最新的使用生成模型进行零样本视频翻译的结果进行比较,他们展示了显著的时间一致性和纹理质量的提高。 与使用神经分层图的Text2Live相比,他们的方法在处理更复杂的运动、创建更逼真的规范图像以及在翻译结果方面更出色。他们还将超分辨率、语义分割和关键点识别等图像技术扩展到规范图像,使其在视频场景中得以有效使用。这包括视频关键点跟踪、视频物体分割和视频超分辨率等。他们建议的表示方法始终产生具有更高时间一致性的高保真度合成帧,凸显了其作为视频处理的改变游戏规则的工具的潜力。

Leave a Comment

谷歌AI研究提出了一种使用大型语言模型(LLMs)进行个性化文本生成的通用方法

随着基于人工智能的技术在内容生成方面的应用增多,个性化文本生成引起了广泛关注。为了创建适用于特定受众、创作环境和信息需求的生成系统,它们必须能够提供个性化的回应,考虑到额外的上下文,例如用户已经写过的文档。 研究人员已经在多种场景下研究了定制文本的创建,例如评论、聊天机器人和社交媒体。大多数现有的工作提出的模型都是针对特定任务的,并依赖于领域特定的特征或信息。如何创建一种通用的策略,可以在任何情况下使用,得到的关注较少。大型语言模型(LLMs)在许多文本生成任务中日益突出,这要归功于生成式人工智能的兴起,特别是通过像ChatGPT1和Bard2这样的聊天机器人。然而,很少有研究探讨如何赋予LLMs这种能力。 最近,Google的研究提供了一种通过利用广泛的语言资源来生成独特内容的通用方法。他们的研究受到了一种常见的写作指导方法的启发,该方法将借用外部资源进行写作过程分解为更小的步骤:调研、源评估、总结、综合和整合。 为了训练个性化文本生成的LLMs,团队采用了类似的方法,采用了多阶段多任务结构,包括检索、排序、摘要、综合和生成。具体而言,他们利用当前文档的标题和第一行创建一个问题,并从个人上下文的二级存储库中获取相关信息,例如用户之前编写的文档。 接下来,他们对排名结果进行摘要,根据相关性和重要性对其进行排序。除了检索和摘要,他们还将检索到的信息综合成关键要素,然后将其输入到大型语言模型中生成新的文档。 在语言教学领域,人们普遍观察到阅读和写作技能相互发展。此外,研究表明,个体的阅读水平和阅读量可以通过作者识别活动来衡量,这与阅读能力相关。这两个发现促使研究人员创建了一个多任务环境,其中他们添加了一个辅助任务,要求大型语言模型识别特定文本的作者,以提高其阅读能力。他们希望通过给模型提供这个挑战,它将能够更准确地解释所提供的文本,并产生更引人入胜和量身定制的写作。 团队使用了三个公开可用的数据集,包括电子邮件往来、社交媒体辩论和产品评论,以评估所建议模型的性能。在所有三个数据集上,多阶段多任务框架相对于几个基准模型都显示出了显著的增益。

Leave a Comment

语言模型的未来:拥抱多模态以提升用户体验

人工智能正在进步,得益于超级有益和高效的大型语言模型的引入。基于自然语言处理、自然语言生成和自然语言理解的概念,这些模型能够使生活变得更轻松。从文本生成和问题回答到代码补全、语言翻译和文本摘要,LLM已经走过了很长的路。随着OpenAI最新版本的LLM,即GPT 4的开发,这一进步为模型的多模态性的进展打开了道路。与以往版本不同,GPT 4可以接受文本和图像的输入。 未来变得更加多模态,这意味着这些模型现在可以像人类一样理解和处理各种类型的数据。这种变化反映了我们在现实生活中的沟通方式,它涉及了结合文本、图像、音乐和图表以有效地表达意义。这一发明被视为用户体验的重要改进,可与此前聊天功能产生的革命效果相媲美。 在最近的一条推文中,作者强调了多模态在语言模型的用户体验和技术困难方面的重要性。字节跳动在实现多模态模型的承诺方面处于领先地位,这要归功于其著名的平台TikTok。他们使用文本和图像数据的组合作为其技术的一部分,并且通过这种组合驱动了各种应用,例如目标检测和基于文本的图像检索。他们方法的主要组成部分是离线批处理推理,它为200TB的图像和文本数据生成嵌入,从而可以在集成向量空间中处理各种数据类型而没有任何问题。 多模态系统实施过程中的一些限制包括推理优化、资源调度、弹性以及所涉及的数据和模型的规模庞大。字节跳动使用了灵活的计算框架Ray,该框架提供了许多工具来解决多模态处理的复杂性问题。Ray的能力提供了大规模模型并行推理所需的灵活性和可扩展性,尤其是Ray Data。该技术支持有效的模型分片,可以将计算任务分布在不同的GPU甚至同一GPU的不同区域上,从而保证即使是太大无法放在单个GPU上的模型也能够高效地处理。 迈向多模态语言模型开启了人工智能驱动互动的新时代。字节跳动使用Ray提供有效且可扩展的多模态推理,展示了这种方法的巨大潜力。人工智能系统理解、解释和响应多模态输入的能力必将影响人们与技术互动的方式,随着数字世界变得越来越复杂和多样化。与Ray等先进框架合作的创新企业正在为人工智能系统能够理解我们的语音和视觉线索铺平道路,实现更丰富、更类似人类的互动。

Leave a Comment

“遇见 FraudGPT:ChatGPT 的黑暗面孪生”

ChatGPT已经变得流行,影响人们的工作方式和他们可能在网络上找到的内容。许多人,甚至那些尚未尝试过的人,都对AI聊天机器人的潜力感到好奇。生成式AI模型的普及已经改变了潜在危险的性质。在“暗网论坛”上的最新帖子中,可以看到FraudGPT的出现。网络犯罪分子已经调查了从这一趋势中获利的方法。 Netenrich的研究人员发现了一种有前途的新人工智能工具,名为“FraudGPT”。这个AI机器人专门为恶意活动而构建,包括发送钓鱼邮件、开发破解工具、进行卡盗刷等。该产品可以在多个暗网市场和Telegram应用上购买。 FraudGPT是什么? 与ChatGPT类似,但增加了生成用于网络攻击的内容的能力,FraudGPT可以在暗网和Telegram上购买。2023年7月,Netenrich的威胁研究团队成员首次注意到它的广告。FraudGPT的一个卖点是它需要ChatGPT不响应可疑查询的保障和限制。 根据提供的信息,该工具每周或两周更新一次,使用了几种不同类型的人工智能。订阅是购买FraudGPT的主要支付方式。月度订阅费用为200美元,年度会员费用为1700美元。 它是如何工作的? Netenrich团队花钱使用了FraudGPT。布局与ChatGPT非常相似,左侧边栏显示用户的请求历史记录,而聊天窗口占据了大部分屏幕空间。用户只需将问题输入到提供的框中,然后点击“Enter”即可获得回答。 其中一种测试用例是与银行相关的钓鱼邮件。用户的输入很少,只需要在查询格式中包含银行的名称,FraudGPT就能完成工作。它甚至指示在文本中放置恶意链接的位置。欺诈性登陆网站主动向访问者索取个人信息正是FraudGPT的能力范围。 FraudGPT还被要求列出最常访问或利用的在线资源。这对黑客在计划未来攻击时可能有用。该软件的在线广告吹嘘它可以生成有害代码,组装难以检测的恶意软件,寻找漏洞并找到目标。 Netenrich团队还发现,FraudGPT的供应商曾经为雇佣提供黑客服务的广告。他们还将同一人与一个名为WormGPT的类似程序联系起来。 FraudGPT的调查强调了警惕性的重要性。目前尚不清楚黑客是否已经使用这些技术开发出新的危险。然而,FraudGPT和类似的有害程序可能帮助黑客节省时间。钓鱼邮件和登陆页面可以在几秒钟内编写或开发。 因此,消费者必须继续警惕任何对其个人信息的要求,并坚持其他网络安全最佳实践。网络安全行业的专业人士应该及时更新他们的威胁检测工具,特别是因为恶意行为者可能使用类似FraudGPT的程序直接针对和进入关键计算机网络。 FraudGPT的分析是一个深刻的提醒,黑客将随着时间的推移调整他们的方法。但开源软件也存在安全漏洞。使用互联网或从事保护在线基础设施的工作的任何人都必须跟上新兴技术及其带来的威胁。关键是在使用像ChatGPT这样的程序时记住所涉及的风险。

Leave a Comment

阿里巴巴的研究人员提出了INSTAG:一种利用像ChatGPT这样的现代聊天机器人的指令跟随能力的开放集细粒度标记器

你有没有考虑过像ChatGPT这样的大型语言模型如何获得遵循指令的能力?各种基础语言模型通过监督微调(SFT)来获得这种能力。SFT的成功关键因素是数据集的多样性和复杂性。它们的定性分析和定义需要更加清晰。 阿里巴巴达摩院的研究人员提出了一种名为“InsTag”的开放集合细粒度标记器,根据语义和意图对SFT数据集中的样本进行标记,以定义任务的指令多样性和复杂性。他们声称,随着数据的复杂性和多样性增加,模型的能力也会增长。 研究人员还提出了一种基于InsTag的数据选择器,从开源数据集中选择6K个多样性和复杂性样本,并在InsTag选择的数据上进行模型微调。他们声称,包含各种语义和特点的大范围训练数据对于与人类预期完全一致的良好对齐LLM具有重要意义,可以准确识别人类意图并以自然语言形式适当地规范回应。 InsTag是一种由高性能聊天机器人ChatGPT赋能的自动指令标记方法。它是一个框架,自动提示ChatGPT为查询分配标签。ChatGPT使用系统化的标签规范技术来解释每个分配的标签。当InsTag应用于现有的开源数据集时,它构建了开放集合、经过精细训练的标签,并进一步详细分析以获得基于复杂性和多样性的分布。使用InsTag选择器选中的数据进行LLM微调在MIT-Benchmark上表现更好。 在尝试使用ChatGPT生成意图标签时,研究人员确定了三种类型的噪音。由于ChatGPT在遵循输出格式指令方面的不稳定性,会产生词法噪音。过于具体的标签会创建不受控制的细粒度,导致噪音。由于ChatGPT的偏见,一些标签经常同时出现,导致虚假相关性。 为了解决这些问题,他们使用格式、语义和关联等各个方面对开放集合的标记结果进行规范化。他们首先过滤掉出现次数少于特定集合参数(称为超参数,与数据集的规模相关)的长尾标签。所有标签都转换为小写字符,以避免大写字母的影响。最后,对每个标签应用词干提取技术,词干提取是一种通过去除词缀来提取单词的基本形式的技术。 研究人员选择了13B版本的LLaMA进行微调,同时还进行了其他类似的LLM比较。他们的结果显示,他们的模型在MIT-Bench上取得了6.44的平均分,优于所有开源对齐的LLM。 总之,研究人员表示,他们提出的InsTag为更深入理解LLM对齐中的查询分布提供了一种新的视角。它具有广泛的潜力,可扩展到更多应用领域,如全面评估和基于标签的自我指导。

Leave a Comment

微软研究员推出SpeechX:一种多功能语音生成模型,能够进行零样本TTS和各种语音转换任务

多种机器学习应用,包括文本、视觉和音频,在生成模型技术方面已经取得了快速且显著的发展。这些发展对行业和社会产生了重要影响。尤其是具有多模态输入的生成模型已成为真正的创新发展。零样本文本到语音(TTS)是语音领域中一个众所周知的语音生成问题,它使用音频文本输入。只使用预期说话者的一个小音频片段,零样本TTS可以将文本源转化为具有该说话者声音特质和说话方式的语音。早期零样本TTS的研究中使用了固定维度的说话者嵌入。这种方法并没有有效地支持说话者克隆能力,并将其使用限制在TTS上。 然而,最近的策略包括更广泛的概念,如遮蔽语音预测和神经编解码语言建模。这些前沿方法使用了目标说话者的音频,而不是将其压缩为一维表示。因此,这些模型除了出色的零样本TTS性能之外,还展示了新的功能,如语音转换和语音编辑。这种增强的适应性可以极大地扩展语音生成模型的潜力。尽管这些当前的生成模型取得了令人惊叹的成就,但它们仍然存在一些限制,特别是在处理包括转换输入语音的多样化音频文本生成任务时。 例如,当前的语音编辑算法仅限于处理干净的信号,并且无法在保持背景噪声的同时改变说话内容。另外,讨论的方法通过要求噪声信号被干净的语音片段包围以完成降噪,从而对其实际应用性产生了重大限制。目标说话者提取是一个在处理不干净语音时特别有帮助的任务。目标说话者提取是从包含多个说话者的语音混合物中去除目标说话者的声音的过程。您可以通过播放他们的一个小语音片段来指定您想要的说话者。正如前面提到的,尽管具有潜在重要性,但当前一代的生成语音模型无法处理这个任务。 在传统的语音增强任务(如降噪和目标说话者提取)的可靠信号恢复中,回归模型在以往的方法中一直被使用。然而,这些早期的技术有时需要为每个任务使用不同的专家模型,这在考虑到可能出现的各种声学干扰时并不理想。除了侧重于某些语音改进任务的小型研究之外,还有很多研究需要在使用参考转录产生可理解语音的完整音频文本生成模型上进行。在所述因素和其他学科中取得的成功先例的背景下,集成生成和转换能力的音频文本生成语音模型的发展具有重要的研究意义。 图1:SpeechX的整体布局。SpeechX使用经过训练的文本和声学令牌流的神经编解码语言模型,执行各种基于音频文本的语音生成任务,如降噪、语音去除、目标说话者提取、零样本TTS、干净语音编辑和噪声语音编辑。对于某些任务,不需要文本输入。 这些模型具有处理各种语音生成任务的广泛能力。它们表明这些模型应包括以下关键特征: • 多功能性:统一的音频文本生成语音模型必须能够执行从音频和文本输入中生成语音的各种任务,类似于其他机器学习领域中产生的统一或基础模型。这些任务不仅包括零样本TTS,还应包括许多类型的语音改变,例如语音增强和语音编辑。 • 容忍度:由于统一模型可能在声学困难的环境中使用,它们必须对各种声学扭曲表现出容忍度。由于这些模型提供可靠的性能,它们可以在常见的背景噪声存在的现实情况下具有实用性。 • 可扩展性:统一模型必须使用灵活的架构,以支持平滑的任务扩展。一种方法是为新组件提供空间,例如额外的模块或输入标记。由于这种灵活性,模型将能够更好地适应新的语音生成任务。微软公司的研究人员在本文中介绍了一种灵活的语音生成模型来实现这个目标。它能够执行多个任务,如零-shot TTS、使用可选的转录输入进行噪声抑制、语音去除、使用可选的转录输入进行目标说话人提取,以及在安静和嘈杂的声学环境中进行语音编辑(图1)。他们将SpeechX1指定为推荐模型。 与VALL-E一样,SpeechX采用语言建模方法,根据文本和声学输入生成神经编解码模型的代码,或声学标记。为了实现处理多样化任务的能力,他们在多任务学习设置中加入了额外的标记,这些标记共同指定要执行的任务。实验结果使用来自LibriLight的60K小时语音数据作为训练集,证明了SpeechX的有效性,在所有上述任务中展示了与专家模型相媲美或更优越的性能。值得注意的是,SpeechX展示了保留语音编辑期间的背景声音以及利用参考转录进行噪声抑制和目标说话人提取等新颖或扩展的能力。展示他们提出的SpeechX模型能力的音频样本可在https://aka.ms/speechx获取。

Leave a Comment

见面CipherChat 一个人工智能框架,系统地检验安全对齐性对非自然语言的普遍适用性-特别是密码

人工智能(AI)系统在引入大型语言模型(LLM)后取得了显著的进展。由OpenAI发布的ChatGPT、Google发布的Bard和Llama-2等领先的LLM在进行创新应用方面展示了卓越的能力,包括帮助工具使用和增强人类评估,以及模拟人类的互动行为。这些LLM的广泛部署得益于它们的非凡能力,但这也带来了确保其响应的安全性和可靠性的重大挑战。 在非自然语言,特别是密码方面,最近团队的一项研究引入了几个重要的贡献,推动了对LLM的理解和应用的进一步发展。这些创新旨在提高LLM在特定语言环境下交互的可靠性和安全性。 该团队推出了CipherChat,这是一个专门创建的框架,旨在评估从自然语言领域到非自然语言领域的安全对齐方法的适用性。在CipherChat中,人类通过基于密码的提示、详细的系统角色分配和简洁的加密演示与LLM进行交互。这种架构确保了对LLM对密码的理解、对对话的参与以及对不适当内容的敏感性进行全面的检查。 这项研究强调了在处理非自然语言(如密码)时,即使是LLM也需要创建安全对齐方法,以成功匹配底层LLM的能力的重要性。虽然LLM在理解和产生人类语言方面表现出非凡的技能,但研究表明它们也展示了在理解非自然语言方面的意外能力。这些信息突显了开发涵盖这些非传统沟通形式以及传统语言学范畴内的安全规定的重要性。 使用各种现实人类密码对现代LLM(如ChatGPT和GPT-4)进行了一系列实验,以评估CipherChat的表现。这些评估涵盖了11个不同的安全主题,并提供中英文版本。研究结果指出了一个令人震惊的模式,即某些密码能够成功绕过GPT-4的安全对齐程序,在一些安全领域几乎100%的成功率。这一实证结果强调了为非自然语言(如密码)创建定制的安全对齐机制以确保LLM在各种语言环境中的回答的稳健性和可靠性的紧迫性。 该团队表示,该研究揭示了LLM内存在秘密密码的现象。与其他语言模型中观察到的秘密语言概念相类似,该团队假设LLM可能具有解密某些编码输入的潜在能力,从而暗示了一种独特的与密码相关的能力的存在。 基于这一观察,引入了一种名为SelfCipher的独特有效的框架,它仅依靠角色扮演场景和少量自然语言演示来调用和激活LLM内部的潜在秘密密码能力。SelfCipher的有效性展示了利用这些隐藏的能力来增强LLM在解密编码输入和生成有意义的回应方面的潜力。

Leave a Comment

如何在没有GPT4数据的情况下对代码LLM进行指令调整? 遇见OctoPack:一组用于指令调整代码大语言模型的AI模型

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/Screenshot-2023-08-17-at-2.47.58-AM-1024×671.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/Screenshot-2023-08-17-at-2.47.58-AM-150×150.png”/><p>已经证明,通过指令(指令调整)提供的各种语言任务的微调可以提高大型语言模型(LLM)的可用性和整体性能。通过视觉、听觉和多语言数据训练的模型都在指令调整范式中表现良好。 <p>研究人员通过教授研究人员如何编码来教授代码学习机器。间接指导代码LLM通过代码注释生成所需的代码是可能的,但这个过程是脆弱的,并且在期望的结果是自然语言时会失败。通过明确的指导调整可以提高代码LLM的可操控性,并拓宽其适用范围。 <p>研究人员更倾向于使用开源模型来生成合成数据,并避免使用限制性许可的数据。他们比较了四个常见的代码指令数据库: <ul> <li>xP3x,它汇编了广泛使用的代码基准的结果</li> <li>松散的代码LLM使学者能够生成独立的数据。</li> <li>OASST主要是一个具有最少编码示例的语言信息库。</li> <li>全新的4TB Git提交宝库,被称为COMMITPACK。</li> </ul><p><strong>研究人员的贡献</strong></p><ul> <li>对于预训练,您可以访问350种不同编程语言下以宽松许可证发布的4TB代码提交;调整使您可以访问包含高质量代码指令的COMMITPACK的筛选变体。</li> <li>六种编程语言(Python、JavaScript、Java、Go、C++和Rust)和三种场景(代码修复、代码解释和代码合成)的代码LLM泛化基准(HUMANEVALPACK)。</li> <li>最宽松的代码LLM是OCTOCODER和OCTOGEEX。 </li> </ul><p>研究人员使用GitHub提交的操作转储作为数据集的基础。为了确保提交消息非常具体,并避免处理许多文件带来的额外复杂性,他们使用了多个质量过滤器,过滤了商业友好的许可证,并删除了影响多个文件的所有提交。在提交之前和之后使用过滤信息提取受影响的GitHub源代码文件。 <p>对于需要自然语言(NL)响应的任务,指令调整LLM的输入是一个带有可选NL上下文的NL指令。当使用代码数据进行调整指令时,代码可以仅包含在输入中,仅包含在输出中,或同时包含在输入和输出中,与NL指令一起。尽管大多数现有基准重点关注代码合成变体,但客户可能希望在所有三种情况下使用模型。因此,六种语言的三个输入输出排列现在包含在代码合成基准HumanEval中。 <p>在所有三种评估情况下,OCTOCODER在所有其他宽松模型中表现出显著的优势。OCTOGEEX是经过基准测试的模型中参数最少的,仅有60亿个,但在与其他宽松代码LLM进行比较时仍然表现出最佳结果。与其他模型相比,GPT-4具有最高的性能。尽管它可能是较其他模型更大的模型,但GPT-4是闭源的。 <p>可以在https://github.com/bigcode-project/octopack找到所需的所有内容,包括代码、模型和数据。  <p>总之,大型语言模型(LLMs)通过在指令上进行微调,可以在各种自然语言任务上表现更好。研究人员使用编码来对人类指导进行微调,利用Git提交的固有结构将代码更改与人类指导相匹配。350种不同语言的4TB Git提交被编译到COMMITPACK中。对于具有16B参数的StarCoder模型,他们将COMMITPACK与其他自然和合成代码指令进行了比较。在HumanEval Python测试中,他们在没有训练OpenAI输出的模型中达到了最先进的性能。此外,他们还提供了HUMANEVALPACK,它为六种额外的编程语言(Python、JavaScript、Java、Go、C++和Rust)和三个新的编码任务(代码修复、代码解释和代码合成)添加了支持,以扩展HumanEval基准的功能。模型OCTOCODER和OCTOGEEX在HUMANEVALPACK中的所有可允许模型中都表现出了COMMITPACK的优势。</p>

Leave a Comment

这项来自UCLA的AI研究表明,大型语言模型(如GPT-3)已经获得了一种新兴的能力,可以找到广泛范围的类比问题的零射击解决方案

类比推理是人类智能和独创性的基石。当面对一个陌生的挑战时,人们经常通过系统地将其与一个更熟悉的场景进行比较来找出可行的解决方案。这种方法在人类的思维中扮演着重要的角色,涵盖了从解决日常问题到培养创造性概念和推动科学发现边界的各种活动。 随着深度学习和大型语言模型(LLMs)的进步,人们对LLMs进行了广泛的类比推理测试和研究。先进的语言模型具有独立推理和抽象模式识别的能力,成为人类智能的基本原则。 由加州大学洛杉矶分校的研究团队进行的一项研究揭示了LLMs的真正能力。这项研究因其有影响力的发现而获得了显着的认可。这些发现被收录在最新一期的《自然人类行为》杂志中,文章标题为“高级语言模型中的类比推理的出现”。该研究表明,大型语言模型(LLMs)能够像人类一样思考,而不是基于统计数据来模仿我们的思维。 该研究对人类推理者和强大的语言模型(text-davinci-003,即GPT-3的一个版本)在各种类比任务中进行了对比评估。 研究人员通过不预先训练的方式,对语言模型GPT-3进行了各种类比任务的检验,并与人类的回答进行了直接比较。这些任务涉及了一个独特的基于文本的矩阵推理挑战,从雷文标准渐进矩阵(SPM)的规则结构中汲取灵感。此外,他们还进行了一个视觉类比任务。 模型的起点是在一个海量的基于网络的真实语言数据集上进行训练的基础版本,总共超过4000亿个标记。这个训练过程是通过下一个标记预测目标来引导的,模型学会了在给定的文本序列中预测最有可能的下一个标记。 这个评估包括四个不同的任务类别,每个任务类别都经过策略性的设计,以探索类比推理的各个方面: 基于文本的矩阵推理挑战 字母串类比 四项词语类比 故事类比 在这些领域中,他们直接比较了模型的表现与人类的表现,研究了整体效果和错误模式,类似于人类进行类比推理的方式。 GPT-3在把握抽象模式方面表现出色,往往在各种情景下与人类表现相当甚至更好。GPT-4的早期试验似乎显示出更有希望的结果。从已经观察到的情况来看,像GPT-3这样的大型语言模型似乎有一种自发地解决各种类比难题的能力。 此外,他们发现text-davinci-003在类比任务中表现出色。有趣的是,早期的模型版本在某些任务场景中也表现出色,暗示了一些因素的融合增强了text-davinci-003在类比推理方面的能力。 GPT-3在处理字母串类比、四项词语类比以及在故事中发现类比的能力方面展示了一些令人印象深刻的技能,而没有进行预先训练。这些发现有助于扩大对这些先进语言模型能力的认识,暗示着更先进的模型已经具备了通过类比进行推理的内置能力。

Leave a Comment