大型语言模型应用程序受到了广泛关注。凭借其惊人的能力,它们变得越来越复杂。通过结合工具使用跟踪和检索增强等功能,这些模型在人工智能社区中引起了很多关注。现有的构建此类应用程序的框架采用了一种自以为是的方法,指导开发人员如何格式化其提示,并对自定义和可重复性施加了一定的限制。 为了解决这些问题,宾夕法尼亚大学的研究团队最近推出了Kani,一种轻量级、可扩展且与模型无关的开源框架,专门用于构建语言模型应用程序。通过支持聊天交互的核心元素,Kani旨在使开发人员能够添加各种复杂的功能。模型交互、聊天管理和强大的函数调用是其中一些关键要素。 开发人员可以利用Kani的构建模块创建语言模型应用程序,而不受预定义结构或限制的限制,因为Kani以其适应性和可定制性而脱颖而出。所有Kani的基本功能都被设计为易于修改,并且研究团队还提供了广泛的文档。这使得开发人员可以根据自己的独特需求和要求修改框架的功能。 Kani是一种对学者、业余爱好者和商业人士都有用的工具。为了提高他们工作的可重复性,Kani帮助研究人员创建语言模型应用程序,同时提供了精细的控制。即使使用GPT-4或其他复杂模型,用户也可以使用Kani仅几行代码快速开始设计应用程序。Kani的灵活性和耐用性对于行业工作者尤其有利,特别是在聊天管理和函数管理等领域。 Kani需要Python 3.10+,简化了语言模型的安装和查询。通过pip安装,它提供了核心依赖项和可选的附加功能,如OpenAI引擎。Kani框架中的基本处理单元称为“Kani”。在使用Kani构建应用程序时,用户将使用和操作各种Kani对象,包括三个基本组件:推理引擎、聊天历史和函数上下文。 通过推理引擎,Kani对象与语言模型进行通信。在不更改应用程序代码的情况下,这种交互使开发人员能够轻松地在不同模型之间切换。Kani跟踪令牌总数和主题切换。它确保对话的上下文保持在模型的范围内,避免过度。最后,语言模型可以通过Kani访问可调用的函数。它验证函数调用,运行适当的代码,然后将结果发送回推理引擎。 总之,Kani被提出作为语言模型应用程序开发者所面临问题的解决方案。它允许定制、灵活性和使用开源方法创建令人难以置信的应用程序,使开发人员能够构建功能丰富的应用程序,并通过提供聊天交互的基本构建模块来保持控制和互操作性。
Leave a CommentTag: Large Language Model
基于Transformer构建的大型语言模型(LLM),包括ChatGPT和GPT-4,展示了惊人的自然语言处理能力。Transformer-based NLP模型的创建引发了在计算机视觉和其他模态中设计和使用基于Transformer的模型的进展。自2022年11月以来,受到ChatGPT多样化特性和广泛赞誉的启发,LLM已经在临床研究、药学、放射学、阿尔茨海默病、农业和脑科学研究中得到应用,然而,它们在专业领域如医疗保健中的应用尚未广泛采用。首先,由于隐私法律的限制,医院无法将数据交换或上传到商业模型如ChatGPT或GPT-4,因此,本地化的大型语言模型对于现实世界的医疗保健至关重要。 需要在临床上有意义的领域数据上得到充分训练的模型,因为在特定领域如放射学这样的领域中,经过ChatGPT、GPT-4和PaLM 2等广域领域训练的LLM需要更多的医学专业知识。此外,虽然像ChatGPT这样的模型的Radiology-Llama2能够准确模仿放射学家的语言模式,但它们提供的回复更像维基百科,而不是实际放射学家使用的清晰简明的语言,这加快了信息传递的速度。最后,他们的研究为根据每位医生的偏好定制放射学助手铺平了道路。 通过指令调整来为放射学提供放射学印象的Radiology-Llama2 LLM填补了文献中的这一空白。研究表明,它在生成的印象的连贯性、简洁性和临床实用性方面优于标准LLM。 • 最先进的性能:在MIMIC-CXR和OpenI数据集上,超过所有其他语言模型以生成临床印象,创立了新的标准。 • 灵活性和动态性:与基于BERT的竞争对手不同,放射学-Llama2不受特定输入结构的限制,可以适应更广泛的输入和各种放射学任务,包括复杂的推理。 • 具有对话能力的临床可用性:生成式LLM具有内置的对话能力,可以回应查询并提供类似人类的上下文信息。这提高了诊断和报告的能力,使Radiology-Llama2对医学从业者在临床背景下非常有帮助。 图1显示了Radiology-Llama2的整体结构 当适当构建时,本地化的LLM可以革命性地改变放射学,就像Radiology-Llama2所展示的那样。 如果受到适当的监管,它对于临床决策辅助和其他用途具有很大的潜力。这项研究的结果为其他医学专业领域中的专门LLM打开了大门。总之,Radiology-Llama2是在医学中使用LLM的重要进展。这样的专门LLM可以通过对模型构建和评估的持续研究促进医疗人工智能的进步。
Leave a Comment大型语言模型(LLM)的出现引起了许多领域的关注,因为几个重要因素同时出现。这些因素包括可获得的大量数据、计算机性能的提升以及神经网络设计的突破。像GPT-4、PaLM和LLaMA这样的著名模型表明,它们能够非常好地完成许多不同的任务。这些任务通常使用的方法包括给它们提示、微调它们的能力以及从人类那里获得反馈来帮助它们学习和改进。天文学学科既是一个独特的挑战,也是LLMs应用的肥沃土壤。 在上面的图片中,我们可以注意到每个模型都以相同的短文本片段为提示,在各自的框中进行了突出显示。GPT-4往往产生更加通用的陈述,缺乏领域特定的细微差别。AstroLLaMA展示了最强大的完成能力,提供了更相关的概念和更深入的洞察,特别适用于天文学领域,因此在性能上显著优于LLaMA-2和GPT-4。 然而,AstroLLaMA确实存在一些需要认识到的局限性。一个重要的局限性是模型在天文学特定领域的知识缺乏,AstroLLaMA从Gaia-ESO数据中估计潜在星体候选者的能力明显不准确。为了解决这些问题,研究人员目前正在努力增强AstroLLaMA的训练数据集。研究人员计划不仅使用摘要,还将纳入现有天文学文章的完整LaTeX源代码。这样的扩展将大大增加模型能够学习的令牌数量。 AstroLLaMA是专门为天文学设计的令人印象深刻的大型语言模型(LLM)的原型。它展示了非凡的上下文感知能力,即使它的参数大大少于GPT-4,也能胜过GPT-4。这一进展不仅为回答问题、总结科学内容和生成假设等各种任务的性能提供了机会,而且对于多模型模型也具有重要意义。
Leave a CommentStability AI推出了一项突破性技术——稳定音频(Stable Audio),这标志着音频生成迈出了重要的一步。这项创新解决了从简单文本提示中创建自定义音频片段的挑战。虽然Stability AI以其文本到图像生成技术——稳定扩散(Stable Diffusion)而闻名,但现在它已经将自己的专业知识扩展到了音乐和音频领域。这一发展是在他们成功进军图像合成领域——通过引入Stable Diffusion的SDXL基础模型之后。 到目前为止,通过“符号生成”技术生成基本音频轨道是可能的,通常涉及MIDI文件。然而,稳定音频通过使用户能够创作全新的音乐作品而超越了这一点,摆脱了通常与MIDI和符号生成相关的重复音符的限制。这一成就归功于该模型与原始音频样本的直接交互,从而产生出更优质的输出。该模型的训练涵盖了来自AudioSparks库的80万多首经过许可的音乐作品,这为其出色的性能做出了贡献。这个丰富的数据集确保了高质量的音频,并提供了全面的元数据,这是基于文本的模型的一个关键因素。 与可以模仿特定艺术家风格的图像生成模型不同,稳定音频并不试图模仿像披头士乐队这样的标志性乐队。这个有意的选择源于对音乐家追求在没有严格风格限制的情况下踏上自己的创作之旅的理解。相反,稳定音频赋予用户探索他们独特音乐表达的能力。 稳定音频模型是一个拥有大约12亿参数的扩散模型,与图像生成的原始稳定扩散模型相媲美。为了生成音频,文本提示是稳定AI使用对比语言音频预训练(CLAP)技术精心制作和训练的。为了帮助用户制作有效的提示,Stability AI将与稳定音频发布同时发布一个提示指南。 稳定音频将通过免费版本和每月12美元的专业计划提供。免费版本每月可生成最多20个音频片段,每个片段长达20秒。相比之下,专业版本提高了这些限制,使用户可以生成500个片段,并将音轨时长延长到90秒。 总之,Stability AI发布的稳定音频标志着音频生成技术的新时代。该公司通过利用先进的AI技术,为将文本提示转化为原创音频片段提供了一个无缝的平台。这一创新拓展了创作表达的视野,并展示了AI驱动的音乐和音频制作解决方案的潜力。稳定音频以其可接受的价格层次,将成为有抱负和专业音频创作者的宝贵工具。
Leave a Comment在不断发展的自然语言处理(NLP)领域中,机器翻译和语言模型的发展主要受到英语等语种的大量训练数据集的影响。然而,研究人员和实践者面临的一个重要挑战是需要更多多样化且高质量的训练数据,以应对不常用语言的需求。这一限制制约了全球各种语言社群NLP技术的进步。为了解决这个问题,一支专门的研究团队着手创建解决方案,最终诞生了MADLAD-400。 要理解MADLAD-400的重要性,我们必须首先审视多语言NLP数据集的当前情况。长期以来,研究人员一直依赖于从许多来源获取的网络抓取数据来训练机器翻译和语言模型。虽然这种方法对于拥有丰富在线内容的语言取得了显著成果,但在处理不常用语言时效果不佳。 MADLAD-400的研究团队认识到了这种传统方法的局限性。他们了解到网络抓取数据往往伴随着一系列挑战。噪音、不准确性和质量不一的内容只是在依赖网络数据时出现的一些问题。此外,当处理数字存在性有限的语言时,这些问题会更加严重。 针对这些挑战,研究团队着手创建一个跨多种语言范围且符合最高质量和道德内容标准的多语言数据集。他们的努力成果就是MADLAD-400,这个数据集承诺重新定义我们为多语言应用训练和开发NLP模型的方式。 MADLAD-400展示了研究团队的专注和细致精神。这个数据集的与众不同之处在于它经历了严格的审计过程。与许多多语言数据集不同,MADLAD-400并不仅仅依赖于自动化的网络抓取。相反,它涉及对419种语言的广泛手动内容审计。 审计过程可谓艰巨。它需要熟练掌握各种语言的人才,因为研究团队需要仔细检查和评估跨语言边界的数据质量。这种亲自动手的方法确保了数据集符合最高质量标准。 研究人员还详细记录了他们的审计过程。这种透明度对于数据集使用者来说是无价的,它提供了关于确保数据质量所采取的步骤的见解。这份文档不仅是指南,也是科学研究中可重复性的基础原则。 除了手动审计外,研究团队还开发了过滤器和检查机制,以进一步提高数据质量。他们识别和解决了版权材料、仇恨言论和个人信息等问题。这种主动的数据清理方法最大程度地减少了不良内容进入数据集的风险,确保研究人员能够自信地工作。 此外,MADLAD-400还体现了研究团队对包容性的承诺。它涵盖了多种语言,为经常在NLP研究中被忽视的语言社群发声。MADLAD-400打开了开发更具包容性和公平性的NLP技术的大门,包括了主流语言之外的语言。 虽然MADLAD-400的创建和策划本身就是令人印象深刻的成就,但这个数据集的真正价值在于它的实际应用。研究团队进行了大量实验,展示了MADLAD-400在训练大规模机器翻译模型方面的有效性。 结果明显。MADLAD-400显著提高了广泛语言范围内的翻译质量,展示了其推动机器翻译领域发展的潜力。该数据集为跨越语言障碍、促进语言交流提供了坚实的基础。 总的来说,MADLAD-400是多语言自然语言处理领域的一个重要成就。通过精心策划和包容性承诺,这个数据集解决了紧迫的挑战,赋予了研究人员和实践者接纳语言多样性的能力。它在追求更具包容性的多语言NLP的征程中扮演着进步的指引,为语言技术服务于全球受众带来了希望。
Leave a Comment如今,像Hugging Face这样的平台使得从AI研究人员到机器学习经验有限的用户都能够更轻松地访问和利用预训练的大型语言模型(LLM)来为不同实体服务。当多个这样的组织或实体在共享类似的任务时,由于隐私法规的限制而无法直接交换本地数据时,联邦学习(FL)成为利用这些实体的集体数据的显著解决方案。FL还提供了强大的隐私保护,保护其模型思想的安全,并允许他们使用不同的方法创建定制模型。 在这项工作中,研究人员建立了一个全面的端到端基准测试流水线,简化了数据集预处理、执行或模拟联邦微调以及在联邦大型语言模型(LLM)微调环境中评估性能的过程,旨在为各种能力演示目的设计。 上述图片展示了FS-LLM的架构,包括三个主要模块:LLMBENCHMARKS、LLM-ALGZOO和LLM-TRAINER。团队已经开发了强大的联邦参数高效微调(PEFT)算法的实现和多功能的编程接口,以便未来的扩展,即使处理闭源LLM,也能够在联邦学习(FL)场景中有效地运行LLM,减少通信和计算开销。 他们的网站上提供了详细的教程:federatedscope.io 您可以通过FederatedScope Playground或Google Colab尝试FederatedScope。 他们的方法还结合了加速技术和资源有效的策略,以在资源约束下微调LLM,并提供灵活的可插拔子例程,用于跨学科研究,例如在个性化联邦学习设置中应用LLM。 该研究包括一系列广泛且可再现的实验证明了FS-LLM的有效性,并在联邦环境中使用最先进的参数高效微调算法建立了先进LLM的基准。根据这些实验结果的发现,我们概述了未来联邦LLM微调研究的一些有希望的方向,以推进FL和LLM社区的发展。
Leave a Comment随着人工智能领域的不断进步,其子领域,包括自然语言处理、自然语言生成、自然语言理解和计算机视觉,正变得越来越受欢迎。最近引起很多关注的大型语言模型(LLMs)被用作优化器。它们的能力被用于自然语言理解,以增强优化过程。优化在许多不同的行业和背景中具有实际意义。基于导数的优化方法在处理各种问题方面历史上表现良好。 这也带来了一些挑战,因为在实际情况下,梯度可能只有时而可用,这带来了困难的问题。为了解决这些问题,Google DeepMind的研究人员提出了一种名为OPRO(Optimisation by PROmpting)的独特方法作为解决方案。通过使用LLMs作为优化器,OPRO提供了一种简单而强大的技术。在这种情况下,主要的创新点是使用日常语言来表达优化任务,使流程更简单、更易于理解。 OPRO首先通过自然语言描述优化问题。这意味着问题是用简单的语言表达,而不是复杂的数学公式,这样更容易理解。其次,它提供了一个迭代的解决方案生成过程。LLM根据给定的自然语言提示为每个优化步骤创建新的候选解。这个提示是重要的,它包含了先前创建的解以及它们的相关值的详细信息。这些传统选项作为进一步发展的起点。 然后,更新和评估这些解,并评估它们的性能或质量。在经过检查的解后,下一个优化步骤的提示将包含这些解。随着迭代过程的进行,解逐渐改进。一些实际的例子被用来说明OPRO的有效性。首先,OPRO被用来解决两个众所周知的优化问题:线性回归问题和旅行推销员问题。这些问题是显著的,并作为评估该方法有效性的标准。OPRO展示了其识别出这些问题的优秀解的能力。 其次,它被用于提示优化。OPRO不仅仅解决特定的优化问题,还涉及到优化提示本身的问题。目标是找到能够提高任务准确性的指令。这对于涉及自然语言处理的任务尤其重要,因为提示的结构和内容对结果有很大影响。 团队表明OPRO优化的提示通常优于人类创建的提示。在一个例子中,它使Big-Bench Hard工作负载的性能提高了高达惊人的50%,在GSM8K基准测试中提高了8%。这显示了OPRO在改善优化结果方面的巨大潜力。 总之,OPRO提供了一种利用大型语言模型进行优化的革命性方法。OPRO通过用普通语言解释优化任务并反复生成和改进解来展示其在解决常见优化问题和改善提示方面的效率。结果表明,与传统方法相比,尤其是在梯度信息不可用或难以收集的情况下,性能提升显著。
Leave a CommentT2I-Adapter是即插即用的工具,可以增强文本到图像模型,而无需进行完整的重新训练,使其比ControlNet等其他替代方案更高效。它们将内部知识与外部信号对齐,实现精确的图像编辑。与要求大量计算资源并减慢图像生成速度的ControlNet不同,T2I-Adapter仅在去噪过程中运行一次,提供更快更高效的解决方案。 模型参数和存储需求清楚地展示了这一优势。例如,ControlNet-SDXL拥有1251亿个参数和2.5 GB的fp16格式存储空间。相比之下,T2I-Adapter-SDXL将参数(7900万)和存储空间(158 MB)大幅减少,分别减少了93.69%和94%。 https://huggingface.co/blog/t2i-sdxl-adapters Diffusers团队与T2I-Adapter研究人员的最新合作为Stable Diffusion XL(SDXL)引入了对T2I-Adapter的支持。这次合作主要集中在从头开始训练SDXL上的T2I-Adapter,并在包括素描、边缘检测、线稿、深度和openpose在内的各种条件因素下取得了令人满意的结果。 训练T2I-Adapter-SDXL使用了来自LAION-Aesthetics V2的300万个高分辨率图像-文本对,训练设置规定了20000-35000步、批量大小为128(数据并行,单个GPU批量大小为16)、常量学习率为1e-5以及混合精度(fp16)。这些设置在速度、内存效率和图像质量之间取得了平衡,使其适用于社区使用。 在Diffusers框架中使用T2I-Adapter-SDXL非常简单,只需按照一系列步骤安装所需的依赖包,包括diffusers、controlnet_aux、transformers和accelerate。随后,使用T2I-Adapter-SDXL进行图像生成主要包括两个步骤:以适当的控制格式准备条件图像,并将这些图像和提示传递给StableDiffusionXLAdapterPipeline。 在实际示例中,加载Lineart Adapter,并对输入图像进行线稿检测。随后,使用定义的提示和参数启动图像生成,允许用户通过”adapter_conditioning_scale”和”adapter_conditioning_factor”等参数来控制应用的条件程度。 总之,T2I-Adapter为ControlNet提供了引人注目的替代方案,解决了微调预训练文本到图像模型的计算挑战。它们体积小、操作高效、易于集成,是在各种条件下自定义和控制图像生成的有价值工具,为人工智能的创造力和创新提供了支持。
Leave a Comment最近流行起来的Transformer设计已经成为自然语言处理(NLP)活动,特别是机器翻译(MT)的标准方法。这种架构展示了令人印象深刻的扩展性,这意味着增加更多的模型参数会在各种NLP任务上获得更好的性能。许多研究和调查已经验证了这一观察结果。虽然Transformer在可扩展性方面表现出色,但也有一个并行的运动,旨在使这些模型在实际世界中更加高效和可部署。这涉及到处理延迟、内存使用和磁盘空间等问题。 研究人员一直在积极研究解决这些问题的方法,包括组件裁剪、参数共享和降维。广泛使用的Transformer架构包括许多重要部分,其中最重要的两个部分是前馈网络(FFN)和注意力。 注意力 – 注意机制允许模型在分析每个单词时捕捉句子中的关系和依赖,而不考虑它们的位置。它作为一种机制,帮助模型确定输入文本的哪些部分与其当前正在分析的每个单词最相关。理解短语中的单词之间的上下文和连接取决于这一点。 前馈网络(FFN):FFN负责对每个输入标记进行非线性转换。通过对每个单词的表示进行特定的数学运算,它为模型对每个单词的理解增加了复杂性和表达能力。 在最近的研究中,一组研究人员专注于研究Transformer架构中的FFN的作用。他们发现FFN在作为模型的一个大组件时存在很高的冗余,并消耗大量的参数。他们发现,即使显著减少了模型的参数数量,也不会对准确性造成重大影响。他们通过从解码器层中删除FFN,而是在编码器层之间使用一个共享的FFN来实现这一点。 解码器层:标准Transformer模型中的每个编码器和解码器都有自己的FFN。研究人员删除了解码器层中的FFN。 编码器层:他们使用一个单独的FFN,该FFN由所有编码器层共享,而不是为每个编码器层提供单独的FFN。 研究人员分享了采用这种方法带来的好处,如下所示。 参数减少:通过删除和共享FFN组件,他们大大减少了模型中的参数数量。 尽管删除了大量参数,但模型的准确性仅略有降低。这表明编码器的多个FFN和解码器的FFN存在一定程度的功能冗余。 缩小规模:他们扩大了共享FFN的隐藏维度,以恢复架构的先前尺寸,同时保持或甚至提高模型的性能。与之前的大规模Transformer模型相比,这在准确性和模型处理速度(延迟)方面取得了显著的改进。 总之,这项研究表明,在Transformer设计中,特别是在解码器层中,前馈网络可以简化并共享,而不会对模型性能造成重大影响。这不仅减轻了模型的计算负载,还提高了其在各种NLP应用中的效果和适用性。
Leave a Comment远程医疗的兴起改变了医疗的提供方式,打开了专业网络,降低了价格,并允许进行远程医疗咨询。此外,智能医疗系统通过添加医疗信息提取、药物推荐、自动诊断和健康问题解答等功能,改进了在线医疗服务。虽然在构建智能医疗系统方面取得了一些进展,但早期研究集中在特定问题或疾病上,具有狭窄的应用范围,导致实验性进展与实际应用之间存在差距。为了弥合这一差距,需要提供更广泛的医疗场景的完整解决方案,并为消费者提供最高品质的端到端对话式医疗服务。 近期,大型语言模型展示了与人类进行有意义对话和遵循指令的惊人能力。这些进展为开发医疗咨询系统创造了新的机会。然而,涉及医疗咨询的情况通常更为复杂,超出了通用领域的语言模型的范围。图1展示了一个真实世界医疗咨询的示例。它展示了两个特点。首先,需要全面可信的医疗知识来理解对话并在每个阶段做出适当回应。通用领域的语言模型提供与特定情况无关的输出,存在主要的幻觉问题。 其次,通常需要进行多轮对话才能获得足够了解患者情况以提供医疗咨询的知识,并且每个对话轮次都有一个明确的目标。然而,通用领域的语言模型在用户健康状况的具体问题上往往具有有限的多轮查询能力,并且是单轮代理。基于这两点发现,复旦大学、西北工业大学和多伦多大学的研究人员认为,医疗语言模型应该对全面可信的医疗知识进行编码,同时符合真实世界医疗对话的分布特征。受到指令调整的成功启发,他们研究如何构建高质量的监督微调数据集,用于训练医疗语言模型,并包括医学知识和咨询行为模式。 在实际应用中,他们使用三种不同的方法创建样本: • 基于医疗知识图的样本开发。根据从真实世界咨询数据集中收集的患者查询分布,他们使用以科室为导向的方法从医疗知识网络中选择知识三元组。然后使用GPT-3.5为每个三元组创建问答对。结果得到了50k个样本。 • 重建真实对话。为了改善语言模型,从医疗论坛收集的咨询记录是合适的数据源。这些文档中使用的语言是非正式的,术语的呈现方式不一致,各种医疗从业者的表达风格各异。因此,他们使用GPT-3.5使用实际案例重新创建对话。结果得到了420k个样本。 • 样本收集后,进行人工选择。他们从涵盖各种咨询设置的真实医疗对话记录中手动选择了一小组条目,并重新编写了某些示例以符合人类意图。他们还确保每个对话的整体质量在人工引导重建后得到保证。结果得到了2k个样本。然后,使用新创建的SFT数据集在拥有13B个参数的通用领域中文语言模型的基础上,通过两阶段训练过程训练DISC-MedLLM。他们从两个角度评估模型的性能,以确定其在多轮对话中提供系统咨询和在单轮对话中提供准确回复的能力。 图1:患者和真实医生之间对话的示例。医生回应中提到的医学实体由蓝色高亮文本标示。每一轮,医生的行为显示特定的意图:(1)在第一轮,进行更多的研究以收集有助于确定潜在情景的数据;(2)在第二轮,进行初步诊断并提出明确建议;(3)在第三轮,根据医疗状况提供具体的治疗选择。 他们从三个公共医学数据集中收集了一系列多项选择题,并使用该题库对单轮对话进行了模型准确性评估。对于多轮对话评估,他们首先使用GPT-3.5创建了一小组优秀咨询案例,模拟患者与模型进行对话。然后使用GPT-4评估模型的主动性、准确性、有用性和语言质量。实验结果显示,尽管不及GPT-3.5,但DISCMedLLM在参数相同的情况下平均超过了医学大规模华佗GPT 10%。 此外,在模拟医学咨询环境中,DISC-MedLLM的整体表现优于基准模型,如GPT-3.5、华佗GPT和扁鹊。DISC-MedLLM在涉及医学部门和患者意图的案例中表现出色,并超过了其他中文医学LLM。
Leave a Comment大型语言模型(LLMs)以很大程度上利用了自然语言处理的能力。从语言生成和推理到阅读理解,LLMs都能胜任。这些模型在帮助医生工作方面的潜力引起了多个领域,包括医疗保健的关注。最近的LLMs,包括Med-PaLM和GPT-4,在涉及医学问答的任务中表现出了他们的熟练程度,特别是涉及医学数据库和考试的任务。 一个常见的限制是难以确定LLMs在受控基准测试中出色的表现是否能够转化到实际的临床环境中。临床医生在医疗行业中进行各种与信息相关的工作,这些工作经常需要来自电子健康记录(EHRs)的复杂、非结构化的数据。医疗从业者所面对的复杂性和复杂性在当前可用的EHR数据问答数据集中没有很好地体现出来。当医生依靠LLMs来帮助他们时,他们缺乏评估这些模型能否提供准确和具有上下文意识的回复所需的细微差别。 为了克服这些限制,一组研究人员开发了MedAlign,这是一个基准数据集,包括15名从事7个不同医学专业的临床医生提交的共983个问题和指令。MedAlign专注于基于EHR的指令-回答配对,而不仅仅是问题-回答配对,这使其与其他数据集不同。该团队为其中303个指令提供了由临床医生撰写的参考回答,并将其与EHR数据相链接,以提供提示的上下文和基础。每个临床医生对这303个指令上六种不同LLMs生成的回答进行了评估和排名,以确认数据集的可靠性和质量。 临床医生还提供了他们自己的黄金标准解决方案。通过收集包括临床医生提供的指令、LLM生成回答的专家评估以及相关的EHR上下文的数据集,MedAlign开创了一项开拓性的工作。这个数据集与其他数据集的不同之处在于它为评估LLMs在临床情况下的工作效果提供了一个有用的工具。 第二个贡献展示了一种自动化的、检索式的方法,用于将相关的患者电子健康记录与临床指令匹配。为了实现这一点,该团队创建了一个程序,使向临床医生索取指令更加高效和可扩展。他们可以通过隔离这种指令征集方法从更大、更多样化的临床医生群体中寻求提交。 他们甚至评估了他们的自动化方法与相关EHR匹配的效果。研究结果显示,与指令与EHR的随机配对相比,这种自动匹配过程在74%的情况下成功提供了相关的配对。这一结果突显了自动化提高连接临床数据的效果和准确性的机会。 最后一个贡献考察了自动化自然语言生成(NLG)参数与临床医生对LLM生成回答的评级之间的关系。这项研究旨在确定是否可以使用可扩展的自动化指标来对LLM回答进行排序,以取代专业临床医生的评估。该团队旨在通过衡量人类专家排序与自动化标准之间的一致程度,减少医生在未来研究中手动识别和评估LLM回答的需求。通过使审查过程更加高效且不那么依赖人力资源,为医疗应用开发和改进LLMs的进程可能会加快。
Leave a Comment语音比写作传递更多信息,因为它携带了语义和声音等语言信息。此外,与AI进行交流时,说话是一种更实用和有机的方式。因此,在创建通用助手时,遵循语音和语言的指导原则至关重要。然而,大多数大型语言模型只接受文本输入,限制了其潜力。尽管多模态视觉和语言模型在通用人工智能(AGI)方面取得了重大进展,但人类通过输入文本指令来输入任务仍然很繁琐。 级联范式方法使用自动语音识别(ASR)模型将语音输入转换为文本输入,然后模型可以利用该文本输入来处理任务。从语音到文本的模态转换仍然会导致信息消耗,并可能导入ASR系统错误。最近,具有处理和生成语音和文本的大型语言模型的语言语音多模态模型已能够理解和制作多模态信息。语音信号被分成不同的标记,并扩展到LLM的词汇中。从这个意义上说,LLM需要大量的多模态数据和强大的计算资源来重新训练。 本研究的来自LinkSoul.AI、北京大学和01.ai的作者建议LLaSM,这是一个具有跨模态对话能力的大型语音和语言模型,可以理解和遵守口头指令。他们使用训练有素的语音模态编码器和LLM,就像LLaVA一样,这使得LLaSM更加资源友好。他们专门使用Whisper作为音频编码器来整合语音信号。将大型语言模型的输入文本嵌入与使用模态适配器的语音嵌入进行匹配。为了创建交替的序列,将语音和文本嵌入组合在一起。然后将交替的序列馈送到LLM进行监督微调。 训练过程分为两个阶段。在初始阶段,他们使用公共ASR数据集进行模态适应预训练。只有模态适配器被训练以对齐语音和文本嵌入,LLM和语音编码器已被锁定。由于在这个阶段引入了模态适配器的一小部分参数,并且大部分模型参数仍需固定,因此不需要消耗大量资源。在第二步中,使用跨模态指令数据训练模型以处理多模态指令和分析跨模态交互。在进行跨模态教育时,语言模型和模态适配器的设置正在修改,而音频编码器则被冻结。 值得注意的是,目前很少有开源的语音-文本跨模态指令遵循数据集可用。因此,他们创建并发布了LLaSM-Audio-Instructions数据集。该数据集是通过精心选择GPT4-LLM、ShareGPT和WizardLM中的对话,并使用文本到语音技术创建大量的对话音频数据而生成的。据他们所知,这是最大的中英文语音-文本跨模态指令遵循数据集,包含19.9万个对话、8万个中文音频样本和42.8万个英文音频样本。 他们的研究贡献如下: • 他们创建了一个能够理解和执行语音-语言指令的语音-语言多模态模型,为人们与人工智能进行交流提供了更实用和有机的方式。 • 他们创建并发布了LLaSM-Audio-Instructions,这是一个结合了中文和英文语音和文本的大型跨模态指令遵循数据集。 • 可以在HuggingFace在线上查看演示,并在GitHub上获取代码。
Leave a Comment人类反馈对于改进和优化机器学习模型至关重要。近年来,来自人类反馈的强化学习(RLHF)在将大型语言模型(LLMs)与人类偏好相一致方面被证明非常有效,但是收集高质量的人类偏好标签仍然是一个重大挑战。在一项研究中,Google AI的研究人员试图比较RLHF和从AI反馈中进行强化学习(RLAIF)。RLAIF是一种技术,其中偏好由预训练的LLM标记,而不是依靠人类注释者。 在这项研究中,研究人员在概括任务的背景下直接比较了RLAIF和RLHF。他们的任务是为给定文本的两个候选回答提供偏好标签,利用现成的大型语言模型(LLM)。随后,基于LLM推断得出的偏好,利用对比损失训练了一个奖励模型(RM)。最后一步是通过强化学习技术对策略模型进行微调。上面的图片展示了RLAIF(上)与RLHF(下)的示意图。 上面的图片展示了SFT、RLHF和RLAIF策略为Reddit帖子生成的示例摘要。与未能捕捉关键细节的SFT相比,RLHF和RLAIF生成了更高质量的摘要。 该研究中呈现的结果表明,当以两种不同的方式进行评估时,RLAIF的性能与RLHF相当: 首先,观察到RLAIF和RLHF策略在71%和73%的情况下都得到了人类评估者的偏好,超过了监督微调(SFT)基线。重要的是,统计分析没有显示出两种方法之间的胜率之间存在显著差异。 其次,当人类被要求直接比较RLAIF和RLHF生成的结果时,他们对两种方法表达了相同的偏好,导致两种方法的胜率均为50%。这些发现表明,RLAIF是RLHF的可行替代方案,独立于人类注释操作,并具有可扩展性。 需要注意的是,这项工作仅探讨了概括任务,对于其他任务的泛化性尚未得到解决。此外,该研究没有估计大型语言模型(LLM)推断在经济支出方面是否比人类标注具有成本效益。未来,研究人员希望探索这个领域。
Leave a Comment在语言模型研究不断发展的领域中,追求效率和可扩展性的探索引发了一项具有开创性的项目——TinyLlama。这个雄心勃勃的努力由新加坡大学的一名研究助理带头,旨在在短短90天内,在一台16个A100-40G GPU的简单配置下,对惊人的3万亿个标记进行1.1亿参数模型的预训练。这个项目的潜在影响是巨大的,因为它承诺重新定义在紧凑语言模型领域中曾经被认为是不可能的边界。 尽管像Meta的LLaMA和Llama 2这样的现有模型已经展示了在减小尺寸方面的卓越能力,TinyLlama将这个概念推向了更进一步。1.1亿参数模型仅占用550MB的RAM,这可能是对计算资源有限应用程序的一个潜在的改变者。 批评者对这样一个雄心勃勃的计划的可行性提出了疑问,特别是在考虑到Chinchilla缩放定律的情况下。这个定律认为,为了实现最佳计算,参数和训练标记的数量应该成比例缩放。然而,TinyLlama项目直接挑战了这一观点,旨在证明一个更小的模型确实可以在一个庞大的训练数据集上蓬勃发展。 Meta的Llama 2论文揭示了即使在预训练2万亿个标记后,模型也没有显示出饱和的迹象。这一观点可能鼓舞了科学家们进一步推动边界,将TinyLlama的预训练目标定为3万亿个标记。关于是否需要越来越大的模型的争论还在继续,Meta试图推翻Chinchilla缩放定律成为这一讨论的前沿。 如果成功,TinyLlama可能会为AI应用程序开启一个新时代,使强大的模型能够在单一设备上运行。然而,如果它未能达到目标,Chinchilla缩放定律可能会证明其相关性。研究人员保持实事求是的态度,强调这个努力是一个开放的试验,没有承诺或预先定义的目标,只有雄心勃勃的“1.1B on 3T”。 随着TinyLlama项目在训练阶段的进展,AI社区满怀期待地关注着。如果成功,它不仅可能挑战现有的缩放定律,还可能彻底改变高级语言模型的可访问性和效率。只有时间才能告诉我们TinyLlama是否会胜出,或者在这个雄心勃勃的实验面前,Chinchilla缩放定律是否会坚持立场。
Leave a Comment在不断发展的人工智能领域中,图像理解与文本交互之间的差距一直是一个持久的挑战。这个难题让许多人寻求创新的解决方案。虽然近年来AI社区取得了显著的进展,但仍然迫切需要多功能、开源的模型,能够理解图像并以精细的方式回答复杂的查询。 现有的解决方案确实为AI的进步铺平了道路,但它们往往在无缝地融合图像理解和文本交互方面存在不足。这些局限性推动了对更复杂模型的追求,这些模型能够应对图像文本处理的多方面需求。 阿里巴巴推出了两个开源的大视觉语言模型(LVLM)- Qwen-VL和Qwen-VL-Chat。这些AI工具已经成为理解图像和解决复杂查询的有希望的答案。 首先,Qwen-VL是这些模型中的第一个,它被设计成阿里巴巴的70亿参数模型“通译千文”的复杂后代。它展示了处理图像和文本提示的卓越能力,在制作引人入胜的图像标题和回答与各种图像相关的开放问题等任务方面表现出色。 另一方面,Qwen-VL-Chat通过应对更复杂的交互将概念推向更远。这个AI模型通过高级对齐技术赋能,展示了一系列出色的才华,从根据输入图像创作诗歌和叙述,到解决嵌入图像中的复杂数学问题。它重新定义了英语和中文中文本-图像交互的可能性。 这些模型的能力得到了令人印象深刻的指标的支持。例如,Qwen-VL在训练期间展示了处理更大图像(448×448分辨率)的能力,超过了限于较小图像(224×224分辨率)的类似模型。它还在涉及图片和语言的任务中显示出色,可以在没有先验信息的情况下描述照片,回答有关照片的问题,并检测图像中的对象。 另一方面,Qwen-VL-Chat在理解和讨论单词和图像之间关系方面胜过其他AI工具,如阿里巴巴云在基准测试中设定的。它展示了在涉及300多张照片、800个问题和27个不同类别的对话中,用中文和英文进行关于图片的对话的优秀能力。 这一发展最令人兴奋的方面也许是阿里巴巴对开源技术的承诺。该公司打算为全球社区提供这两个AI模型作为开源解决方案,使其在全球范围内免费使用。这一举措使开发人员和研究人员能够利用这些尖端能力进行AI应用,无需进行广泛的系统培训,从而降低开支并使先进的AI工具更加普及。 总之,阿里巴巴推出的Qwen-VL和Qwen-VL-Chat代表了AI领域在无缝整合图像理解和文本交互方面迈出的重要一步。这些开源模型以其令人印象深刻的能力有望重塑AI应用的格局,促进创新和全球范围内的可访问性。AI社区翘首以待这些模型的发布,AI驱动的图像-文本处理的未来看起来充满了希望和可能性。
Leave a CommentGPT3、LaMDA、PALM、BLOOM和LLaMA只是一些大型语言模型(LLMs)的例子,它们展示了存储和应用大量信息的能力。它们展示了新的技能,如上下文学习、代码创作和常识推理。最近的一个发展是训练LLMs同时处理视觉和语言数据。GPT4、Flamingo和PALI是三个著名的视觉语言模型(VLMs)的例子。它们在许多任务上建立了新的基准,包括图片标题生成、视觉问答和开放词汇识别。虽然最先进的LLMs在涉及文本信息检索的任务上表现远远优于人类,但最先进的VLMs在Infoseek、Oven和OK-VQA等视觉信息检索数据集上表现较差。 由于多种原因,当今最先进的视觉语言模型(VLMs)很难对这类查询做出令人满意的回答。首先,需要教导年轻人识别图像中的细粒度类别和细节。其次,它们的推理必须更加强大,因为它们使用的语言模型比最先进的大型语言模型(LLMs)要小。最后,与图像搜索引擎不同,它们没有将查询图像与带有不同元数据的大量图像语料库进行比对。在这项研究中,来自加州大学洛杉矶分校(UCLA)和谷歌的研究人员提供了一种新方法来克服这些障碍,通过将LLMs与三种不同类型的工具相结合,实现了在视觉信息检索任务上的最先进性能。 辅助视觉信息提取的计算机程序包括对象检测器、光学字符识别软件、图片标题生成模型和视觉质量评估软件。 发现外部世界数据和信息的在线资源 通过挖掘与视觉相关的图像的元数据,找到图像搜索中的相关结果的方法。 该方法采用由LLM驱动的规划器来决定使用哪种工具以及向其发送什么查询。此外,研究人员使用由LLM驱动的推理器来检查工具的结果并提取相关数据。 首先,LLM将查询简化为策略、程序或一组指令。之后,激活适当的API来收集数据。虽然在简单的视觉语言挑战中有所希望,但在更复杂的现实场景中,这种方法通常需要进行修订。这样的初始查询无法确定一个全面的策略。相反,它需要根据持续的数据进行持续迭代。流动决策能力是所提出策略的关键创新。由于任务的复杂性,对于需要视觉信息的问题,规划器必须进行多步骤的规划过程。规划器必须决定在每个阶段使用哪个API以及提交什么查询。它只能预测像图像搜索这样的复杂API的答案的效用,或者在调用它们后预测它们的输出。因此,研究人员选择了一种动态策略,而不是传统的方法,包括对流程阶段和API调用进行预先规划。 研究人员进行了一项用户研究,以更好地了解人们在与API交互以查找视觉信息时如何做出选择。为了使大型语言模型(LLM)能够在选择API和构建查询时做出明智的选择,他们将这些信息编制成一个系统框架。从收集到的用户数据中,系统有两种主要的受益方式。首先,他们通过推断用户动作的顺序来构建一个转换图。该图定义了状态之间的边界以及每个状态可以采取的步骤。其次,他们为规划器和推理器提供了有用的用户决策示例。 主要贡献 团队提出了一种创新的视觉问答框架,使用大型语言模型(LLM)来制定使用外部工具的策略并调查其输出,从而学习提供答案所需的知识。 团队利用用户研究结果,创建了一个系统化的计划。该框架指导大型语言模型(LLM)在选择API和构建查询时模拟人类决策。 该策略在Infoseek和OK-VQA这两个基于知识的视觉问答基准上优于最先进的解决方案。特别是,与PALI在Infoseek(未知实体分割)数据集上的16.0%准确率相比,我们的结果显著提高,达到50.7%。 APIs和其他工具 AVIS(自主视觉信息查询与大型语言模型)需要一套强大的资源来回答需要适当深入信息检索的视觉查询。 图像字幕模型 视觉问答模型 物体检测 图像搜索 OCR 网络搜索 LLM短问答 限制 目前,AVIS的主要功能是为问题提供视觉回答。研究人员计划扩大基于LLM的动态决策系统的范围,以整合其他推理应用。当前框架还需要PALM模型,这是一个计算复杂的LLM。他们想要确定是否可以使用更小、计算负荷较轻的语言模型做出同样的决策。 总之,加州大学洛杉矶分校和谷歌的研究人员提出了一种新方法,使大型语言模型(LLM)能够访问广泛的资源来处理面向视觉的知识查询。该方法基于对人类决策制定的用户研究数据。它使用一个结构化框架,其中由LLM驱动的规划器选择要使用的工具以及如何即时构建查询。所选工具的输出将被处理,由9个LLM驱动的推理器将提取关键信息。视觉问题被分解成较小的部分,并且规划器和推理器共同使用各种工具来解决每个部分,直到积累足够的数据来回答问题。
Leave a Comment在不断发展的编程和软件开发领域,对高效、灵活和易用工具的需求从未如此之高。开发人员寻求能够在本地开发环境中无缝工作的解决方案,不受托管服务所限制。本文探讨了一种突破性的解决方案——Open Interpreter。 虽然OpenAI的Code Interpreter with GPT-4是一个改变游戏规则的工具,但它也有特定的限制。OpenAI的解决方案是托管的,它在受控的远程环境中运行,限制了开发人员对本地设置的控制。这其中有一些明显的限制,包括无法访问互联网、预装的软件包数量有限、最大上传大小为100MB,以及120秒的运行时间限制。当环境结束时,生成的文件或链接将会丢失,这对于较长时间的任务可能会不方便。 Open Interpreter使开发人员能够充分发挥计算机的潜力,同时绕过与托管服务相关的限制。 Open Interpreter为开发人员提供了广泛的功能,包括内容创建;它可以轻松创建和编辑各种格式的内容,如照片、视频、PDF等。开发人员可以控制Chrome浏览器,实现高效的研究和自动化。Open Interpreter可以无缝处理与数据相关的任务,允许用户绘制、清洗和分析大型数据集,以便做出明智的决策。 Open Interpreter提供了交互式和编程式聊天功能。用户可以在终端中运行’interpreter’来启动交互式会话,与Open Interpreter进行对话。对于更精确的控制,开发人员可以高效地编写脚本任务和工作流程,直接传递消息给Interpreter。Open Interpreter通过允许用户检查和配置系统消息来提供灵活性。这种定制化扩展其功能,修改权限或添加上下文,以符合个人偏好和项目要求。 Open Interpreter代表了本地开发环境领域的重大飞跃。它的卓越能力赋予开发人员高效、灵活地工作,摆脱了托管服务的限制。有了Open Interpreter作为您可信赖的伙伴,拥抱软件开发的未来,在本地开发之旅中开启新的视野。
Leave a Comment在不断发展的计算机视觉和图形领域中,一个重要的挑战是从2D图像中创建逼真的3D人体表示。这不仅仅是技术上的障碍,也是从沉浸式虚拟环境到高级视频编辑等众多应用的入口。为了应对这一挑战,研究团队提出了一种突破性的解决方案,称为“SMPLitex”。该研究深入探讨了问题本身、提出的方法论、其复杂性以及SMPLitex的出色性能。 从单个图像中创建3D人体表示是计算机图形和计算机视觉中的一个长期愿景。虽然我们在捕捉3D形状方面取得了重大进展,但赋予物体逼真外观的纹理仍然是一个艰巨的领域。想象一下,只需拍摄一个人的单张照片,就能够重新创建他们的3D形状和详细的皮肤纹理、服装甚至配饰。这正是SMPLitex研究团队要解决的挑战。 在深入研究SMPLitex之前,了解现有方法及其局限性是至关重要的。传统方法通常依赖于耗时的手动纹理映射或3D扫描等工艺,这对于现实世界的应用来说可能更具可扩展性。这些方法在处理被遮挡或不完整的被拍摄对象时也会遇到困难,限制了它们的实用性。 研究团队通过引入SMPLitex,一种从单个图像中估计和操作完整3D人体外观的革命性方法,迈出了大胆的一步。SMPLitex的独特之处在于将最初设计用于2D图像的生成模型集成到3D领域中。关键创新在于根据输入图像建立像素到表面的对应关系,然后用于重建3D纹理。 该方法的核心是一种专门设计用于完整3D人体外观的生成模型。该模型经过广泛训练,学习了人体纹理在3D空间中的表现方式。但真正的魔力发生在该模型基于输入图像中可见部分的条件下。 通过计算出令人瞩目的精确的像素到表面的对应关系,将2D图像映射到其3D对应物。通过利用这种对应关系,SMPLitex可以生成一个完整的3D纹理映射,忠实地呈现被拍摄对象的外观。生成模型对图像中可见部分的适应性确保了即使在处理部分遮挡的对象时,SMPLitex也能产生逼真的3D纹理。 SMPLitex不仅承诺实现范式转变,而且实现了。研究团队在三个公开可用的数据集上进行了严格的定量和定性评估。结果令人惊叹,SMPLitex在人体纹理估计方面显著优于现有方法,展示了其强大的能力。 SMPLitex的一个突出特点是其多功能性。它在准确的纹理估计方面表现出色,并为更广泛的任务打开了大门。从编辑和合成到操作,SMPLitex可以无缝地将3D纹理集成到各种应用中,丰富了计算机图形和计算机视觉领域。 总之,SMPLitex代表了从单个图像中提取逼真的3D人体纹理的巨大进步。通过弥合2D图像和逼真3D重建之间的差距,该方法具有巨大的潜力。其潜在应用涵盖了娱乐、游戏、医疗保健和时尚等各个领域。SMPLitex展示了未来捕捉3D人体外观就像拍照一样简单的前景,研究团队的创新为更具沉浸感的体验、增强内容创作以及新的计算机视觉和图形领域铺平了道路。 随着技术的进步,我们只能期待像SMPLitex这样的方法所能带来的令人难以置信的可能性。将生成模型和精确的像素到表面对应相结合,可以彻底改变行业,并重新定义我们与人体形态的数字表示的互动。由于SMPLitex及其有远见的研究团队,从2D到3D的旅程迈出了重要的一步。
Leave a Comment我们做事的方式在最近几年发生了快速变化。我们已经开始使用虚拟助手来完成我们大部分的任务,并发现自己处于一种需要将任务委派给AI代理的位置。 有一把钥匙可以解锁推动所有这些进步的力量:软件。在一个日益技术驱动的世界中,软件开发是创新的关键,涵盖了从医疗保健到娱乐等各个领域。然而,软件开发的过程往往充满了复杂性和挑战,要求开发人员快速解决问题和创造性思考。 这就是为什么AI应用程序在软件开发领域迅速找到了自己的位置。它们简化了这个过程,为开发人员提供了及时的编码查询答案,并在他们的努力中支持他们。我的意思是,你可能也在使用它。你上次去StackOverflow而不是ChatGPT是什么时候?或者当你安装了GitHub协作者时,你按Tab键的次数有多少? ChatGPT和Copilot都不错,但它们在软件开发中仍然需要有良好的指导才能发挥更好的作用。今天,我们见到了一个新的参与者;SoTaNa。 SoTaNa是一个利用LLM的能力来提高软件开发效率的软件开发助手。像ChatGPT和GPT4这样的LLM已经展示了它们在理解人类意图和生成类似人类的回应方面的能力。它们在包括文本摘要和代码生成在内的各个领域都变得有价值。然而,由于某些限制,它们的可用性受到了限制,而SoTaNa旨在解决这些限制。 SoTaNa作为一个开源软件开发助手,致力于弥合开发者和LLM的巨大潜力之间的鸿沟。这个倡议的主要目标是使基础LLM能够在有限的计算资源下理解开发者的意图。这项研究采用了多步骤的方法来实现这一目标,利用ChatGPT来生成面向软件工程任务的高质量基于指令的数据。 SoTaNa概述。来源:https://arxiv.org/pdf/2308.13416.pdf 该过程通过引导ChatGPT进行具体提示,详细说明生成新实例的要求来开始。为了确保准确性和与期望输出的对齐,手动注释的软件工程相关实例的种子池作为参考。这个池子涵盖了各种软件工程任务,为生成新数据奠定了基础。通过巧妙的采样技术,这种方法有效地使演示实例多样化,并确保创建满足规定要求的高质量数据。 为了更好地提高模型对人类意图的理解,SoTaNa采用了Lora,一种参数高效的微调方法,使用有限的计算资源来增强开源基础模型,特别是LLaMA。这个微调过程使模型在软件工程领域内更好地理解人类意图。 生成数据使用的提示。来源:https://arxiv.org/pdf/2308.13416.pdf SoTaNa的能力是使用Stack Overflow问题回答数据集进行评估的,包括人工评估在内的结果强调了该模型在协助开发人员方面的有效性。 SoTaNa向世界介绍了一个基于LLMs构建的开源软件开发助手,能够理解开发人员的意图并生成相关的响应。此外,它通过发布模型权重和专为软件工程而设计的高质量基于指令的数据集,对社区做出了重要贡献。这些资源有望加速未来在该领域的研究和创新。
Leave a Comment大型语言模型如GPT-3及其对社会各个方面的影响是一个备受关注和争议的话题。大型语言模型显著推动了自然语言处理领域的发展。它们提高了各种与语言相关的任务的准确性,包括翻译、情感分析、摘要和问答。由大型语言模型驱动的聊天机器人和虚拟助手变得越来越复杂,能够处理复杂的对话。它们被用于客户支持、在线聊天服务,甚至成为某些用户的伴侣。 构建阿拉伯语大型语言模型(LLM)面临着由于阿拉伯语言的特性和其方言的多样性而产生的独特挑战。与其他语言的大型语言模型类似,阿拉伯语LLMs可能会继承训练数据中的偏见。解决这些偏见并确保在阿拉伯语境中负责任地使用人工智能是一个持续关注的问题。 Inception、Cerebras和阿布扎比人工智能大学(UAE)的研究人员推出了一种新的基于阿拉伯语的大型语言模型Jais和Jais-chat。他们的模型基于GPT-3生成式预训练架构,仅使用了130亿个参数。 他们面临的主要挑战是获取用于训练该模型的高质量阿拉伯语数据。与拥有高达2万亿个标记的英文数据相比,阿拉伯语语料库要小得多。语料库是用于语言学、自然语言处理(NLP)和文本分析的大型结构化文本集合,用于研究和语言模型训练。语料库是研究语言模式、语义、语法等方面的宝贵资源。 为了解决这个问题,他们训练了双语模型,通过增加有限的阿拉伯语预训练数据与丰富的英文预训练数据相结合。他们对Jais进行了预训练,包括72亿个阿拉伯语标记和2320亿个英文标记。他们开发了一种专门的阿拉伯文本处理流程,包括彻底的数据过滤和清理,以生成高质量的阿拉伯语数据。 他们表示,他们的模型的预训练和微调能力超越了所有已知的开源阿拉伯模型,并且与在更大数据集上训练的最先进的开源英文模型相当。考虑到大型语言模型的固有安全问题,他们通过安全导向的指令进一步微调了模型。他们通过安全提示、基于关键词的过滤和外部分类器添加了额外的安全防护。 他们表示,Jais代表了中东自然语言处理和人工智能领域的重要发展和扩展。它推进了阿拉伯语的理解和生成,为当地参与者提供了主权和私有部署选择,并培育了一个应用和创新的活跃生态系统;这项工作支持了数字和人工智能转型的更广泛战略计划,以迎接一个更开放、更具语言包容性和文化意识的时代。
Leave a Comment近年来,LLM在自然语言处理(NLP)领域越来越受欢迎。基于神经网络的机器学习模型的扩展使得最近取得了一些进展,产生的自然语言几乎和人类产生的语言难以区分。 LLM可以提高人类的生产力,从代码生成到辅助写邮件和共同撰写大学作业,都有很好的效果,并在法律、数学、心理学和医学等领域展现出了惊人的成果。尽管取得了这些进展,学术界对其文本生成技能的有害使用问题提出了许多问题。 因此,蒂尔堡大学和伦敦大学学院的研究人员对LLM的安全研究现状进行了调查,并根据危险、预防措施和安全漏洞对现有技术进行了分类。LLM复杂的生成能力使其成为制造网络钓鱼邮件、恶意软件和虚假信息等威胁的天然滋生地。 包括内容过滤、从人类反馈中强化学习和红队测试在内的现有努力都旨在减少这些能力带来的风险。然而,由于不足的防范措施和遮掩技术(如越狱和即时注入),漏洞会出现,之前被禁用的威胁重新出现。研究人员澄清了关键术语,并针对每个广泛领域提供了学术和现实示例的全面参考文献。 该论文解释了为何任何不能完全消除LLM不良行为的技术都会使模型容易受到快速对抗的攻击。研究也提出了类似的观点,认为大型人工智能模型(LAIMs),包括语言领域以及超越语言的基础模型,由于其训练数据所具有的三个特征,本质上是不安全和脆弱的。他们还指出,如果我们要增加模型的安全性,那么与基准模型相比,准确性将显著下降。这种论点进一步质疑了LLM的安全和可靠程度。鉴于LLM的实用性和安全性之间的紧张关系,LLM的提供者和用户都应该仔细考虑这种权衡。
Leave a Comment大型语言模型(LLMs)最近取得了进展,这引起了人们对它们在各种问题解决活动中的有用性的关注。这些模型在各种问题解决的背景下都证明了它们的能力,包括代码生成、指令跟随和一般问题解决。当代研究已经转向更复杂的方法,包括线性推理路径,与使用直接答案策略的第一批模型相比。在更近期的方法中,复杂的问题被划分为较小的任务,以便于系统性的解决方案搜索。此外,外部过程正在被整合进来,通过修改上下文来改变令牌的生成。 当前的研究主要使用了一个外部的操作机制,它会停止、修改,然后再恢复生成过程,以试图超越当前的思维链方法。这样做是为了提高LLMs的推理能力,但它带来的缺点是它会生成更多的查询请求,因此会有更多的开销、更高的内存需求和更多的计算开销。 为了克服这些挑战,弗吉尼亚理工学院微软的研究团队引入了一种独特的方法,称为思维算法(Algorithm of Thoughts)。通过这种策略,LLMs沿着算法推理的路径前进,有效地创造了一种在上下文中学习的新方法。利用算法示例,LLMs中固有的循环动力学被用来扩展概念的探索,而只需要很少的查询。 AoT的主要目标是通过算法的例子来教导LLMs,这些例子完美地体现了探索的精神。该技术减少了所需的查询数量,同时扩展了LLMs对概念的研究。AoT击败了旧的单查询技术,并与使用复杂树搜索算法的当代多查询策略相媲美。 这种方法可以超越只使用一个查询的旧技术,这使得这种方法独特。此外,这种方法的性能与最近使用复杂树搜索算法的多查询方法相当。结果表明,当LLMs使用这种方法进行训练时,它有可能胜过算法。这一发现表明,LLMs有将直觉融入增强搜索过程的内在能力。 总而言之,AoT的用例非常广泛。AoT能够彻底改变LLMs处理推理问题的方式,从一般问题解决到复杂的编程困难。算法路径的引入使LLMs能够考虑各种解决方案,模拟回溯技术,并评估各种子问题的潜力。AoT通过弥合LLMs和算法思维之间的差距,为上下文学习提供了一种新的范式。
Leave a CommentDevOpsGPT将大型语言模型(LLM)和DevOps工具结合起来,为软件开发提供了一个以人工智能驱动的自动化解决方案。DevOpsGPT可以将自然语言表达的需求转化为功能软件,从而提高效率,减少周期时间和降低沟通成本。 DevOpsGPT的工作原理 DevOpsGPT开始处理自然语言描述的用户需求。可以通过文本、语音和代码等多种方式输入这些规格。DevOpsGPT利用其LLM,在消费了这些规格后生成符合规格的代码。然后使用DevOps技术检查所创建的代码是否有错误,并确保满足用户的需求。有关详细信息,请访问GitHub页面。 主要特点 DevOpsGPT不仅提供以下优点,还提供以下优势和功能: DevOpsGPT支持多种编程语言,可以创建Python、Java、C++等代码。 DevOpsGPT具有适应性,可以根据任何企业的独特需求进行定制。 DevOpsGPT的可扩展性意味着它可以用于自动化大型公司的软件开发。 DevOps-GPT的好处 DevOpsGPT能够自动化多个软件开发过程,包括需求收集、文档编制和代码生成,从而提高生产力。这可以极大地提高开发生产力,并为开发人员提供更具创造性和战略性的工作机会。 通过自动化许多通常会减慢开发进程的流程,DevOpsGPT可以帮助缩短开发周期。因此,新的软件功能和产品可以更快地面向消费者。 DevOpsGPT能够将自然语言需求转化为代码的自动化过程,减少沟通成本。因此,在开发过程中更容易避免混淆和误解。 DevOpsGPT的自动代码检查功能有助于整个软件交付过程的质量。这有助于在开发的早期阶段发现和修复缺陷,从而得到更高质量的软件,并降低在生产环境中出现故障的风险。 限制 虽然DevOpsGPT提供了许多优势,但也有一些缺点。 DevOpsGPT仍在不断发展中,因此其正确性会随着需求的变化而改变。 DevOpsGPT可能不像人类开发人员那样具有创造力,因此可能需要帮助解决新问题。 DevOpsGPT应谨慎使用,因为它可能被滥用用于创建恶意代码。 DevOpsGPT是一种前沿的新解决方案,可以帮助企业提高开发生产力,缩短迭代时间,并减少沟通成本。通过自动化重复的操作,DevOpsGPT使程序员能够更多地投入战略性和创造性的工作中。这可以提高软件交付质量,并缩短推出新功能和产品的时间。
Leave a Comment最初用于语言建模的Transformer最近被研究人员作为一种可能的视觉相关任务架构来进行研究。视觉Transformer在目标识别、图片分类和视频分类等应用中具有最先进的性能,在各种视觉识别问题上表现出色。视觉Transformer的高计算成本是其主要缺点之一。与标准卷积网络(CNN)相比,视觉Transformer有时需要更高的计算量,每张图片高达数百GFlops。视频处理中涉及的大量数据进一步增加了这些开销。这种有趣的技术的潜力受到了高计算需求的限制,这些需求阻止了视觉Transformer在资源有限或需要低延迟的设备上的使用。 这项工作由威斯康星大学麦迪逊分校的研究人员提出,旨在利用连续输入之间的时间冗余来降低视觉Transformer在处理视频数据时的成本。想象一下将视觉Transformer逐帧或逐段应用于视频序列。这个Transformer可能是一个简单的逐帧模型(如目标检测器)或者是一个时空模型中的过渡阶段(如初始分解模型)。与语言处理不同,他们将Transformer视为应用于时间上的几个不同输入(帧或片段),而不是代表整个序列的一个Transformer输入。自然电影具有很高的时间冗余度和帧间变化很小的特点。然而,尽管如此,深度网络(如Transformer)在每一帧上都经常被“从头开始”计算。 这种方法是低效的,因为它丢弃了先前结论中任何可能有用的数据。他们的主要观点是,他们可以通过重复使用先前时间步骤的中间计算来更好地利用冗余序列。智能推理。视觉Transformer(和深度网络一般)的推理成本通常由设计确定。然而,现实世界应用中可用的资源可能随着时间的推移而发生变化(例如,由于竞争进程或电源供应的变化)。因此,需要能够实时修改计算成本的模型。适应性是这项研究的主要设计目标之一,该方法旨在提供对计算成本的实时控制。有关他们如何在电影中更改计算预算的示例,请参见图1(下部分)。 图1:该策略利用了连续模型输入之间的时间重叠。 (上)他们仅检测和更新在每个Transformer块中随时间发生重大变化的令牌。 (下)他们的解决方案在提高效率的同时提供了对运行时计算成本的精细控制。 以前的研究已经研究了CNN的时间冗余和适应性。然而,由于Transformer和CNN之间存在重大的架构差异,这些方法通常与Transformer的视觉不兼容。尤其是,Transformer引入了一种新的原语——自注意力,这与多个基于CNN的方法有所不同。尽管存在这些障碍,视觉Transformer提供了巨大的可能性。将CNN的稀疏性增益(特别是通过考虑时间冗余所获得的稀疏性)转化为明显的加速是具有挑战性的。要做到这一点,必须对稀疏结构设置大约束条件,或者使用特殊的计算核心。相比之下,由于Transformer操作的本质是围绕令牌向量的操作,因此将稀疏性转化为更短的运行时间使用传统操作符更简单。具有事件的Transformer。 为了促进有效的自适应推理,他们提出了一种称为Eventful Transformers的新型Transformer,该Transformer利用输入之间的时间冗余。 “Eventful”一词是为了描述被称为事件相机的传感器,它们在响应场景变化时创建稀疏输出。Eventful Transformers选择性地在每个时间步更新令牌表示和自注意力图,以跟踪令牌级别的变化。门控模块是Eventful Transformer中的块,允许对更新的令牌数量进行运行时控制。他们的方法适用于各种视频处理应用,并可以用于预先构建的模型(通常无需重新训练)。他们的研究表明,基于当前最先进模型创建的Eventful Transformers可以大大降低计算成本,同时基本保持原始模型的准确性。 他们的源代码包含了用于创建Eventful Transformers的PyTorch模块,并向公众开放。Wisionlab的项目页面位于wisionlab.com/project/eventful-transformers。他们在CPU和GPU上展示了加速的实际时间。从技术角度来看,他们基于标准PyTorch操作符的方法可能不是最佳选择。他们确信通过进一步减少开销(例如构建用于门控逻辑的融合CUDA内核)可以进一步提高加速比。此外,他们的方法会导致一定的内存开销。毫不奇怪,保留某些张量在内存中是必要的,以便重用之前时间步骤的计算。 查看论文。本研究的所有功劳归功于该项目的研究人员。此外,别忘了加入我们的29k+机器学习SubReddit,40k+ Facebook社区,Discord频道和电子邮件通讯,我们在那里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 如果你喜欢我们的工作,你会喜欢我们的通讯。 这篇文章来自威斯康星大学麦迪逊分校的研究人员,提出了Eventful Transformers:一种在视频识别中成本效益高且准确度损失最小的方法。该文章最初发表于MarkTechPost。
Leave a Comment大型语言模型因其超强的能力而受到了很多赞赏。它们能够模仿人类并生成与人类类似的内容。预训练的大型语言模型(LLMs),例如ChatGPT和LLaMA,展示了惊人的理解材料和回答常见问题的能力。一些研究已经证明了它们吸纳知识和回答问题的能力。尽管LLMs取得了显著进展,但它们经常缺乏对特定领域细微差别的复杂理解,并容易产生错误信息,即幻觉。这突显了提高LLM准确性和减少幻觉回答发生率的重大障碍。 与LLMs相关的讨论主要集中在三个主要领域,即减少LLM生成的幻觉回答、提高LLMs的事实准确性以及推测LLMs是否最终可能取代知识图谱(KGs)作为以符号格式存储世界知识的手段。最近,来自Meta Reality Labs的研究人员采用了一种新方法来回答这些问题,试图确定LLMs实际拥有多少信息。 在回答LLMs在知识方面掌握程度的问题时,团队讨论了两个方面。首先,直接问一个LLM所包含的知识可能是困难的。即使知识已经并入模型的参数中,幻觉可能是由于缺乏知识或发生故障的生成模型引起的。研究建议使用正确性作为评估LLM内知识程度的指标。这涉及评估模型回答清晰准确的问题的能力,例如“篮球运动员迈克尔·乔丹出生在哪里?”LLM还被要求提供简洁的回答,并在自信度较低时使用“unsure”一词表示不确定。 其次,没有一个能够准确反映用户兴趣多样性或世界信息广度的便利基准。即使是最全面的知识图谱在知识方面也存在空白,特别是在涉及较不知名的事实时。主要LLMs或搜索引擎的查询日志并不公开。 为了解决所有的限制,团队引入了一个他们创建的基准,名为“Head-to-Tail”。该基准包括18,000个问题-回答(QA)对,根据其各自主题的受欢迎程度被划分为头部、躯干和尾部事实。这些类别反映了不同的公众熟悉程度。团队创建了一种自动化评估方法和一组能够反映LLM已经有效吸收的知识广度的度量标准,以评估LLMs所保持的知识。 研究的核心是评估对公众可用的14个LLMs。结果显示,现有的LLMs在完善其对事实数据的理解方面仍需要显著改进。这尤其适用于属于躯干到尾部区域并涉及较不知名组织的信息。 总之,这项研究使用最近提出的基准和尖端评估技术考察了LLMs的事实知识。该研究通过解决重要的研究问题和概述具体发现,对于关于大型语言模型在整合事实信息方面的可靠性和未来发展的持续讨论做出了重大贡献。
Leave a Comment在科学探索中,一个引人入胜的谜题等待着解决——蛋白质复杂而多样的结构。这些分子工作马在生物过程中起着关键作用,以令人着迷和神秘的方式发挥着影响力。然而,由于当前分析方法的局限性,解读蛋白质复杂的三维(3D)结构长期以来一直是一个挑战。在这个复杂的谜题中,一个研究努力展开,旨在利用几何神经网络的潜力来理解这些大分子的复杂形态。 揭示蛋白质结构的现有方法是一段艰辛的旅程。这些结构存在于指导其生物功能的三维领域中,使其捕捉成为一项艰巨的任务。传统方法面临着需要更多结构数据的需求,通常在我们的理解中留下了空白。与此同时,另一条探索之路蓬勃发展——蛋白质语言模型。这些模型以氨基酸的线性一维(1D)序列为基础,展现出在各种应用中的卓越能力。然而,它们在理解蛋白质复杂的3D性质方面的局限性促使了一种创新方法的诞生。 https://www.nature.com/articles/s42003-023-05133-1 研究的突破在于将这两个看似不相关的领域融合起来:几何神经网络和蛋白质语言模型。这种巧妙而简洁的方法旨在将几何网络注入到语言模型所获得的见解中。挑战在于弥合1D序列理解和复杂的3D结构理解之间的差距。解决方案是寻求经过良好训练的蛋白质语言模型的帮助,例如著名的ESM-2,以解读蛋白质序列中的微妙之处。这些模型解开了序列的密码,产生了包含重要信息的每个残基表示。这些表示是与序列相关的见解的宝库,它们被融入到先进的几何神经网络的输入特征中。通过这种结合,网络被赋予了理解3D蛋白质结构复杂性的能力,同时又从嵌入在1D序列中的庞大知识库中汲取养分。 所提出的方法通过组织1D序列分析和3D结构理解的两个重要步骤,实现了和谐地融合。旅程从蛋白质序列开始,它们进入蛋白质语言模型的领域。在这个领域中,ESM-2是一座灯塔,它解读了氨基酸序列的神秘语言,产生了每个残基的表示。这些表示类似于拼图碎片,捕捉了序列的复杂性的本质。这些碎片无缝地编织到先进的几何神经网络的结构中,丰富了它们的输入特征。这种共生的融合赋予了网络超越3D结构分析的能力,踏上一段旅程,无缝地融入1D序列中嵌入的智慧。 在科学进步的历史中,几何神经网络和蛋白质语言模型的结合呼唤着一个新时代。这项研究旅程应对了蛋白质结构分析所带来的挑战,提供了超越当前方法局限性的新颖解决方案。随着序列和结构的融合,机遇的全景展现。所提出的方法作为1D序列和3D结构世界之间的桥梁,不仅丰富了蛋白质结构分析,还有望揭示分子生物学更深层次的奥秘。通过这种融合,一个变革性的叙事开始形成,全面的蛋白质分析成为一个灯塔,照亮了以前未知的理解领域。
Leave a Comment使用语言模型和检索模型可以轻松解决各种复杂任务。语言模型(如GPT-3)旨在根据接收到的输入生成类似人类的文本。另一方面,检索模型用于从数据库或文档集合中检索相关信息。明确定义要解决的任务,确定任务是否需要生成新文本还是从现有资源中检索数据。 使用GPT-3或类似模型,需要提供描述任务的提示,并让模型基于此生成文本。需要通过实验提示的措辞和结构来获得所需的输出。它涉及将语言模型生成的文本与从数据库中检索到的信息相结合。这可能包括根据检索到的信息生成摘要或洞察。 斯坦福大学的研究人员构建了一个用于使用语言模型(LM)和检索模型(RM)解决高级任务的框架。他们称之为DSPy。 DSPy包含了各种用于提示和微调LM以及改进它们的推理和检索增强的技术。 DSPy基于Pythonic语法,提供了可组合和声明性的模块,用于指导LM的操作。 DSPy还有一个自动编译器,用于训练LM以运行程序中的声明性步骤。这个编译器可以在没有手动中间阶段标签的情况下,从最少的数据中进行微调。它使用可训练的模块化组件的系统空间,而不是字符串操作。 DSPy使用两个简单的概念“签名”和“电视台”来编译您编写的任何程序。签名是DSPy模块的输入/输出行为的声明性规范。相比之下,电视台是功能强大的优化器(包含在DSPy中),它可以学会为任何程序的模块选择有效的提示。 签名包括对子任务的最小描述以及将向LM提问的一个或多个输入问题。它还解释了我们期望从LM获得的问题的答案。电视台是远程自动提示。他们说,与其他方法相比,DSPy需要非常少的标记。它将引导任何需要支持用户流水线的中间标签,其中包括多个复杂步骤。 由于DSPy框架与其他库有很大的区别,因此很容易根据我们的用例来解释何时使用它。研究人员表示,这个统一的框架对于NLP / AI研究人员或正在探索新的流水线或新任务以解决高级和复杂问题的人来说非常有用。为了使它适用于每个人,他们发布了安装用户手册。他们还表示,未来将发布各种入门教程和演示以及参考资料。
Leave a Comment大型语言模型(LLMs)因其在各种任务上的出色表现而受到了大量关注。它们的开发方式使它们经常在一些情况下超过监督模型甚至人类。尽管它们的能力令人惊叹,但先前的研究表明,某些功能约束可能会影响它们在实际世界中的实用性。这些模型对提示语言的细微差别、少量示范以及这些示范的组织的敏感性构成了一个重要的性能问题。这种敏感性阻碍了对LLMs能力的客观评估。 在Megagon Labs的最新研究中,一组研究人员对LLMs在处理多项选择题中的鲁棒性进行了研究,这是一种用于测试其推理和事实检索能力的流行任务。调查的主要焦点是LLMs对多项选择测试中选项重新排列的响应。经过深入研究后发现,当选项被改变时,跨多个基准测试的性能差异明显,范围从大约13%到75%不等。 经过深入分析后提出了一个假设,即当LLMs在对预测的前2或前3个选项不确定时,观察到的敏感性会发生。由于问题措辞带来的位置偏见,一些选项的顺序可能有利于这些前选项中的某些预测。在前两个选项中可以看到强调或减弱模型对某些选项放置的倾向的有趣模式。 为了突出偏见,团队采用了一种最佳策略,即将前两个列表中的第一个和最后一个替代方案放在一起以强调偏见。另一方面,为了抵抗偏见,建议将这些选择分散在周围的选项中。进行了一系列研究来验证假设的敏感性。此外,还使用了两种不同的校准技术来改进LLMs的预测。在多个模型和基准测试中看到了高达8个百分点的性能提升,这带来了显着改进。 该研究提出了一些问题,包括敏感性的程度,即LLMs在MCQs选项顺序方面受到多大程度的影响,导致LLMs敏感性的因素以及如何增强LLMs对选项顺序的鲁棒性。使用GPT-4和InstructGPT在五个不同的MCQ基准测试上进行了实验证明第一个问题。在零样本情况下发现了高达75%的敏感性差距。关于第二个问题,数据表明位置偏见是导致LLMs敏感性的原因,因为当LLMs不确定最佳选项时,它们倾向于偏好特定的放置方式。为了回答最后一个问题,研究表明使用两种不同的校准技术可以将LLMs的性能提高高达8个百分点。 总之,这项研究强调了面对LLMs对提示方面和排列方式的敏感性的必要性。通过研究LLMs在多项选择题中对选项重新排序的细微差别,它揭示了LLMs的决策过程,这肯定可以提高LLMs在实际情况下的可用性和可靠性。
Leave a Comment假设您希望构建一个自然语言处理(NLP)模型来解决一个给定的问题。您需要定义任务范围,然后找到或创建能够指定预期系统行为的数据,选择适合的模型架构,训练模型,通过评估来评估其性能,然后将其部署供实际使用。研究人员已经通过一行代码使得原型化这种复杂的NLP模型成为可能! https://arxiv.org/abs/2308.12261 Prompt2Model是一个系统,它保留了使用简单提示指定系统行为的能力,并同时提供了一个可部署的特殊目的模型,保留了所有其优点。上图展示了我们Prompt2Model的工作架构。它实际上是一个自动化的流水线,从用户提示中提取关于任务的所有必要细节,然后收集和组合与任务相关的信息,并使用以下不同的通道进行部署。 数据集检索:给定一个提示,第一个任务是发现现有的手动注释数据,以支持用户的任务描述。 数据集生成:为了支持各种任务,存在一个数据集生成器,根据Prompt解析器解析的用户特定要求生成合成训练数据。Prompt解析器包含具有上下文学习的LLM,用于分段用户提示,使用OpenAI的gpt-3.5-turbo-0613。 模型检索:使用提供的提示,选择一个预训练的语言模型,该模型具有适合用户目标的知识。这个选择的模型作为学生模型,进一步进行微调和评估,使用生成的和检索到的数据。 WebApp:最后,存在一个易于使用的图形用户界面,允许下游用户与训练好的模型进行交互。这个使用Gradio构建的Web应用程序可以轻松地在服务器上公开部署。 总之,Prompt2Model是一个快速构建小而有竞争力的NLP系统的工具。它可以直接用于在几小时内产生优于LLM的任务特定模型,无需手动数据注释或架构。鉴于该模型的可扩展设计,它可以提供一个平台,用于探索模型蒸馏、数据集生成、合成评估、数据集检索和模型检索等新技术。 展望未来,我们可以将Prompt2Model视为促进协作创新的催化剂。通过提出不同的挑战,研究人员旨在在未来在框架的各个组件上促进多样化的实现和改进。
Leave a Comment由于大型语言模型(LLMs)的进步,美国的律师和行政人员正在重新评估法律职业。根据其支持者的说法,LLMs可能会改变律师处理短文写作和公司合规等工作的方式。它们可能最终通过提高法律服务的可及性来解决美国长期存在的司法准入困境。这一观点受到了LLMs具有使它们更适合法律工作的独特特性的影响。与手动数据注释相关的支出,这些支出通常增加了法律语言模型的创建成本,将会因模型能够从少量标记数据中学习新工作而减少。 它们也非常适合进行法律的严格研究,包括解读带有大量术语的复杂文本和进行整合多种思维方式的推理过程。然而,法律应用程序经常涉及高风险,这种热情受到了一定程度的抑制。研究表明,LLMs可能会产生冒犯性、欺骗性和事实错误的信息。如果这些行为在法律环境中重复发生,可能会造成严重的损害,历史上受压迫和资源匮乏的人承受了不成比例的压力。因此,由于安全影响,迫切需要建立法律环境下衡量LLMs的基础设施和程序。 然而,希望判断LLMs是否能够运用法律推理的实践者面临着重重障碍。第一个障碍是法律基准的生态系统很小。例如,大多数现有的基准都集中在模型通过调整或训练特定任务数据来学习的任务上。这些标准无法捕捉到激发对法律实践兴趣的LLMs的特征,特别是它们只需简短提示即可完成各种任务的能力。类似地,基准倡议主要集中在专业认证考试(如统一律师资格考试)上,尽管它们并不总是反映LLMs的实际应用。第二个问题是律师和现有标准对“法律推理”的定义之间存在差异。 目前使用的基准广泛将需要法律信息或法律作为评估“法律推理”的工作进行分类。相反,律师们知道“法律推理”这个词是广泛的,包括各种形式的推理。不同的法律责任需要不同的能力和知识体系。由于现有的法律标准需要识别这些差异,因此对法律从业者来说,将当代LLMs的表现置于他们对法律能力的认知中是具有挑战性的。法律行业不使用与法律标准相同的术语或概念框架。鉴于这些限制,他们认为为了严格评估LLMs的法律推理能力,法律界需要更多地参与基准设计过程。 为此,他们介绍了LEGALBENCH,这是创建一个英文跨学科协作法律推理基准的初始阶段。过去一年,这项研究的作者们共同努力构建了162个任务(来自36个不同的数据源),每个任务都测试了特定形式的法律推理。他们借鉴了各自的法律和计算机科学背景。据他们所知,LEGALBENCH是第一个开源的法律基准项目。这种基准设计方法,即专家积极参与并积极参与评估任务的开发,是LLM研究中一种多学科合作的典范。他们还主张,这表明法律从业者在评估和推进法律中的LLMs中必须发挥的关键作用。 他们强调LEGALBENCH作为研究项目的三个方面: 1. LEGALBENCH是使用预先存在的针对少量样本LLM范式进行重新格式化的法律数据集的组合构建的,并且还包括由法律专家生成和提供的手动制作的数据集,这些法律专家也被列为本文的作者。参与此合作的法律专家被邀请提供测试有趣的法律推理能力或在法律中具有实际价值应用的数据集。因此,在LEGALBENCH任务上的良好表现提供了相关数据,律师可以用来确认对LLM法律能力的意见,或者找到能够提高工作流程效率的LLM。 2. LEGALBENCH上的任务被分为详细的分类,概述了完成任务所需的法律推理类型。由于该分类法借鉴了法律界常见的框架,并使用他们已经熟悉的词汇和概念框架,法律专业人员可以积极参与LLM性能的讨论。 3. 最后,LEGALBENCH的设计旨在作为更多研究的平台。对于没有法律培训的人工智能研究人员来说,LEGALBENCH在了解如何促进和评估各种活动方面提供了实质性的帮助。他们还打算通过不断征求和包括法律从业者的工作来扩大LEGALBENCH,因为法律界与LLMs的潜在影响和功能的互动越来越多。 他们在本文中做出了如下贡献: 1. 他们提供了一种根据必要的证明来分类和描述法律义务的分类法。这种分类法基于律师用来解释法律推理的框架。 2. 接下来,他们概述了LEGALBENCH中的活动,概述了它们是如何创建的,重要的异质性维度和约束条件。在附录中,对每个任务都进行了详细的描述。 3. 为了分析来自11个不同家族的20个LLMs在不同规模点上的情况,他们使用LEGALBENCH作为最后一步。他们对几种提示工程策略进行了初步调查,并对各种模型的有效性做出了评价。 这些研究结果最终揭示了LEGALBENCH可能有助于的几个潜在研究课题。他们预计各种社区都会对这个基准感到有趣。从业人员可以使用这些活动来决定是否以及如何将LLMs纳入当前流程以提高客户结果。LLMs能够进行的各种类型的注释以及它们允许的各种类型的实证学术工作可能会引起法学界的兴趣。在法律这样一个特殊的词汇特征和挑战性任务可能会揭示新的见解的领域中,这些模型的成功可能会引起计算机科学家的兴趣。 在继续之前,他们澄清了这项工作的目标不是评估计算技术是否应该取代律师和法律人员,也不是理解这种替代的利弊。相反,他们希望创建工具来帮助受影响的社区和相关利益相关者更好地理解LLMs在某些法律责任上的表现。鉴于这些技术的普及,他们认为解决这个问题对于确保计算法律工具的安全和道德使用至关重要。
Leave a Comment