Press "Enter" to skip to content

42 search results for "Vicuna"

“认识MMMU:一个全新的AI基准,旨在解决专家级多模式挑战,为人工智能通用智能铺平道路”

多模态预训练的进展解决了各种任务,如LXMERT、UNITER、VinVL、Oscar、VilBert和VLP等模型。FLAN-T5、Vicuna、LLaVA等模型增强了遵循指令的能力。而Flamingo、OpenFlamingo、Otter和MetaVL等模型则探索了上下文学习。VQA等基准注重感知,而MMMU则通过对要求专家级知识和有意识的推理的大学级问题的需求而脱颖而出。其独特的特点包括全面的知识覆盖、各种图像格式以及对专题特定推理的独特强调,使其与现有的基准相区别。 MMMU基准由来自IN.AI Research、滑铁卢大学、俄亥俄州立大学、独立研究机构、卡内基梅隆大学、维多利亚大学和普林斯顿大学的研究人员推出,涵盖了各种学科的大学级问题。强调专家级感知和推理,它是一个暴露现有模型面临重大挑战的基准。 该研究强调了评估朝着专家级人工智能发展取得进展的基准的必要性,超越了人类能力。目前的标准,如MMLU和AGIEval,侧重于文本,需要更多的多模态挑战。大型多模态模型(LMMs)显示出潜力,但现有的基准需要专家级领域知识。MMMU基准的引入旨在弥合这一鸿沟,涵盖了复杂的大学级问题,包括各种图像类型和交织的文本。它要求专家级感知和推理,为追求高级人工智能能力的LMMs提供了具有挑战性的评估。 专为评估专家级人工智能而设计的MMMU基准包含11,500个涵盖六个学科和30个主题的大学级问题。数据收集涉及根据视觉输入选择主题,参与学生标注者收集多模态问题,并进行质量控制。多个模型,包括LMM和LMMs,以零-shot的方式在MMMU上进行评估,测试它们在无微调或少量示范的情况下生成精确答案的能力。 MMMU基准对模型来说是具有挑战性的,因为GPT-4V的准确率仅为55.7%,表明还有很大的改进空间。专家级感知和推理需求使其成为LMMs和LMMs的严格评估。错误分析指出了视觉感知、知识表示、推理和多模态理解的挑战,为进一步研究提供了方向。MMMU以30种不同的图像格式覆盖大学级知识,强调了在基础模型中丰富培训数据集以增强在专门领域中的准确性和适用性的重要性。 总之,创建MMMU基准代表了对专家级人工智能评估中的LMMs的重大进展。这个基准挑战了当前模型对基本感知能力和复杂推理的评估,有助于了解专家级人工智能发展的进展。它强调了专家级性能和推理能力,突出了在视觉感知、知识表示、推理和多模态理解方面进一步研究的领域。建议通过丰富培训数据集与领域相关的知识,以提高准确性和在专门领域中的适用性。

Leave a Comment

微软的研究人员提出了MAIRA-1:一种用于从胸部 X 光片(CXR)生成放射学报告的放射学特定的多模态模型

微软的研究团队通过开发一种针对放射学的多模态模型MAIRA-1来解决生成高质量胸部X光(CXR)报告的问题。该模型利用了CXR特定的图像编码器和基于Vicuna-7B的微调LLM,以及基于文本的数据增强方法,重点关注Findings部分。研究意识到了其中的挑战,并提出未来的版本可以结合当前和之前的研究信息以减少信息幻觉。 在研究中探索的现有方法包括使用具有多模态能力的LLM,如PaLM和Vicuna-7B,从胸部X光创建叙述性放射学报告。评估过程包括传统的NLP指标,如ROUGE-L和BLEU-4,以及聚焦于临床相关方面的放射学特定指标。研究强调提供详细的发现描述的重要性,同时强调了机器学习在生成放射学报告中的潜力,并解决了当前评估实践的局限性。 MAIRA-1方法结合了视觉和语言模型,从胸部X光中生成详细的放射学报告。这种方法针对临床报告生成的特殊挑战进行了处理,使用衡量质量和临床相关性的指标进行评估。研究结果表明,MAIRA-1方法可以提高放射学报告的准确性和临床实用性,代表了在医学成像中使用机器学习的一大步。 所提出的MAIRA-1方法是一种针对放射学的多模态模型,用于生成胸部X光报告。该模型利用CXR图像编码器、可学习的适配器和微调的LLM(Vicuna-7B)来融合图像和语言,以提高报告质量和临床实用性。它使用GPT-3.5进行基于文本的数据增强,以进一步改进训练。评估指标包括传统的NLP测量指标(ROUGE-L、BLEU-4、METEOR)和放射学特定的指标(RadGraph-F1、RGER、ChexBert矢量),用于评估临床相关性。 MAIRA-1在生成胸部X光报告方面显示出显著的改进,具体表现为RadCliQ指标的提升和与放射科医生相关的词汇指标的改进。模型的性能因发现类别而异,存在成功和挑战。MAIRA-1有效地揭示了标准评估实践所未捕捉到的微妙失败模式,这一点在覆盖了语言和放射学特定方面的评估指标中得到了证明。MAIRA-1提供了对胸部X光报告的全面评估。 总之,MAIRA-1是一种高效的生成胸部X光报告的模型,通过其特定于领域的图像编码器和流利准确地识别微妙发现的能力超越了现有模型。然而,考虑现有实践的局限性和临床背景的重要性在评估结果时是很重要的。建议考虑多样化的数据集和多个图像以进一步改进模型。 MAIRA-1的未来版本可能会将当前和之前的研究信息纳入,以减轻生成报告中的虚构需求,正如与GPT-3.5的先前工作中所示。为了优化临床相关性,未来的工作可以探索强化学习方法来解决对临床实体提取的依赖性。建议在更大范围和多样化的数据集上进行增强训练,并考虑多个图像和视图,以进一步完善MAIRA-1在生成微妙的放射学特定发现方面的性能。

Leave a Comment

探索对OpenAI模型的开源替代品

介绍 11月在人工智能领域发生了许多重大事件。从GPT存储的推出,到GPT-4-turbo的发布,再到OpenAI的惨败,这一切都引发了一个重要的问题:封闭模型和背后的人员有多可靠?当你在生产中使用的模型因为一些内部公司事件而崩溃时,这将会是一次不愉快的经历。这对于开源模型来说并不是一个问题。您对部署的模型拥有完全控制权。您对数据和模型都有主权。但是是否可以用GPT代替开源模型?值得庆幸的是,许多开源模型已经达到或超过了GPT-3.5模型的性能。本文将探讨一些性能最佳的开源LLMs和LMMs替代方案。 学习目标 讨论开源大型语言模型。 探索最先进的开源语言模型和多模态模型。 对大型语言模型进行轻量化介绍。 了解在本地和云端运行LLMs的工具和服务。 本文作为数据科学博文马拉松的一部分发表。 什么是开源模型? 当模型的权重和架构是自由可用的时,我们称之为开源模型。这些权重是大型语言模型的预训练参数,例如Meta的Llama。这些通常是基础模型或未经调优的原始模型。任何人都可以使用这些模型,并将其在自定义数据上进行微调,以执行下游操作。 但是它们是否是真正的开源?数据呢?由于有关版权内容和数据敏感性的种种问题,大多数研究实验室都不会公开发布训练基础模型时所使用的数据。这也涉及到模型的许可问题。每个开源模型都有类似于任何其他开源软件的许可证。许多基础模型(例如Llama-1)配有非商业许可证,这意味着您不能使用这些模型来赚钱。但是像Mistral7B和Zephyr7B这样的模型配有Apache-2.0和MIT许可证,可以在任何地方使用而不会有顾虑。 开源替代方案 自从Llama发布以来,开源领域一直在追赶OpenAI模型。迄今为止,取得了令人鼓舞的成果。在GPT-3.5发布一年内,我们已经拥有了参数更少但在性能上与GPT-3.5相媲美甚至更好的模型。但是GPT-4仍然是执行从推理和数学到代码生成等各种一般任务的最佳模型。进一步观察开源模型领域的创新和资金支持的步伐,我们很快将会有越来越接近GPT-4性能的模型。现在,让我们讨论一些出色的开源模型的替代方案。 Meta’s Llama 2 Meta在今年7月发布了他们最好的模型Llama-2,并因其令人印象深刻的能力而迅速走红。Meta发布了四个不同参数规模的Llama-2模型,分别是Llama-7b、13b、34b和70b。这些模型在各自的类别中足以击败其他开源模型。但是现在,诸如mistral-7b和Zephyr-7b等多个模型在许多基准测试中优于较小的Llama模型。Llama-2 70b仍然是其类别中最好的之一,可以作为GPT-4在摘要、机器翻译等任务上的替代品。 Llama-2在许多基准测试中表现优于GPT-3.5,并且能够接近GPT-4,使其成为GPT-3.5甚至在某些情况下是GPT-4的一个有价值的替代品。以下图表是由Anyscale提供的Llama和GPT模型的性能比较。 有关Llama-2的更多信息,请参阅HuggingFace上的博客。这些LLM经过微调后在自定义数据集上表现良好。我们可以对模型进行微调,以在特定任务中发挥更好的性能。 不同的研究实验室也发布了经过微调的Llama-2版本。这些模型在许多基准测试中显示出比原始模型更好的结果。这款经过微调的Llama-2模型,Nous-Hermes-Llama2-70b,由Nous Research经过超过300,000个自定义指令进行了微调,使其比原始的meta-llama/Llama-2-70b-chat-hf更好。 查看HuggingFace的排行榜。您可以找到比原始模型效果更好的经过微调的Llama-2模型。这是开源模型的优点之一。根据需求,可以选择多种模型。 Mistral-7B Mistral-7B发布以来,它已成为开源社区的宠儿。它的性能要远远优于同类模型,并接近GPT-3.5的能力。这个模型可以在许多情况下替代Gpt-3.5,比如摘要、改写、分类等。…

Leave a Comment

中国的研究人员推出了视频-LLaVA:一个简单但功能强大的大型视觉语言基准模型

北京大学、彭城实验室、北京大学深圳研究生院和中山大学的研究人员介绍了大型视觉-语言模型(LVLM)方法Video-LLaVA,该方法将视觉表示统一到语言特征空间中。与现有方法单独编码图像和视频不同,Video-LLaVA通过在投影过程中解决对齐问题实现了统一的LVLM。这个简单而强大的模型在九个图像数据集上表现出色,在五个数据集和四个工具包中的图像问答方面表现优秀。 Video-LLaVA将图像和视频整合到一个特征空间中,改善了多模态交互。它在各种图像基准测试中胜过了Video-ChatGPT,并在图像问答方面表现出色。在视频理解方面,Video-LLaVA始终超过Video-ChatGPT,并在多个视频数据集上胜过最先进的Chat-UniVi。利用LLM的推理能力,Video-LLaVA使用Vicuna-7B v1.5进行训练,并使用LanguageBind和ViT-L14得到的视觉编码器。 Video-LLaVA通过在投影之前将图像和视频的视觉表示对齐来解决现有方法中编码图像和视频分开的问题,缓解了LLMs学习多模态交互的问题。Video-LLaVA在各种图像和视频基准测试中超过了先进的LVLM和Video-ChatGPT,展现了在理解和回应人类提供的指令方面的改善性能。这种方法强调了在投影之前将视觉特征对齐到统一空间的益处,以提升多模态交互学习。 Video-LLaVA通过在投影之前将图像和视频的视觉表示对齐到一个统一的特征空间中。它采用Vicuna-7B v1.5作为语言模型,使用由LanguageBind初始化的ViT-L14得到的视觉编码器。训练过程涉及将图像调整大小和裁剪为224×224。利用来自CC3M的558K LAION-CC-SBU图像文本对的子集进行了预训练。指令数据集来自各个地方,包括来自LLaVA v1.5的665K图像文本指令数据集和来自Video-ChatGPT的100K视频文本指令数据集。 Video-LLaVA在九个图像基准测试中表现出色,分别在MSRVTT、MSVD、TGIF和ActivityNet上比Video-ChatGPT提升了5.8%、9.9%、18.6%和10.1%。它在89个图像基准测试中表现优秀,超过了InstructBLIP-7B在问答方面的表现。与更强大的LVLM相媲美,它在VisWiz上超过了InstructBLIP-13B的14.7。Video-LLaVA显著提升了四个数据集上的视频问答,展现了其通过统一的视觉表示理解和学习图像和视频的能力。 总之,Video-LLaVA是一个非常庞大的视觉-语言模型,有效解决了对齐问题,并在各种图像基准测试中表现更好。其对图像和视频的联合训练增强了其功效,使其能够超越专门设计用于图像或视频的专家模型。该模型在统一视觉概念的理解以及图像问答基准测试中的出色表现,展示了其和谐的视觉训练框架的有效性,凸显了其强大的能力。 未来的研究可以探索在投影之前的先进对齐技术,以增强多模态交互中的LVLMs。应该研究其他方法来统一图像和视频的标记化,以解决对齐问题。通过对更多基准测试和数据集进行Video-LLaVA的评估,可以评估其泛化能力。与更大的语言模型进行比较可以阐明其可扩展性和潜在的增强效果。增强Video-LLaVA的计算效率以及研究联合训练对LVLM性能的影响是进一步探索的方向。

Leave a Comment

使用Amazon SageMaker Studio与Llama 2、LangChain和Pinecone来构建一个RAG问答解决方案,以便进行快速实验

检索增强生成(RAG)允许您为大型语言模型(LLM)提供对外部知识源(如资料库、数据库和API)的访问权限,而无需对模型进行精细调节在使用生成型人工智能进行问答时,RAG使得LLM能够以最相关、最新的信息来回答问题,并可选择引用[…].

Leave a Comment

Core42和Cerebras发布Jais 30B,为阿拉伯语大型语言模型设定了新的基准

Cerebras和Core42(G42公司和总部位于阿联酋的全国性云和生成AI赋能机构)宣布推出 Jais 30B,这是其开源阿拉伯大型语言模型(LLM)的最新和最精细版本。 Jais 30B是其上一版本Jais 13B的重大升级,Jais 13B于2023年8月发布。新模型具有300亿个参数,而Jais 13B只有130亿个,并且它是在更大的数据集上进行训练的。这导致在语言生成、摘要和阿拉伯-英语翻译方面取得了显著的改进。 Jais 30B现已与单语英语模型持平,并在基础模型评估中胜过大多数开源模型。该模型还能够用阿拉伯语和英语生成更长、更详细的回答。 Core42致力于负责任和安全的AI实践,Jais 30B开发团队进一步加强了其过程和政策,以监管模型产生偏见、仇恨或有害内容的情况。 Jais 30B可在Hugging Face上下载。 Hugging Face基础模型:https://huggingface.co/core42/jais-30b-v1 Hugging Face聊天模型:https://huggingface.co/core42/jais-30b-chat-v1 Jais 30B的推出是Core42和阿拉伯语世界的重要里程碑。该模型有可能彻底改变我们在阿拉伯语中的沟通、学习和工作方式。 该文章由MarkTechPost发布:作者:Core42和Cerebras发布了Jais 30B,创造了阿拉伯大型语言模型的新标杆。

Leave a Comment

中国的研究人员提出了ALCUNA:一种突破性的人工智能基准,用于评估大规模语言模型在新知识整合方面的能力

评估大规模语言模型(LLMs)在处理新知识方面是具有挑战性的。北京大学的研究人员引入了KnowGen,一种通过修改现有实体属性和关系来生成新知识的方法。名为ALCUNA的基准评估LLMs在知识理解和区分能力方面的能力。他们的研究表明,LLMs在新知识与内部知识推理方面经常遇到困难。这强调了在将LLMs应用于新场景时要谨慎,并鼓励LLMs在处理新知识方面的发展。 像FLAN-T5、GPT-3、OPT、LLama和GPT-4这样的LLMs在各种自然语言任务中表现出色,并应用于商业产品。现有的基准评估它们的性能,但依赖于现有知识。研究人员提出了Know-Gen和ALCUNA基准来评估LLMs在处理新知识方面的能力。它强调了在使用LLMs处理新场景或专业知识时需要谨慎,并旨在推动该领域的发展。 LLMs在各种任务中表现出色,但现有的基准可能需要衡量它们处理新知识的能力。提出了新的标准来解决这一差距。由于信息的不断演变,评估LLMs在新知识上的表现非常重要。重叠的训练和测试数据可能会影响记忆评估。构建一个新的知识基准是具有挑战性但必要的。 Know-Gen是一种通过修改实体属性和关系来生成新知识的方法。它使用零-shot和少-shot方法以及具有链式思考推理形式来评估LLMs。他们的研究探讨了人工实体相似性对父级实体的影响,并评估了属性和名称相似性。在这些基准上评估了多个LLMs,包括ChatGPT、Alpaca-7B、Vicuna-13B和ChatGLM-6B。 评估LLMs在处理新知识方面的能力的ALCUNA基准的表现可以更好,特别是在新知识与现有知识之间的推理方面。ChatGPT表现最好,Vicuna是第二好的模型。少-shot设置通常优于零-shot设置,而CoT推理形式更为优越。LLMs在知识关联和多跳推理方面最困难。实体相似性对它们的理解有影响。他们的方法强调了在新知识上评估LLMs的重要性,并提出了Know-Gen和ALCUNA基准以促进这一领域的进展。 该方法仅限于生物数据,但在遵循本体表达的其他领域具有潜在适用性。由于封闭源模型和规模的限制,评估被限制在少数LLM模型上,需要与更广泛范围的模型进行评估。它强调了LLMs处理新知识的重要性,但对当前基准的限制进行了广泛的分析。它也没有解决使用Know-Gen方法生成新知识或在新知识环境中负责任使用LLMs可能涉及的潜在偏见或伦理问题。 KnowGen和ALCUNA基准可以帮助评估LLMs在处理新知识方面的能力。虽然ChatGPT表现最好,Vicuna排名第二,但LLMs在新知识与现有知识之间的推理中的表现可以更好。少-shot设置优于零-shot设置,CoT推理形式更为优越。LLMs在知识关联方面存在困难,强调了需要进一步发展。它呼吁在使用LLMs处理新知识时要谨慎,并预计这些基准将推动该领域的LLM发展。

Leave a Comment

美团和北卡大学教堂山分校的研究人员引入“分支-解决-合并” 一种革命性的程序,提升大型语言模型在复杂语言任务中的性能

BRANCH-SOLVE-MERGE(BSM)是一种用于增强大型语言模型(LLM)在复杂自然语言任务中的程序。BSM包括分支、解决和合并模块,用于规划、破解和组合子任务。应用于LLM响应评估和带有Vicuna、LLaMA-2-chat和GPT-4等模型的约束文本生成,BSM提高了人类-LLM一致性,减少了偏见,并使LLaMA-2-chat能够在大多数领域与或超过GPT-4相匹配。它还提高了约束故事生成的连贯性和满意度。 LLM在多方面语言任务上表现出色,但通常需要复杂性的帮助。BSM是一种LLM程序,将任务分为步骤,并使用不同的提示参数化每个步骤。它是一种与以前的顺序方法有所不同的方法,目标是解决LLM评估和约束文本生成等受益于并行分解的任务。该过程为评估LLM在复杂文本生成任务中提供了宝贵的解决方案,特别是在基于规划和约束的场景中,满足对整体评估的需求。 LLM在文本生成方面表现出色,但在复杂的多目标任务中需要帮助。UNC-Chapel Hill和Meta的研究人员引入了BSM,一种应对这些挑战的方法。BSM通过分支、解决和合并模块将任务分解为并行子任务。应用于LLM响应评估和约束文本生成,BSM提高了这些任务中的正确性、一致性和约束满足度,使得LLaMA-2-chat、Vicuna和GPT-4等各种LLM受益。它为提高LLM在复杂语言任务中的性能提供了有前途的解决方案。 BSM将复杂语言任务分解为三个模块:分支、解决和合并。应用于LLM响应评估和约束文本生成,BSM提高了正确性的一致性,并减少了偏见。它将人类-LLM一致性提高了26%,约束满足度提高了12%。BSM是一种多功能的基于分解的方法,可应用于各种LLM,因此在改善不同任务和规模的LLM评估方面具有前景。 BSM提高了LLM-human的一致性,使LLaMA-2-70B-chat在回答一回合和二回合的问题方面提高了12个百分点。它在位置偏差和长度偏差方面的性能超越了自一致性,并减少了34%的偏见。BSM使弱的开源模型(如LLaMA-2)能够与GPT-4竞争。BSM的性能延伸到各个领域,与不同类别的GPT-4相匹配或逼近,在改善一致性得分和减少偏见方面。它在评分基于参考的问题方面表现出色,在数学等类别中超越LLaMA-2-70B-chat和GPT-4,提高了一致性得分,减轻了位置偏差。 BSM方法解决了LLM评估和文本生成中的关键挑战,增强了连贯性、规划和任务分解。BSM的分支、解决和合并模块改进了LLM响应评估和约束文本生成,从而提高了正确性、一致性和人类-LLM一致性。BSM还减少了偏见,增强了故事的连贯性,并提高了约束满足度。它在不同的LLM和领域中证明了效果,甚至在各种类别中胜过GPT-4。BSM是一种多功能且有前景的方法,可提高LLM在多个任务中的性能。 查看论文。此研究的所有功劳归功于该项目的研究人员。另外,别忘了加入我们的32k+ ML SubReddit,40k+ Facebook Community,Discord Channel和Email Newsletter,我们在其中分享最新的AI研究新闻、酷炫的AI项目等等。 如果您喜欢我们的作品,您会喜欢我们的通讯.. 我们也在Telegram和WhatsApp上。 研究人员来自Meta和UNC-Chapel Hill推出Branch-Solve-Merge:一款革命性程序,提高复杂语言任务中大型语言模型的性能首次出现在MarkTechPost上。

Leave a Comment

NVIDIA AI揭示SteerLM:一种新的人工智能方法,允许用户在推理过程中自定义大型语言模型(LLM)的回复

在不断变化的人工智能领域中,开发人员和用户一直面临着一个挑战:大型语言模型需要更多定制且细致的响应。尽管这些模型(如Llama 2)可以生成类似人类的文本,但它们经常需要提供真正符合个别用户独特需求的答案。现有的方法(如监督微调和基于人类反馈的强化学习)存在一定局限性,导致响应可能更加机械和复杂。 NVIDIA研究部门发布了一项突破性技术,名为SteerLM,该技术承诺解决这些挑战。SteerLM提供了一种创新且用户为中心的方法,用于定制大型语言模型的响应,通过允许用户定义指导模型行为的关键属性,从而对输出具有更多控制。 SteerLM通过四步监督微调过程来运作,简化了对大型语言模型的定制。首先,它使用人工标注的数据集训练属性预测模型,评估诸如有益性、幽默和创造力等特征。然后,它利用该模型对多样化的数据集进行注释,增强了语言模型可访问的数据的多样性。接下来,SteerLM使用属性条件的监督微调,训练模型根据指定的属性生成响应,如感知质量。最后,它通过引导式训练对模型进行优化,产生多样化的响应并进行微调以实现最佳对齐。 SteerLM的一个突出特点是其实时可调性,在推理过程中允许用户对属性进行微调,以满足他们的特定需求。这种灵活性为各种潜在应用开辟了道路,从游戏和教育到可访问性。通过SteerLM,公司可以通过单一模型为多个团队提供个性化能力,而无需为每个不同的应用重新构建模型。 SteerLM的简便性和用户友好性在其指标和性能中体现出来。在实验中,SteerLM 43B在Vicuna基准测试中胜过了现有的基于人类反馈的强化学习模型,如ChatGPT-3.5和Llama 30B RLHF。通过提供一个简单的微调过程,几乎不需要对基础设施和代码进行任何改变,SteerLM以更少的麻烦获得了出色的结果,成为人工智能定制领域的一项重大进展。 NVIDIA通过在其NVIDIA NeMo框架中发布SteerLM的开源软件,迈出了推动先进定制民主化的重要一步。开发人员现在有机会访问代码并尝试使用可在Hugging Face等平台上获得的定制13B Llama 2模型进行此技术。对于那些对训练自己的SteerLM模型感兴趣的人,也提供了详细的说明。 随着大型语言模型的不断演进,像SteerLM这样的解决方案的需求变得越来越重要,以便提供不仅智能而且真正有帮助且符合用户价值观的人工智能。借助SteerLM,人工智能社区在追求更加个性化和适应性的人工智能系统的探索中迈出了重要的一步,开启了定制人工智能的新时代。

Leave a Comment

微软和香港浸会大学的研究人员推出了WizardCoder:一种代码演变指导的精调代码LLM

大型语言模型(LLMs)最近引起了很大的关注并取得了显著的成功。其中OpenAI的ChatGPT尤为突出。这些模型通过利用大量的互联网数据进行重要的预训练,并通过精确的指导数据进行进一步的微调,实现了各种任务的最新(SOTA)零-shot性能。这种模式在代码的理解和生成中也有所体现。许多代码LLMs已被提出来解决代码相关活动中固有的困难。这些代码LLMs通过使用大量的代码数据进行预训练,使它们能够在与代码相关的各种活动中表现出色。 在代码领域中,与大多数之前的代码LLMs主要侧重于预训练阶段不同,需要对细粒度的指令定制进行更多的研究。为了提高语言模型在各种活动中的泛化能力,首次使用了指令调整。例如,OpenAI的InstructGPT要求人工标注员提供具体的指令以验证与用户目标的符合性。类似于最近的Alpaca,使用ChatGPT通过自我指导方法生成指令数据。Vicuna利用用户在ShareGPT.com上发布的聊天记录。WizardLM建立了Evol-Instruct方法,涉及修改当前的指令数据以生成更复杂和多样化的数据集。 然而,重要的是要注意,这些技术在设计时应该特别考虑到代码领域,而不是主要关注通用领域。受Evol-Instruct方法的启发,微软和香港浸会大学的研究人员在这个项目中打算通过使用特定于代码的Evol-Instruct生成详细的代码指令数据来改进开源代码LLM StarCoder的功能。他们对适用于涉及编码的活动的进化提示过程进行了多方面的修改,以实现这一目标。简化了进化提示,改进了进化指令,并包括了代码调试和时间空间复杂性的限制。他们的方法首先用于开发基本的Code Alpaca指令数据。 接下来,他们使用新开发的代码指令跟随训练集来微调StarCoder并获得他们的WizardCoder。根据包括HumanEval、HumanEval+、MBPP和DS-100在内的四个代码生成基准的实验结果,他们的WizardCoder击败了所有其他开源代码LLM,达到了最先进的(SOTA)性能。他们注意到在HumanEval和HumanEval+上的pass@1得分显著提高,即在HumanEval上增加了22.3(57.3 vs. 35.0),在MBPP上增加了8.2(51.8 vs. 43.6)。令人惊讶的是,尽管规模较小,但他们的WizardCoder在HumanEval和HumanEval+的及格率上甚至超过了Anthropic的Claude和Google的Bard。 以下是本研究的贡献摘要: • 我们提供了WizardCoder,它应用了Code Evol-Instruct来改进开源代码LLM StarCoder的功能。 • WizardCoder在代码生成方面明显优于所有其他开源代码LLM,包括StarCoder、CodeGen、CodeGee、CodeT5+、InstructCodeT5+、StarCoder-GPTeacher和Instruct-Codegen-16B。 • 尽管规模较小,但WizardCoder在代码生成方面超过了主要的闭源LLM,包括Claude、Bard、PaLM、PaLM-2和LaMDA。

Leave a Comment

来自南加州大学和微软的研究人员提出了UniversalNER:一种新的AI模型,通过有针对性的蒸馏训练,可以识别13000多种实体类型,并在43个数据集上以9%的F1值超过ChatGPT的NER准确性

I had trouble accessing your link so I’m going to try to continue without it. ChatGPT和其他大型语言模型(LLM)展示了令人印象深刻的泛化能力,但它们的训练和推理成本通常是不可承受的。此外,对模型权重和推理概率的白盒访问在诸如医疗保健等关键任务应用中经常至关重要,以实现可解释性和信心。因此,指导调整作为一种将LLM压缩为更经济实惠和透明的学生模型的方法已经变得越来越受欢迎。这些学生模型已经展示出模仿ChatGPT的令人信服的能力,就像Alpaca和Vicuna一样。仔细观察发现,它们仍然需要赶上理想的LLM,特别是在特定目标应用中。 由于计算资源有限,通用蒸馏只能在所有可想象的应用中创建原始LLM的表面近似。相反,他们在这项研究中研究了有针对性的蒸馏,通过面向任务的指导调整来训练学生模型,用于开放信息提取等多样化的应用类别。他们证明了在保持其跨语义类型和领域的泛化能力的同时,这可以最大程度地复制LLM在指定应用类别中的能力。由于命名实体识别(NER)是自然语言处理中最基本的问题之一,他们选择了它作为案例研究。最近的研究表明,当有许多注释实例时,LLM仍然需要赶上最先进的监督系统的实体类型。 然而,对于大多数对象类型来说,大多数对象类型都很难进行注释。开发注释示例的成本高昂且耗时,特别是在需要专业知识的生物学等高价值领域。新的实体类型不断涌现。由于受过预先指定的实体类型和领域的训练,监督NER模型在新领域和实体类型上的泛化能力也较差。他们概述了LLM有针对性蒸馏的通用过程,并展示了开放域NER如何使用它。来自南加州大学和微软研究院的研究人员展示了如何利用ChatGPT从大量未标记的在线文本中创建NER的指导调整数据,并使用LLaMA创建UniversalNER模型(简称UniNER)。 他们提出了迄今为止最大、最多样化的NER基准(UniversalNER基准),包括来自9个不同学科的43个数据集,包括医学、编程、社交媒体、法律和金融。LLaMA和Alpaca在这个基准测试中表现不佳(约为0 F1)在零-shot NER上。相比之下,Vicuna在平均F1上表现明显更好,但仍然比ChatGPT落后20个绝对点以上。与此相反,UniversalNER在平均F1上超过Vicuna超过30个绝对点,并在UniversalNER基准测试中实现了最先进的NER准确性,涵盖了数以万计的实体类型。除了复制ChatGPT识别任何实体的能力(7-13亿个参数),UniversalNER在平均F1上还超过了其NER准确性7-9个绝对点。 令人惊讶的是,UniversalNER明显超过了使用监督NER实例的最先进的多任务指导调整系统,如InstructUIE。他们还进行了广泛的消融测试,以评估不同蒸馏组件(如指导提示和负采样)的影响。他们将提供他们的蒸馏配方、数据和UniversalNER模型,并提供一个交互式演示,以帮助进一步研究有针对性的蒸馏。

Leave a Comment

Abacus AI 推出一款新的开放式长上下文大语言模型 LLM:遇见Giraffe

最近的语言模型可以将长上下文作为输入;需要了解它们如何更好地使用更长的上下文。能否将LLMs扩展到更长的上下文?这是一个未解答的问题。Abacus AI的研究人员进行了多次实验,涉及不同方案来开发Llama的上下文长度能力,该模型在上下文长度2048上进行了预训练。他们使用IFT将这些模型进行线性缩放,缩放比例为4和16。将模型缩放到16倍可以执行长达16k的上下文长度的任务,甚至可以执行长达20-24k的上下文长度的任务。 扩展上下文长度的不同方法包括线性缩放、通过幂将旋转位置嵌入(RoPE)的傅里叶基缩放、截断傅里叶基和随机化位置向量。Abacus AI的研究人员使用这些方法对RedPajama数据集和Vicuna数据集进行了微调。他们发现线性缩放是稳健的,但会增加模型的上下文长度。截断和随机化具有很高的困惑度分数,但在检索任务上表现较差。 为了评估这些模型,研究人员使用了来自LMSys、开放式问答数据集和WikiQA的数据集。LMSys数据集用于在上下文中定位子字符串。WikiQA任务是根据维基百科文档中给出的信息回答问题的任务。 团队根据Google自然问题中的简短回答格式数据构建了一个QA任务。他们确保输出只是从原始文档中复制粘贴的短词回答。这样可以精确定位LLM应该查找的位置,通过将答案放置在不同位置有效地评估扩展上下文长度的每个部分。他们还创建了多个具有不同大小的相同维基百科文档的版本,这使他们能够在模型大小上进行公平评估。 基于维基百科的数据集的问题是模型从其预训练的文本中回答而不是从上下文中回答。研究人员通过创建一个由只有数字答案的问题组成的改编数据集来解决这个问题。他们改变了答案和文档中响应的每个出现,使得如果LLM从其预训练的文本中回忆起来,模型将错误地回答。他们将原始QA任务命名为自由格式QA(FFQA),将改编任务命名为改编数字QA(AltQA)。 AbacusAI的研究人员在两个版本的QA任务中对每个示例进行了存在准确性评估。存在准确性是衡量生成的解决方案中是否存在答案作为子字符串的准确性。他们观察到IFT的准确性提高并不能给模型能够实现的上下文长度范围带来任何扩展。 研究人员表明,通过缩放上下文进行IFT可以显著提高性能。他们观察到在缩放上下文因子插值的所有位置上,FFQA的性能提高了2倍,AltQA的性能提高了2.5倍。最后,他们的研究工作提出了一个更大上下文的语言模型,它通过更好地捕捉文档的主题更容易地提高困惑度。

Leave a Comment

CMU研究人员提出了一种简单而有效的攻击方法,可以使对齐的语言模型以很高的成功率生成令人反感的行为

大型语言模型(LLMs)是深度学习模型在人类语言上的最新进展。这些深度学习训练模型以人类类似的方式理解和生成文本。这些模型是在从互联网、书籍、文章、网站和其他信息来源中抓取的大量数据集上进行训练的。它们可以翻译语言、总结文本、回答问题,并执行各种自然语言处理任务。 最近,人们对它们生成不受欢迎内容的能力及其带来的后果越来越关注。因此,在这个领域进行了重要的研究。 随后,来自卡内基梅隆大学计算机科学学院(SCS)、CyLab安全与隐私研究所以及旧金山人工智能安全中心的研究人员研究了语言模型中生成不受欢迎行为的方法。在他们的研究中,他们提出了一种新的攻击方法,涉及在各种查询后面添加后缀,从而极大地增加了开源和闭源语言模型(LLMs)生成对它们通常会拒绝的问题的肯定回答的可能性。 在他们的调查中,研究人员成功地将攻击后缀应用于各种语言模型,包括ChatGPT、Bard和Claude等公共接口,以及LLMa-2-Chat、Pythia、Falcon等开源LLMs。因此,攻击后缀有效地在这些语言模型的输出中引发了不受欢迎的内容。 这种方法在Vicuna上的100个实例中成功生成了有害行为中的99个。此外,在Vicuna的输出中,它们与目标有害字符串有88个完全匹配。研究人员还测试了他们的攻击方法对其他语言模型的影响,如GPT-3.5和GPT-4,成功率高达84%。对于PaLM-2,成功率为66%。 研究人员表示,目前,通过引导聊天机器人生成不受欢迎或有害内容可能不会对人们造成特别严重的直接伤害。关注点在于这些模型在没有人员监督的自主系统中将扮演更重要的角色。他们进一步强调,在自主系统变得更加现实时,确保我们有可靠的方法来阻止它们被此类攻击劫持将非常重要。 研究人员表示,他们并没有打算攻击专有的大型语言模型和聊天机器人。但是他们的研究表明,即使我们拥有大量参数的闭源模型,人们仍然可以通过查看免费提供的、更小且更简单的开源模型,并学习如何攻击它们来攻击它。 在他们的研究中,研究人员通过在多个提示和模型上训练攻击后缀,扩展了他们的攻击方法。结果,他们在包括Google Bard和Claud在内的各种公共接口中引发了不受欢迎的内容。攻击还影响了像Llama 2 Chat、Pythia、Falcon等开源语言模型,展示了不受欢迎的行为。 这项研究表明他们的攻击方法具有广泛的适用性,可以影响各种语言模型,包括那些具有公共接口和开源实现的模型。他们进一步强调,目前我们没有一种方法来阻止这种对抗性攻击,因此下一步是找出如何修复这些模型。 查看论文和博客文章。此研究的所有荣誉归功于该项目上的研究人员。此外,别忘了加入我们的27k+ ML SubReddit,40k+ Facebook社群,Discord频道和电子邮件通讯,我们在其中分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 本文摘自MarkTechPost,CMU研究人员提出了一种简单而有效的攻击方法,使对齐的语言模型以高成功率生成不受欢迎的行为。

Leave a Comment

遇见FACTOOL:一种用于检测大型语言模型(例如ChatGPT)生成的文本中事实错误的任务和领域无关框架

GPT-4是生成式人工智能(AI)技术的一个例子,它将自然语言处理中的多个任务结合成一个单一的序列生成问题。这种统一的架构具有卓越的效率和交互性,使用户能够使用自然语言界面执行各种活动(包括代码生成、数学问题解决和科学出版物的创建)。然而,这种生成式范式也带来了一些特定的困难。由于大型语言模型(LLMs)的限制,自动生成的文本经常显示错误或偏离事实。 LLMs往往会创建出令人信服的信息,但可能需要在事实上更准确或精确。这种限制限制了生成式AI在医疗、金融和法律等高风险行业的使用。因此,必须通过系统地识别这些错误来改进所创建材料的实用性和可靠性。例如,用于质量保证的检索增强验证模型、用于文本摘要的幻觉检测模型以及用于代码的执行评估模型等都是当前文献中关注的检测和减轻机器学习模型产生的事实错误的单一特定任务的例子。 鉴于LLMs处理的活动和领域的非凡灵活性,这些方法已经在各自的领域取得了成功。然而,拥有一个更全面的事实性检测和验证框架同样重要。此外,事实性检测的问题在当前文献中通常被概括为:(i)在给定一个主张的情况下评估一个主张是否事实准确,或者(ii)检测生成的主张是否得到给定证据的支持。 在用户与生成模型(如ChatGPT)进行交互时,他们经常需要评估长篇生成的事实准确性,而不是明确的主张和证据,因此需要更好地匹配这个任务定义。在这项研究中,来自上海交通大学、卡内基梅隆大学、香港城市大学、纽约大学、Meta AI、香港科技大学和上海人工智能实验室的研究人员提供了FACTOOL,这是一个任务和领域无关的框架,用于查找LLM生成的文档中的事实错误。在图1中,他们将“工具使用”和“事实性检测”的概念联系起来,并解释了他们的方法。 图1:带有工具增强的事实性检测框架。 为了获得所创建信息的事实性证据,FACTOOL专门使用多种资源,如Google搜索、Google学术、代码解释器、Python甚至LLMs。此外,他们的方法利用LLMs的批判性思维能力,根据可用数据评估内容的事实性。他们创建了一个基准,并对四个任务进行了实验: 基于知识的质量保证 代码生成 解决数学问题 撰写科学文献综述 他们解决了事实性识别的工作,并扩展了它以实现对最新生成式AI模型的更全面审计。根据他们对使用FACTOOL的现代聊天机器人的事实性分析,GPT-4在几乎所有情况下都具有最高的事实性。基于知识的质量保证测试显示,经过精心调整的聊天机器人(Vicuna-13B)具有可观的事实性。然而,它们在撰写科学文献综述和解答算术问题等更困难的任务上还存在困难。

Leave a Comment

这篇AI论文展示了一种利用LLM而不是人类创造大量具有不同复杂程度的指导数据的方法

在开放领域指令遵循数据上训练LLM的结果是惊人的。然而,手动开发这种类型的指令数据需要时间和精力。此外,人类可能需要帮助创建高度复杂的指令。最近,许多自然语言处理(NLP)社区的努力集中在教导大型语言模型更好地理解和遵循指令。最近的研究表明,LLM也可能从教学中受益。因此,这种数据现在常规用于在开放领域训练和微调LLM。 Evol-Instruct是一种革命性的方法,使用LLM创建不同复杂度的大量指令数据;这是由微软和北京大学的研究人员团队开发的。该团队的WizardLM模型生成的指令在人类评估中得分高于人类创建的指令数据集。 Evol-Instruct流程分为三个阶段: 指令的演化 基于新开发的教育的响应的演化 消除的演化 为了从简单的种子指令生成更复杂的指令,Evol-Instruct可以执行深度演化(涉及五种操作之一:添加约束、加深、具体化、增加推理步骤和复杂化输入)或广度演化(基于给定的指令创建新的指令)。最后一个阶段,消除演化,作为一个过滤器来消除不良指令。 研究人员使用Evol-Instruct生成不同复杂度的指令。然后,他们将所有生成的指令数据合并起来,通过实证研究来微调LLaMA LLM并开发他们的WizardLM模型。WizardLM与ChatGPT、Alpaca和Vicuna等行业标准工具进行了评估。 研究人员主要得出以下结论: Evol-Instruct的指令优于人类开发的ShareGPT。使用相同数量的Evol-Instruct数据(即70k)微调LLaMA 7B时,WizardLM的表现比Vicuna高出12.4%(41.3%对28.9%)。 在面临困难的测试指令时,标注者对WizardLM的结果比对ChatGPT的结果更满意。在测试集上,WizardLM相比ChatGPT输了12.8%,胜率为28.0%对40.8%。然而,在测试集的高难度部分(难度级别8)中,WizardLM相对于ChatGPT的胜率高出7.9个百分点,为42.9%对35.0%。这表明该技术极大地增强了大型语言模型处理复杂指令的能力。 研究的作者通过评估高复杂性组件的人类评估结果,显示WizardLM模型的输出优于OpenAI ChatGPT的输出。结果显示,使用AI演进的指令进行微调是增强大型语言模型的潜在途径,即使WizardLM在某些方面仍落后于ChatGPT。源代码和输出数据都可以在https://github.com/nlpxucan/WizardLM上查看。 研究人员使用以下三个LLM作为起点: OpenAI创建了AI聊天机器人ChatGPT,以使对话变得自然和有趣。它基于从互联网等大量文本数据训练的LLM,如GPT-3.5和GPT-4。在人类训练员的监督下,使用监督学习和强化学习方法对ChatGPT进行微调。 Alpaca是斯坦福大学的一个倡议,旨在创建和传播一种免费的、由社区驱动的遵循指令的范例。该模型使用通过查询OpenAI的text-davinci003模型创建的52K个遵循指令实例开发,并建立在LLaMA 7B上,这是一个经过训练的大型语言模型,使用了多个文本来源。 Vicuna是一个开源聊天机器人,可以为用户提供人性化和有趣的回复。它基于LLaMA 13B,使用了来自ShareGPT的70K个用户共享对话数据进行微调。 研究人员使用ChatGPT来评估每个指令的复杂性和困难度,从而使他们能够更深入地了解指令演化过程。根据LLaMA模型许可,研究人员以增量权重的形式发布[WizardLM]权重。可以通过将增量添加到初始LLaMA权重来获得WizardLM权重。 研究人员使用人工指导评估集将Wizard的输出与人类评估者生成的输出进行比较。在Wizard和控制组之间进行了盲目的成对比较。作者的评估数据收集涵盖了许多以用户为中心的任务,从复杂的代码生成和调试到数学推理,复杂格式的推理,学术写作和广泛的学科。 这些结果表明,Evol-Instruct的AI演化指令方法可以极大地提高LLM性能,并使模型具备处理具有挑战性和复杂指令的能力,例如涉及数学计算、程序开发和逻辑思考的指令。

Leave a Comment

Can't find what you're looking for? Try refining your search: