Press "Enter" to skip to content

49 search results for "SFT"

简化文件管理:使用Sublime Text在服务器或运行在服务器上的Docker容器中使用SFTP连接和修改文件的指南

现如今,许多学术机构、研究实验室和云服务提供商都提供了配备GPU的服务器,供人们使用来运行实验例如,我的大学提供了…

Leave a Comment

如何使用Github?逐步指南

在GitHub上注册的六个步骤 步骤 1:注册GitHub账号 访问他们的网站并点击注册按钮。 填写相关信息,包括您的用户名、电子邮件和密码。 完成后,验证您的电子邮件,您将拥有一个免费的GitHub账号,可用于代码存储库和协作。 https://docs.github.com/en/get-started/quickstart/hello-world 步骤 2:在GitHub上创建一个代码库 在GitHub上创建一个代码库 要为您的项目创建GitHub代码库,请按照以下简单的步骤进行: 1. 在任何GitHub页面的右上角点击“+”符号,然后选择“新建代码库”。 2. 在“代码库名称”框中为您的代码库命名。 3. 在“描述”框中添加简短的描述。 4. 选择您的代码库是公开还是私人。 5. 选中“添加README文件”的选项。 6. 点击“创建代码库”按钮。 此代码库可以用于组织和存储文件、与他人进行协作,并在GitHub上展示您的项目。 https://docs.github.com/en/get-started/quickstart/hello-world…

Leave a Comment

使用 QLoRA 对 Llama 2 进行微调,并在 Amazon SageMaker 上部署,配备 AWS Inferentia2

在这篇文章中,我们展示了使用参数高效微调 (PEFT) 方法对 Llama 2 模型进行微调,并将微调后的模型部署在 AWS Inferentia2 上我们使用 AWS Neuron 软件开发工具包 (SDK) 来访问 AWS Inferentia2 设备,并从其高性能中受益然后,我们使用一个由 […] 提供支持的大型模型推断容器

Leave a Comment

探索AI的新领域:谷歌DeepMind的研究关于通过ReSTEM自我训练推进机器学习超越人类生成的数据

大型语言模型(LLMs)正在通过展示惊人的文本生成能力和执行各种语言任务而改变深度学习。获得高质量的与人类相关的数据是一个重大障碍,即使使用人类收集的数据进行监督微调(SFT)也能进一步提高它们在感兴趣的任务上的性能。这对需要大量资源和专业知识的复杂问题解决任务尤为困难。为了克服这一障碍,模型生成的合成数据在其质量能够得到保证的情况下被认为是一种可扩展且经济实惠的解决方案。 来自Google Deepmind和Mila的研究人员在这项研究中研究了一个更加简单的场景,其中外部的标量反馈信号作为每个生成样本的质量指标,即使LLMs能够自行评估生成的数据。研究团队提出了一种简单而有效的语言模型自训练技术,只涉及两个技能:1) 使用模型创建样本,2) 使用评分机制评估这些样本。这种方法使我们能够研究在模型创建的数据上进行训练。研究团队使用了加强自训练的命名方式,并将这种技术称为ReST𝐃𝑀,以实现统一性和清晰度。研究团队演示了如何将ReST𝐃𝑀视为使用期望最大化进行强化学习。 具体而言,ReST𝐃𝑀在以下方式上在期望和最大化阶段之间切换:1. 生成 (E-step):对于每个输入背景,语言模型产生多个输出样本。然后,研究团队通过使用二进制奖励来筛选这些样本,以收集训练数据集。2. 改进 (M-step):使用前面生成阶段的训练数据集来对原始语言模型进行监督和微调。然后,下一个生成阶段使用调整后的模型。ReST𝐃𝑀及其变体已经证明在许多领域的语言模型中提高了效能,例如机器翻译、语义解析和偏好对齐。 ReST𝐃𝑀主要在以前关于非常小型语言模型(最多7B参数)的研究中使用,对于更大的模型而言,其可扩展性有限。他们的工作旨在通过比较模型创建的合成数据的可扩展性和有效性与人类提供的数据在两个具有挑战性但研究不足的领域中: 代码生成 (APPS) 和具有竞争水平的数学问题解决 (MATH)。他们的研究结果表明,将ReST𝐃𝑀应用于不同规模的PaLM 2模型可以显著改善数学推理和代码生成能力。 令人惊讶的是,通过模型生成的人工数据进行改进的模型在性能上大幅优于以人类提供的数据训练的模型。此外,经过几个ReST𝐃𝑀周期后,改进效果会减弱,表明可能会过度拟合数量有限的训练案例。此外,使用ReST𝐃𝑀进行优化的模型增强了 pass@k 和多数投票能力。最后,这些改进的模型在类似但不同的基准测试中展现出增强的性能,包括Big-Bench Hard任务、编码(HumanEval)和算术问题(GSM8K和Hungarian HS决赛)。最后,还进行了消融研究,以调查训练问题、迭代次数和模型生成解决方案数量对ReST𝐸𝑀微调的影响。

Leave a Comment

见面Mixtral 8x7b:Mistral推出的革命性语言模型,超越GPT-3.5在开放学术资源的人工智能中

大型语言模型领域迎来了一个重要的跨越,Mixtral 8x7b的到来。Mistral AI开发了这个具有卓越能力和独特架构的新模型。它用稀疏的Expert混合(MoE)层取代了前馈层,这是变换器模型中的一种创新方法。 Mixtral 8x7b 在一个框架内拥有八个专家模型。这个模型是一个专家混合模型(MoE),使Mixtral能够实现卓越的性能。 专家混合技术可以使模型的预训练所需的计算能力大大减少。这意味着可以显著增加模型或数据集的大小而不增加计算预算。 在MoE层中引入了路由器网络,它可以高效选择处理哪些令牌的专家。尽管与含有12B参数的密集模型相比,Mixtral的模型拥有四倍的参数,但由于每个时间步选择了两个专家,因此可以快速解码。 Mixtral 8x7b具有32,000个令牌的上下文长度容量,优于Llama 2 70B,并在各种基准测试中展现出与GPT3.5相媲美或更好的结果。研究人员表示,该模型具有适用于各种应用的多功能性。它可以多语言操作,并展现其在英语、法语、德语、西班牙语和意大利语方面的流利性。其编码能力也非常出色;在HumanEval测试中得分40.2%,巩固了它作为一个全面的自然语言处理工具的地位。 Mixtral Instruct在MT-Bench和AlpacaEval等行业标准上表现出色。它在MT-Bench上的表现超过其他公开模型,并与GPT-3.5相匹配。尽管参数达到70亿,但该模型的性能类似于八个模型的集合。虽然它可能没有达到560亿参数的规模,但总参数数约为450亿。此外,Mixtral Instruct在指导和聊天模型领域表现出色,表达了其优势。 Mixtral Instruct的基本模型没有与其他基本模型对齐的特定提示格式。这种灵活性允许用户顺畅地扩展输入序列,获得合理的延续或将其用于零样本/少样本推理。 然而,有关预训练数据集的维度、组成和预处理方法的完整信息仍需进一步提供。同样,仍不知道对Mixtral instruct模型的DPO(域预提供目标)和SFT(部分微调)使用了哪些微调数据集和相关超参数。 总结一下,Mixtral 8x7b通过结合性能、适应性和创造力改变了语言模型的游戏规则。当AI社区继续研究和评估Mistral的架构时,研究人员迫切希望看到这种先进语言模型的影响和应用。MoE的8x7B能力可能为科学研究和发展、教育、医疗保健和科学开辟新的机遇。 这篇文章Meet Mixtral 8x7b: The…

Leave a Comment

“Hugging Face 上十大大型语言模型”

介绍 Hugging Face已经成为自然语言处理爱好者和开发人员的宝库,提供了各种预训练语言模型的多样集合,可以轻松集成到各种应用中。在大语言模型(LLM)的世界中,Hugging Face作为首选平台脱颖而出。本文探讨了Hugging Face上提供的前十个LLM模型,每个模型都对语言理解和生成的发展格局做出了贡献。 让我们开始吧! Mistral-7B-v0.1 Mistral-7B-v0.1是一个拥有70亿参数的大语言模型(LLM)。它被设计为预训练生成文本模型,并以在各个测试领域超越Llama 2 13B设置的基准而著称。该模型基于变形器架构,并采用了一些特定的注意机制选择,如分组查询注意力和滑动窗口注意力。Mistral-7B-v0.1还使用了字节回退的BPE标记器。 用途和应用 文本生成:Mistral-7B-v0.1非常适合需要高质量文本生成的应用,如内容创作、创意写作或自动化叙事。 自然语言理解:凭借其先进的变形器架构和注意机制,该模型可应用于涉及自然语言理解的任务,包括情感分析和文本分类。 语言翻译:鉴于其生成能力和大参数规模,该模型在语言翻译任务中可能表现出色,其中细致入微且上下文准确的翻译至关重要。 研究和开发:研究人员和开发人员可以将Mistral-7B-v0.1作为基础模型,用于各种自然语言处理项目的进一步实验和微调。 您可以在此处访问此LLM。 Starling-LM-11B-alpha 这个大型语言模型(LLM)有110亿参数,来自NurtureAI。它利用OpenChat 3.5模型作为基础,并通过AI反馈增强学习(RLAIF)进行微调,这是一种新颖的奖励训练和策略调整流程。该方法依赖于人工标记的排序数据集来指导训练过程。 用途和应用 Starling-LM-11B-alpha是一个有潜力改变我们与机器互动方式的大型语言模型。其开源特性、强大的性能和多样化的功能使其成为研究人员、开发人员和创意专业人员的宝贵工具。 自然语言处理(NLP)应用:为聊天机器人和虚拟助手生成逼真的对话、编写创意文本格式、翻译语言和总结文本。 机器学习研究:为新的NLP算法和技术的发展做出贡献。 教育和培训:提供个性化学习体验和生成互动内容。 创意产业:生成剧本、诗歌、歌词和其他创意内容。…

Leave a Comment

如何在不依赖OpenAI或LM Studio的情况下使用AutoGen?

介绍 你准备好了吗,要在没有依赖OpenAI和LM Studio的情况下创建你的AI团队了吗?不再需要花大钱或下载应用程序。从设置llama-cpp-python到使用autogen框架探索本地LLM的强大功能。准备好在不依赖OpenAI API的情况下发挥Autogen的全部潜力了吗。 学习目标 在我们深入了解细节之前,让我们概述本文的关键学习目标: 学习如何评估和比较不同的AI库和工具。 探索llama-cpp-python作为OpenAI API的替代方案。 将所获知识应用于两个真实世界的用例:构建算法导师团队和自动化财务图表生成。 通过集成的IPython探索AutoGen改进的用户体验,实时执行代码并看到结果。 本文是数据科学博客马拉松的一部分。 认识你的工具:Llama-cpp-python,AutoGen和本地LLMs 但是你可能会问,这个技术工具包有什么特别之处?Llama-cpp-python是你在本地运行LLMs的入口,包括像LLaMA这样的大牌。就像你的电脑上有AI超级明星,而且支持不同的BLAS后端,速度超乎想象! AutoGen AutoGen是一个统一的多代理对话框架,作为使用基础模型的高级抽象。它结合了能力强大、可定制和可对话的代理,通过自动对话集成LLMs、工具和人类参与者。它使代理能够自主沟通和协作,有效地简化复杂任务并自动化工作流程。 如果你渴望深入了解AutoGen的能力,并探索它如何促进战略性的AI团队建设,不妨看看我们专门的博客:“借助AutoGen轻松实现战略性AI团队建设。”这个综合资源提供了见解、用例和更详细的介绍,展示了AutoGen如何改变你的AI开发方式。 库/工具 一些库/工具提供了一个Web服务器,旨在替代OpenAI API。 除了上述选项,还有其他选择,但最佳选择取决于你的偏好和需求。 Llama-cpp-python Llama-cpp-python是llama.cpp库的Python绑定。它通过ctypes接口提供对C API的低级访问,提供了高级Python API用于文本补全、类似OpenAI的API和LangChain兼容性。它支持多个BLAS后端以加快处理速度,也支持硬件加速。…

Leave a Comment

来自AI2和华盛顿大学的研究人员揭示了LLMs中对齐的表面本质,并引入了URIAL:一种全新的无调优方法

大型语言模型(LLMs)是人工智能(AI)和深度学习领域的最新创新。像GPT、PaLM、LLaMa等等这些知名的LLMs在生成内容方面展示了令人难以置信的潜力。从问答和文本摘要到语言翻译和代码补全,这些模型可以做很多事情。包括ChatGPT在内的这些模型都经过了对广阔无监督文本语料库的广泛预训练。然而,最近的研究表明,细调整的常用做法可能并不像之前认为的那样必要。 对齐调整,即改进基本LLMs以用作开放领域AI助手的过程,已被接受为行业标准。这包括人工反馈强化学习(RLHF)和监督微调(SFT)。这一标准在一项名为LIMA的研究中受到了质疑,该研究表明,仅仅使用1000个样本进行SFT可能就足以实现有意义的对齐性能。 LIMA提出的表面对齐假设认为,对齐调整不是根本改变基本LLMs的行为,而是训练它们选择适用于用户参与的特定数据格式。这表明,只需几个样例就可以在监督微调下产生高质量的对齐模型。 由于至今还没有足够的研究为表面对齐理论提供坚实的支持,来自艾伦人工智能研究所和华盛顿大学的研究人员最近在一篇论文中讨论了对齐调整的广泛应用技术,以将基本LLMs转化为实用的开放领域AI助手。通过人工反馈的强化学习完成了偏好调整,并通过监督微调完成了指令学习。 该团队通过检查基本LLMs与其对齐的版本(如Llama-2和Llama-2-chat)之间的令牌分布变化,以研究对齐调整的影响。他们发现基本LLMs和其对齐版本在大多数位置的解码中共享排名靠前的令牌,并表现出几乎相同的性能。对话标记和安全声明是最受分布波动影响的样式令牌的例子。这项研究为假设提供了有说服力的证据,即对齐调整主要集中于融入AI助手的语言风格,而基本LLMs提供了响应用户查询所需的信息。 该团队还针对这些发现提出了一个研究课题:在没有SFT或RLHF的情况下,基本LLMs可以进行多大程度的对齐调整?他们提出了URIAL(未调整的LLMs与重新设计的上下文对齐),这是一种不需要调整的对齐技术。只需三个连续的样式示例和一个系统提示,URIAL通过基本LLMs的上下文学习(ICL)单独完成有效的对齐。 在一系列称为just-eval-instruct的实例中,该团队提供了详细易懂的分析,显示基于URIAL的基本LLMs的性能可以与或优于基于SFT(Mistral-7b-Instruct)或SFT+RLHF(Llama-2-70b-chat)进行对齐的LLMs。结果表明,有意识的提示和上下文学习可以显著缩小无调整与基于调整的对齐策略之间的差距。 总之,评估结果突出了浅层对齐调整,并表明它主要涉及采用语言风格并依赖于基本LLMs的现有知识。

Leave a Comment

‘Starling-7B 通过人工智能反馈进行强化学习的LLM’

加州大学伯克利分校的研究团队引入了Starling-7B,一个采用AI反馈强化学习(RLAIF)的开源大型语言模型(LLM)。借助先进的GPT-4标记的排名数据集Nectar以及精心设计的奖励训练和策略调整流程,Starling-7B-alpha在语言模型性能方面树立了新的标准,在MT-Bench上超越了所有模型,除了OpenAI的GPT-4和GPT-4 Turbo。 强化学习的潜力 虽然监督微调在聊天机器人系统开发中已经表现出了有效性,但是强化学习从人类反馈(RLHF)或AI反馈(RLAIF)中提升模型在规模上的潜力一直受到了有限的探索。早期的模型,如Zephyr-7B和Neural-Chat-7B,在与领先的监督微调(SFT)模型相比没有充分展示RLHF的潜力。 为了弥补这一差距,研究团队推出了Nectar,一个精心设计的高质量排名数据集,专门为聊天而量身定制,包括183K个提示和380万个成对比较。该数据集旨在促进对RLHF的更全面研究,提供了从各种模型中获取的多样化的提示。 奖励模型Starling-RM-7B-alpha的发布以及在HuggingFace上进行的精调LLM模型Starling-LM-7B-alpha的发布,标志着开源人工智能研究的重要进展。值得注意的是,该模型的MT-Bench分数从7.81上升到令人印象深刻的8.09,伴随着AlpacaEval的显著提高,将聊天机器人的有用性从88.51%提升至91.99%。 还阅读: 什么是强化学习以及它如何工作(2023年) 模型评估 评估Starling-7B存在独特的挑战。随着RLHF后LLM表现出卓越的有用性和安全特性,MT-Bench和AlpacaEval分数的提高证明了这一点。然而,它在基于知识的问答、数学和编码方面的基本能力仍然保持稳定或略有下降。 将其纳入LMSYS聊天机器人竞技场进行直接聊天和匿名比较提供了测试人类偏好的平台。评估还突出了使用OpenLLM排行榜作为聊天模型基准的局限性,强调了Alpaca Eval和MT-Bench提供的微妙评估的重要性。 合成偏好数据的Goodhart定律 需要考虑的一个关键方面是合成偏好数据的Goodhart定律。虽然更高的MT-Bench分数表示根据GPT-4的改进模型性能,但不一定与人类偏好相关。RLHF主要增强了响应风格,特别是在有用性和安全性等方面,展示了在线RL方法在广泛的偏好数据上的扩展潜力。 局限性 尽管Starling-7B表现出色,但在涉及推理或数学任务方面仍存在局限性。此外,对越狱提示的敏感性和偶尔输出过于冗长的问题也得到了承认。研究团队致力于持续改进,欢迎社区的合作,以加强开放数据集、奖励模型和使用RLHF的语言模型。 我们的观点 以其RLAIF方法和细致入微的数据集创建,Starling-7B体现了强化学习在语言模型中的潜力。尽管仍面临挑战和限制,但对改进的承诺以及与更广泛社区的合作,使Starling-7B成为人工智能研究领域中前沿的标杆。请继续关注更多更新,团队将深入探讨RLHF机制的优化和对人工智能安全研究的贡献。

Leave a Comment

加州大学伯克利分校研究人员推出了Starling-7B:一种由强化学习和人工智能反馈训练的开放式大型语言模型(LLM)

将以下HTML代码翻译成中文(保留HTML代码): 大型语言模型(LLM)是用于自然语言处理任务的人工智能模型。这些模型经过大规模的数据集训练,能够理解和生成人类般的文本。它们通过理解和生成人类般的文本,改变了自然语言处理的方式。在生活中各个领域都具有实用性。 加州大学伯克利分校的研究人员推出了一个名为Starling-7B的开放大型语言模型(LLM),该模型通过基于强化学习的人工智能反馈(RLAIF)进行训练。该模型利用我们最近开发的奖励训练和策略调整管道、我们的新GPT-4标记分类数据集(Nectar)以及先进的奖励训练和策略调整管道。 https://starling.cs.berkeley.edu/ Starling-7B的基础是GPT-4标记分类数据集(Nectar)。该数据集包含183,000条聊天提示,每个提示提供了来自不同模型(如GPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct和Llama2-7B)的七个回复,共计380万个配对比较。为了确保公正性,在提示GPT-4进行排名时,研究人员付出了相当大的努力来减小位置偏差,这个过程在数据集部分详细说明。 https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha 他们使用了一个学习奖励模型来改进Openchat 3.5语言模型,并取得了令人印象深刻的结果。AlpacaEval得分从88.51%增加到91.99%,而MT-Bench得分从7.81增加到8.09。这些度量标准作为评估聊天机器人有多实用的标准。 研究人员使用直接优化偏好(DPO)将该模型与早期的开源模型(如Zephyra-7B、Neural-Chat-7B和Tulu-2-DPO-70B)进行了测试。虽然这些模型在聊天机器人领域表现良好,但与顶级SFT模型(如OpenHermes 2.5和Openchat 3.5在MT Bench中)相比,它们可能没有充分发挥RLHF的潜力。 研究人员强调该模型存在一定的挑战。它容易受到欺骗或操纵方法的影响。此外,模型在处理数学或推理任务时存在困难,并且其输出的事实准确性只能有时保证。他们还指出,模型偶尔会过于冗长,容易被越狱提示所影响。他们表示,依然致力于改进Starling-7B的这些缺陷。 为了解决这个问题,他们提出通过利用基于规则的奖励模型来进一步改进该模型,其中GPT-4作为指导,使用GPT-4技术报告中概述的技术。 总之,Starling-7B代表了LLM的重大进展,展示了通过人工智能反馈进行强化学习的可能性。自然语言处理领域正在因这些模型与社区共享的知识的合作而得到增强。研究人员正在努力改进模型的性能并解决这些限制。 本文来源:加州大学伯克利分校研究人员介绍Starling-7B:一种基于强化学习的开放大型语言模型(LLM) ,首发于MarkTechPost。

Leave a Comment

相遇‘DRESS’:一个大型视觉语言模型(LVLM),通过自然语言反馈与人类进行对齐和交互

大型视觉语言模型(LVLM)能够解释视觉线索并为用户提供互动的简单回复。这是通过巧妙地将大规模语言模型(LLMs)与大规模视觉指令微调相结合实现的。然而,LVLMs只需要手工制作或LLM生成的数据集通过监督微调(SFT)来进行对齐。尽管将LVLMs从字幕生成器变成遵循指令的模型是行之有效的,但是LVLMs仍然可能产生伤害、恶意或无用的回复。这表明它们仍然需要更加与人类偏好保持一致。此外,尽管先前的研究鼓励将视觉指令微调样本组织成多轮形式,但是LVLMs的互动能力受到不同轮次之间薄弱的连接和相互依赖的限制。在这里,互动能力评估了LVLMs在多回合互动中如何使用先前的上下文调整其回复。这两个缺点限制了LVLMs作为视觉助手的实际应用。 来自SRI International和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了DRESS,一种在本研究中使用LLMs生成的自然语言反馈(NLF)来独特教授LVLMs的方法(参见图1)。研究团队要求LLMs对LVLMs的回复提供细致的反馈,通过提供具体规则和广泛的照片注释来完成。与创建与人类对齐的LLMs的过程相一致,这种反馈注释考虑了三个H标准:有用性、诚实性和无害性。反馈以3H标准综合评估回复的整体质量,并提供数值分数和NLF。研究团队的方法将NLF分为批评和改进两个部分。改进NLF向LVLMs提供了改善回复以使其与参考标准保持一致的精确建议,而批评NLF评估了回复的优点和缺点。这种分类为两种类型的NLF的自然应用提供了可能,使LVLMs更能被人类接受并增强其互动能力。 图1:研究人员指导DRESS使用自然语言输入,将其分为批评和改进两类,以增强其与人类偏好的一致性和互动能力。 研究团队将条件强化学习技术推广到非可微的NLF特性上,并用这种反馈来训练LVLMs。具体而言,研究团队使用回复的语言建模(LM)损失对DRESS进行训练,以生成在两种NLF条件下的等效回复。通过分析和解释数值结果来进一步改进DRESS,以更好地匹配用户偏好。通过推理过程中的多轮互动,研究团队训练DRESS学习通过采用改进NLF来改善其原始回复的元技能。 研究团队对DRESS进行了多轮互动、对无害性评估的对抗提示、用于诚实性评估的图片字幕以及用于有用性评估的开放式视觉问题回答的实验评估。实验结果表明,与早期的LVLMs相比,DRESS能够提供与人类价值观一致的回复,并具有更强的互动能力,可以高效地从反馈中学习并修改回复。据研究团队所知,他们的工作是首次同时考虑LVLMs的互动能力和全部三个3H标准。 研究团队的贡献总结如下: • 研究团队建议使用自然语言反馈(NLF),可分为批评和改进NLF,以增强LVLMs的互动能力和与人类偏好的一致性。 • 通过训练模型,使其提供基于NLF的匹配回答,研究小组成功地将有条件的强化学习方法推广到了不可微分的NLF上。与之前的最佳模型相比,研究小组提出的模型DRESS在有益性、诚实性和无害性对齐的系统评估中分别表现出了相对改进的9.76%、11.52%和21.03%。 • 研究小组生成并公开了63K个带注释的NLF语言示例,包括3H特性。此外,研究小组还创建了一个公开可用的数据集,其中包含4.7K个用于无害对齐和LVLM评估的样本。

Leave a Comment

斯坦福研究人员在大型语言模型的准确性方面创新:自动优先排名和NLP(自然语言处理)进展以降低错误率

来自斯坦福大学和北卡罗来纳大学教堂山分校的研究人员解决了由语言模型产生的事实不准确的音调,也称为幻觉。在无需人工标注的情况下,研究人员对语言模型进行了微调,以增强在开放式生成环境中的事实准确性。利用自然语言处理的最新创新,他们采用了通过与外部知识库一致性评估事实性的方法,并使用直接偏好优化算法进行微调。该方法显著改善了Llama-2的事实性,大大降低了生成传记和医学问题回答方面的事实错误率,达到了7B规模。 各种策略旨在减轻语言模型中的事实错误,包括提示、内部表示扰动和基于检索的方法。在冲突解决和事实保持方面存在挑战,尤其是随着模型规模的增大。FactScore变种采用了训练期间的检索来解决推理时间复杂度的问题。通过微调实现的基于偏好的学习能够有效减少错误事实。该研究引入了一种无参考方法,利用语言模型的不确定性估计真实性。从自动生成的偏好对中学习事实性成为一种省时高效的方法,展示了不需要人工干预的潜力性改进。 该研究侧重于无限制生成环境,提出了一种通过微调语言模型来改善事实性的方法,无需人工标注。他们利用最新的自然语言处理创新,包括通过外部知识库判断事实性和使用直接偏好优化算法。该方法涉及从自动生成的事实性偏好排序中学习,与基准数据集上的其他策略相比,生成传记和回答医学问题的事实错误率显着降低。 本研究在判断事实性方面结合了与外部知识库一致性或模型置信度评分。 使用直接偏好优化算法进行微调,侧重于超越监督模仿的目标。它提出使用现有的检索系统或新颖的无检索方法,从自动生成的事实性偏好排序中学习。评估包括FactScore等自动度量标准,人工评估者的观点,以及与推理时间干预和对比层解码等方法的比较。 该方法证明了从自动生成的事实性偏好排序中学习以提高语言模型事实性的有效性。经过微调的Llama-2模型在生成传记方面的事实错误率降低了58%,在回答医学问题方面降低了40%,与RLHF或解码策略相比。 人工评估者认为FactTune-FS模型优于SFT模型。 GPT-4评估和FactScore评级显示高相关性,表明FactTune-FS在减少事实错误方面取得了成功。 该研究提出了改善语言模型事实性的有效策略,着重于长篇生成。 探索了两种方法:利用外部知识进行基于参考的真实性估计和利用模型的不确定性进行无参考估计。 用任一方法微调语言模型始终能减少错误事实。 无参考方法为事实性改进提供了可扩展的自我监督策略,无需金标准参考语料库。 实验结果显示出有希望的研究方向,建议进一步探索结合事实性调整方法并将方法扩展至更大模型。 未来的研究建议探索事实性调整与现有方法的组合,例如事实性调整DOLA实验。 建议进一步研究将事实性增强的解码技术与事实性调整过程相结合以提高事实性。 通过评估不同方法的组合效果,如事实性调整和推理时间干预,可以提供关于补充机制的见解。 建议研究较简单的提取原子事实的方法,并将事实性调整方法扩展到更大模型,如GPT-4。

Leave a Comment

在亚马逊SageMaker JumpStart中使用Llama 2 Chat LLM的最佳提示实践

Llama 2位于人工智能创新的前沿,具备先进的自回归语言模型,基于复杂的变换器架构开发而成它专为商业和研究领域中的各种应用量身定制,主要的语言集中在英语上其模型参数从令人印象深刻的70亿增加到了引人注目的[…]

Leave a Comment

揭开意图对齐的密码:Zephyr-7B通过精炼监督微调和人工智能反馈的突破性指南

ZEPHYR-7B,对用户意图校准进行优化的较小语言模型,通过蒸馏的直接偏好优化(dDPO)和使用AI反馈(AIF)数据实现。这种方法显着增强了意图的校准,无需人工注释,在7B参数模型的聊天基准上实现了最佳性能。该方法依赖AIF的偏好数据,训练时间较短,细调期间无需额外采样,创造了新的最先进技术。 研究人员讨论了ChatGPT及其派生模型,如LLaMA、MPT、RedPajama-INCITE、Falcon和Llama 2的普及,重点在于细调、上下文、检索增强生成和量子化方面的进展。讨论了用于改善较小模型性能的蒸馏技术,以及用于模型评估的工具和基准。该研究评估了ZEPHYR-7B在MTBench、AlpacaEval和HuggingFace的开放型LLM排行榜上的表现。 该研究讨论了使用蒸馏的监督细调(dSFT)来增强较小的开放型LLM,以提高准确性和用户意图校准。它引入了dDPO来对齐LLMs,无需人工注释,依赖于来自教师模型的AIF。研究人员介绍了ZEPHYR-7B,它是通过dSFT、AIF数据和dDPO达到的Mistral-7B版本,证明了其与人类反馈对齐的70B参数聊天模型的性能相当。它强调了LLM发展中意图对齐的重要性。 该方法概述了增强语言模型的方法,将dSFT与高质量数据一起训练模型,并使用dDPO来通过优化响应偏好来精化模型。使用来自教师模型的AIF来改进与用户意图的对齐。该过程涉及迭代自提示以生成训练数据集。通过dSFT、AIF数据和dDPO实现的ZEPHYR-7B模型代表了具有改进意图对齐的最先进的聊天模型。 ZEPHYR-7B,一个具有7B参数的模型,在聊天基准中树立了新的最先进技术,超越了LLAMA2-CHAT-70B,最佳的开放式RLHF模型。它在AlpacaEval中与GPT-3.5-TURBO和CLAUDE 2竞争良好,但在数学和编码任务方面落后。在7B模型中,dDPO模型出色,优于dSFT和Xwin-LM dPPO。然而,较大的模型在知识密集型任务中表现更好。在开放型LLM排行榜上对ZEPHYR的评估显示其在多类分类任务中的优势,验证了其在经过细调后的推理和真实能力。 ZEPHYR-7B采用直接偏好优化来增强意图对齐。该研究强调了将GPT-4作为评估器时潜在的偏见,并鼓励探索较小的开放型模型在用户意图对齐方面的能力。它指出了对安全性考虑(如有害输出或非法建议)的疏漏,表明未来需要在这一重要领域开展研究。 该研究确定了未来研究的几个方向。尚未探索安全性考虑,解决有害输出和非法建议的问题。建议研究较大的教师模型对蒸馏以改善学生模型性能的影响。尽管具有挑战性,但使用合成数据进行蒸馏被认为是一个有价值的研究领域。鼓励进一步探索较小开放型模型及其与用户意图对齐的能力,以推动潜在的进展。建议在更广泛的基准和任务上对ZEPHYR-7B进行评估,全面评估其能力。

Leave a Comment

克服AI中的幻觉:如何通过事实增强的RLHF优化大型多模态模型中的视觉语言对齐

通过使用图像-文本配对的附加预训练或对其进行精细调整以用于专门的视觉指令调整数据集,大型语言模型可以深入多模态领域,产生强大的大型多模态模型。然而,构建LMMs存在一些障碍,其中最主要的是多模态数据与仅文本数据集之间的数量和质量差异。以LLaVA模型为例,它由预训练的视觉编码器和针对指令进行调整的语言模型初始化。与仅使用超过100M个示例进行1800项任务的纯文本模型相比,它仅在150K个基于图像的人工对话上进行训练。由于这样的数据限制,视觉和语言模态可能不会对齐。 因此,LMMs可能会生成与图片给出的上下文不准确相关的幻觉输出。加州大学伯克利分校、CMU、UIUC、UW-Madison、UMass Amherst微软研究院和MIT-IBM Watson AI实验室的研究人员提出了LLaVA-RLHF,这是一种用于增强多模态对齐的视觉语言模型,以解决LMM训练中高质量视觉指令调整数据的缺失所带来的问题。他们的一个主要贡献是将LMM的多模态对齐调整为称为”从人类反馈中进行强化学习”的通用且可扩展的对齐范式,该对齐范式对于基于文本的AI代理人已经表现出显著的有效性。为了调整LMM,它收集人类偏好,重点关注识别幻觉,并将这些偏好用于强化学习。 这种策略可能可以在相对便宜的注释成本下改善多模态对齐,例如为基于图像的讨论收集10K个人类偏好需要3000美元。据他们所知,这种策略是多模态对齐领域中首次有效使用RLHF。仅仅获得奖励模型的高评分并不一定等同于改善人类判断,这就是奖励破解。这是目前RLHF范式可能存在的问题。先前的研究提出了迭代收集“新鲜”的人类反馈来阻止激励破解,但这种方法通常很昂贵,无法正确利用现有的人类偏好数据。本研究提出了一种更加高效利用数据的选择,试图使奖励模型能够利用由人类标注的更大型语言模型中已存在的知识和数据。 图1:图解了LMM训练的受监督微调(SFT)阶段期间可能出现幻觉的可能性,以及事实增强RLHF如何解决奖励模型能力低下的问题,该模型从SFT模型初始化。 首先,他们使用分辨率更高、规模更大的语言模型以及更优秀的视觉编码器来提升奖励模型的整体功能。其次,他们提出了事实增强RLHF算法,如图1所示,通过补充额外信息(如图片描述或基于真实多选项)来校准奖励信号。他们还将合成的视觉指令调整数据与现有的高质量人类注释的多模态对话数据进行增强,以提高LMMs在受监督微调阶段的总体能力。他们特别将Flickr30k转换为定位描述任务,将VQA-v2和A-OKVQA转换为多轮问答任务,并使用新的数据集训练LLaVA-SFT+模型。 最后,他们考虑了如何评估LMMs在实际创作情境中的多模态对齐,特别关注惩罚任何幻觉。他们开发的基准问题集MMHAL-BENCH涵盖了COCO的12个主要物体类别,并包含了8种工作类型。根据他们的分析,该基准数据集与人类评估非常接近,尤其是如果考虑反幻觉的分数。作为首个经过RLHF训练的LMM,LLaVA-RLHF在实验评估中表现出色。他们在LLaVA-Bench上看到了94%的改善,在MMHAL-BENCH上改善了60%,并在MMBench上刷新了52.4%的性能记录和POPE上82.7%的F1值。他们已经在GitHub上公开了他们的代码、模型和数据。

Leave a Comment

在Amazon SageMaker上使用RLHF来提高您的LLMs

在本博客文章中,我们演示了如何在Amazon SageMaker上使用RLHF进行实验,通过使用流行的开源RLHF仓库Trlx通过我们的实验,我们展示了如何使用公开可用的由Anthropic提供的Helpfulness and Harmlessness(HH)数据集来增加大型语言模型的帮助性或无害性使用这个数据集,我们在一个运行在ml.p4d.24xlarge实例上的Amazon SageMaker Studio笔记本上进行了实验最后,我们提供一个Jupyter笔记本来复现我们的实验

Leave a Comment

这项人工智能研究提出了DISC-MedLLM:一种综合解决方案,利用大型语言模型(LLMs)提供准确的医疗响应

远程医疗的兴起改变了医疗的提供方式,打开了专业网络,降低了价格,并允许进行远程医疗咨询。此外,智能医疗系统通过添加医疗信息提取、药物推荐、自动诊断和健康问题解答等功能,改进了在线医疗服务。虽然在构建智能医疗系统方面取得了一些进展,但早期研究集中在特定问题或疾病上,具有狭窄的应用范围,导致实验性进展与实际应用之间存在差距。为了弥合这一差距,需要提供更广泛的医疗场景的完整解决方案,并为消费者提供最高品质的端到端对话式医疗服务。 近期,大型语言模型展示了与人类进行有意义对话和遵循指令的惊人能力。这些进展为开发医疗咨询系统创造了新的机会。然而,涉及医疗咨询的情况通常更为复杂,超出了通用领域的语言模型的范围。图1展示了一个真实世界医疗咨询的示例。它展示了两个特点。首先,需要全面可信的医疗知识来理解对话并在每个阶段做出适当回应。通用领域的语言模型提供与特定情况无关的输出,存在主要的幻觉问题。 其次,通常需要进行多轮对话才能获得足够了解患者情况以提供医疗咨询的知识,并且每个对话轮次都有一个明确的目标。然而,通用领域的语言模型在用户健康状况的具体问题上往往具有有限的多轮查询能力,并且是单轮代理。基于这两点发现,复旦大学、西北工业大学和多伦多大学的研究人员认为,医疗语言模型应该对全面可信的医疗知识进行编码,同时符合真实世界医疗对话的分布特征。受到指令调整的成功启发,他们研究如何构建高质量的监督微调数据集,用于训练医疗语言模型,并包括医学知识和咨询行为模式。 在实际应用中,他们使用三种不同的方法创建样本: • 基于医疗知识图的样本开发。根据从真实世界咨询数据集中收集的患者查询分布,他们使用以科室为导向的方法从医疗知识网络中选择知识三元组。然后使用GPT-3.5为每个三元组创建问答对。结果得到了50k个样本。 • 重建真实对话。为了改善语言模型,从医疗论坛收集的咨询记录是合适的数据源。这些文档中使用的语言是非正式的,术语的呈现方式不一致,各种医疗从业者的表达风格各异。因此,他们使用GPT-3.5使用实际案例重新创建对话。结果得到了420k个样本。 • 样本收集后,进行人工选择。他们从涵盖各种咨询设置的真实医疗对话记录中手动选择了一小组条目,并重新编写了某些示例以符合人类意图。他们还确保每个对话的整体质量在人工引导重建后得到保证。结果得到了2k个样本。然后,使用新创建的SFT数据集在拥有13B个参数的通用领域中文语言模型的基础上,通过两阶段训练过程训练DISC-MedLLM。他们从两个角度评估模型的性能,以确定其在多轮对话中提供系统咨询和在单轮对话中提供准确回复的能力。 图1:患者和真实医生之间对话的示例。医生回应中提到的医学实体由蓝色高亮文本标示。每一轮,医生的行为显示特定的意图:(1)在第一轮,进行更多的研究以收集有助于确定潜在情景的数据;(2)在第二轮,进行初步诊断并提出明确建议;(3)在第三轮,根据医疗状况提供具体的治疗选择。 他们从三个公共医学数据集中收集了一系列多项选择题,并使用该题库对单轮对话进行了模型准确性评估。对于多轮对话评估,他们首先使用GPT-3.5创建了一小组优秀咨询案例,模拟患者与模型进行对话。然后使用GPT-4评估模型的主动性、准确性、有用性和语言质量。实验结果显示,尽管不及GPT-3.5,但DISCMedLLM在参数相同的情况下平均超过了医学大规模华佗GPT 10%。 此外,在模拟医学咨询环境中,DISC-MedLLM的整体表现优于基准模型,如GPT-3.5、华佗GPT和扁鹊。DISC-MedLLM在涉及医学部门和患者意图的案例中表现出色,并超过了其他中文医学LLM。

Leave a Comment

谷歌研究探索:在大型语言模型中,人工智能反馈能否替代人类输入进行有效的强化学习?

人类反馈对于改进和优化机器学习模型至关重要。近年来,来自人类反馈的强化学习(RLHF)在将大型语言模型(LLMs)与人类偏好相一致方面被证明非常有效,但是收集高质量的人类偏好标签仍然是一个重大挑战。在一项研究中,Google AI的研究人员试图比较RLHF和从AI反馈中进行强化学习(RLAIF)。RLAIF是一种技术,其中偏好由预训练的LLM标记,而不是依靠人类注释者。 在这项研究中,研究人员在概括任务的背景下直接比较了RLAIF和RLHF。他们的任务是为给定文本的两个候选回答提供偏好标签,利用现成的大型语言模型(LLM)。随后,基于LLM推断得出的偏好,利用对比损失训练了一个奖励模型(RM)。最后一步是通过强化学习技术对策略模型进行微调。上面的图片展示了RLAIF(上)与RLHF(下)的示意图。 上面的图片展示了SFT、RLHF和RLAIF策略为Reddit帖子生成的示例摘要。与未能捕捉关键细节的SFT相比,RLHF和RLAIF生成了更高质量的摘要。 该研究中呈现的结果表明,当以两种不同的方式进行评估时,RLAIF的性能与RLHF相当: 首先,观察到RLAIF和RLHF策略在71%和73%的情况下都得到了人类评估者的偏好,超过了监督微调(SFT)基线。重要的是,统计分析没有显示出两种方法之间的胜率之间存在显著差异。 其次,当人类被要求直接比较RLAIF和RLHF生成的结果时,他们对两种方法表达了相同的偏好,导致两种方法的胜率均为50%。这些发现表明,RLAIF是RLHF的可行替代方案,独立于人类注释操作,并具有可扩展性。 需要注意的是,这项工作仅探讨了概括任务,对于其他任务的泛化性尚未得到解决。此外,该研究没有估计大型语言模型(LLM)推断在经济支出方面是否比人类标注具有成本效益。未来,研究人员希望探索这个领域。

Leave a Comment

Llama 2:深入探究ChatGPT的开源挑战者

“能够进行复杂推理任务的大型语言模型(LLMs)在编程和创意写作等专业领域显示出潜力然而,LLMs的世界并不仅仅是一个即插即用的天堂;在可用性、安全性和计算需求方面存在一些挑战在本文中,我们将深入探讨Llama 2的能力,同时提供一个[…]”

Leave a Comment

Can't find what you're looking for? Try refining your search: