Press "Enter" to skip to content

Tag: Reinforcement Learning

‘Starling-7B 通过人工智能反馈进行强化学习的LLM’

加州大学伯克利分校的研究团队引入了Starling-7B,一个采用AI反馈强化学习(RLAIF)的开源大型语言模型(LLM)。借助先进的GPT-4标记的排名数据集Nectar以及精心设计的奖励训练和策略调整流程,Starling-7B-alpha在语言模型性能方面树立了新的标准,在MT-Bench上超越了所有模型,除了OpenAI的GPT-4和GPT-4 Turbo。 强化学习的潜力 虽然监督微调在聊天机器人系统开发中已经表现出了有效性,但是强化学习从人类反馈(RLHF)或AI反馈(RLAIF)中提升模型在规模上的潜力一直受到了有限的探索。早期的模型,如Zephyr-7B和Neural-Chat-7B,在与领先的监督微调(SFT)模型相比没有充分展示RLHF的潜力。 为了弥补这一差距,研究团队推出了Nectar,一个精心设计的高质量排名数据集,专门为聊天而量身定制,包括183K个提示和380万个成对比较。该数据集旨在促进对RLHF的更全面研究,提供了从各种模型中获取的多样化的提示。 奖励模型Starling-RM-7B-alpha的发布以及在HuggingFace上进行的精调LLM模型Starling-LM-7B-alpha的发布,标志着开源人工智能研究的重要进展。值得注意的是,该模型的MT-Bench分数从7.81上升到令人印象深刻的8.09,伴随着AlpacaEval的显著提高,将聊天机器人的有用性从88.51%提升至91.99%。 还阅读: 什么是强化学习以及它如何工作(2023年) 模型评估 评估Starling-7B存在独特的挑战。随着RLHF后LLM表现出卓越的有用性和安全特性,MT-Bench和AlpacaEval分数的提高证明了这一点。然而,它在基于知识的问答、数学和编码方面的基本能力仍然保持稳定或略有下降。 将其纳入LMSYS聊天机器人竞技场进行直接聊天和匿名比较提供了测试人类偏好的平台。评估还突出了使用OpenLLM排行榜作为聊天模型基准的局限性,强调了Alpaca Eval和MT-Bench提供的微妙评估的重要性。 合成偏好数据的Goodhart定律 需要考虑的一个关键方面是合成偏好数据的Goodhart定律。虽然更高的MT-Bench分数表示根据GPT-4的改进模型性能,但不一定与人类偏好相关。RLHF主要增强了响应风格,特别是在有用性和安全性等方面,展示了在线RL方法在广泛的偏好数据上的扩展潜力。 局限性 尽管Starling-7B表现出色,但在涉及推理或数学任务方面仍存在局限性。此外,对越狱提示的敏感性和偶尔输出过于冗长的问题也得到了承认。研究团队致力于持续改进,欢迎社区的合作,以加强开放数据集、奖励模型和使用RLHF的语言模型。 我们的观点 以其RLAIF方法和细致入微的数据集创建,Starling-7B体现了强化学习在语言模型中的潜力。尽管仍面临挑战和限制,但对改进的承诺以及与更广泛社区的合作,使Starling-7B成为人工智能研究领域中前沿的标杆。请继续关注更多更新,团队将深入探讨RLHF机制的优化和对人工智能安全研究的贡献。

Leave a Comment

“将生成式人工智能和强化学习融合实现自我改进”

介绍 在人工智能不断发展的领域中,两个关键角色联手合作,打开了新的局面:生成式人工智能和强化学习。这些尖端技术有潜力创造自我改进的人工智能系统,使我们离实现机器自主学习和适应的梦想更近了一步。这些工具为能够改进自己的人工智能系统铺平了道路,使得机器能够自主学习和自适应的想法更加接近。 近年来,人工智能在理解人类语言、帮助计算机观察和解释周围世界方面取得了巨大成就。像GPT-3这样的生成式人工智能模型和Deep Q-Networks这样的强化学习算法站在这一进展的前沿。尽管这些技术在单独使用时已经具有了革命性的影响力,但它们的融合打开了人工智能能力的新维度,并将世界的边界推向了更舒适的境地。 学习目标 获取关于强化学习及其算法、奖励结构、强化学习的一般框架和状态-动作策略的必要和深入的知识,以了解代理机构如何做出决策。 探索这两个领域如何共生地结合在一起,以在决策情景中创建更具适应性和智能性的系统。 研究和分析各种案例研究,展示将生成式人工智能与强化学习在医疗保健、自主车辆和内容创作等领域进行整合的有效性和适应性。 熟悉Python库,如TensorFlow、PyTorch、OpenAI’s Gym和Google’s TF-Agents,以在实施这些技术时获得实际的编程经验。 本文作为数据科学博文马拉松的一部分发表。 生成式人工智能:赋予机器创造力 生成式人工智能模型,如OpenAI的GPT-3,旨在生成内容,无论是自然语言、图像还是音乐。这些模型的工作原理是预测在给定上下文中接下来会发生什么。它们已经被用于自动化内容生成和能够模仿人类对话的聊天机器人等方面。生成式人工智能的特点是能够从学习到的模式中创造出新的东西。 强化学习:教会人工智能做出决策 来源–Analytics Vidhya 强化学习(RL)是另一个开创性的领域。它是让人工智能像人类一样通过试错学习的技术。它已经被用于教授人工智能玩复杂的游戏,如Dota 2和围棋。强化学习代理通过接收行为的奖励或惩罚来学习,并利用这些反馈来不断改进。从某种意义上讲,强化学习使人工智能获得了一种自治形式,使其能够在动态环境中做出决策。 强化学习的框架 在本节中,我们将揭示强化学习的关键框架: 行为实体:代理机构 在人工智能和机器学习领域,术语“代理机构”指的是任务是与指定的外部环境进行交互的计算模型。它的主要角色是做出决策和采取行动,以实现既定目标或在一系列步骤中累积最大奖励。 周围的世界:环境 “环境”指的是代理人操作的外部背景或系统。实质上,它构成了超出代理人控制范围但可以观察到的每一个因素。这可以是虚拟游戏界面,也可以是机器人在迷宫中导航的现实世界环境。环境是评估代理人表现的“真实基准”。…

Leave a Comment

强化学习与高性能决策制定:策略与优化

介绍 从人类因素/反馈中进行强化学习(RLHF)是一个新兴领域,它将RL的原则与人类反馈相结合。它将被设计用于优化决策和增强实际复杂系统的性能。高性能的RLHF侧重于通过利用计算模型和数据驱动方法来改善各个领域的设计、易用性和安全性,从而理解人类行为、认知、环境、知识和互动。 RLHF旨在通过将RL算法与人类因素原则结合起来,弥合以机器为中心的优化和以人为中心的设计之间的差距。研究人员试图创建适应人类需求、喜好和能力的智能系统,最终增强用户体验。在RLHF中,计算模型模拟、预测和指导人类反应,使研究人员能够洞察个体如何做出明智决策并与复杂环境互动。想象一下将这些模型与强化学习算法相结合!RLHF旨在优化决策过程,提高系统性能,并在未来几年增强人机协作。 学习目标 了解RLHF的基本原理及其在以人为中心的设计中的重要性是第一步。 探索在各个领域中优化决策和性能的RLHF应用。 识别与RLHF相关的关键主题,包括强化学习、人类因素工程和自适应界面。 认识知识图在促进数据整合和洞察RLHF研究和应用中的作用。 RLHF:革新以人为中心的领域 以人类因素为基础的强化学习(RLHF)有潜力改变人类因素至关重要的各个领域。它利用对人类认知限制、行为和互动的理解,创建了适应性界面、决策支持系统和个性化辅助技术,从而提高效率、安全性和用户满意度,促进了全行业的采用。 在RLHF的持续发展中,研究人员正在探索新的应用,并解决将人类因素整合到强化学习算法中的挑战。通过结合计算模型、数据驱动方法和以人为中心的设计,RLHF为先进的人机协作和优化决策、提高性能的智能系统铺平了道路,适用于各种复杂的实际场景。 为什么选择RLHF? RLHF对于医疗保健、金融、交通、游戏、机器人技术、供应链、客户服务等各个行业都非常有价值。RLHF使得AI系统能够以更符合人类意图和需求的方式学习,使得在各种实际应用案例和复杂挑战中,使用起来更加舒适、安全和有效。 RLHF的价值在哪里? 使AI在复杂环境中发挥作用是RLHF的能力,在许多行业中,AI系统操作的环境通常是复杂且难以准确建模的。而RLHF允许AI系统从人类因素中学习,并适应这些复杂情景,传统方法在效率和准确性方面无法满足。 RLHF促进负责任的AI行为,以与人类价值观、道德和安全一致。对这些系统的持续人类反馈有助于防止不良行为。另一方面,RLHF通过纳入人类因素、判断、优先级和偏好的方式,提供了指导代理学习过程的替代方法。 提高效率并降低成本在某些场景下,需要通过使用知识图或训练AI系统进行大量的试错。在特定情况下,这两种方法都可以在动态环境中快速采用。 实时适应的RPA和自动化在大多数行业中,已经使用了RPA或一些自动化系统,这些系统要求AI代理在快速变化的情况下迅速适应。RLHF通过人类反馈帮助这些代理实时学习,提高性能和准确性,即使在不确定的情况下也能做到。我们将这称为“决策智能系统”,RDF(资源开发框架)甚至可以将语义Web信息带入同一系统,有助于做出明智的决策。 数字化专业知识:在每个行业领域,专业知识都是至关重要的。借助RLHF的帮助,AI系统可以从专家知识中学习。同样,知识图和RDF允许我们将这些来自专家演示、流程、解决问题的事实和判断能力的知识数字化。RLHF甚至可以有效地将知识传递给代理。 根据需求进行定制:持续改进是AI系统通常在实际场景中运行的重要考虑因素之一,它们可以从用户和专业人士那里获得持续的反馈,使得AI能够根据反馈和决策不断改进。 RLHF的工作原理 RLHF通过将人类知识与强化学习技术相结合,填补了机器学习和人类专业知识之间的差距,使得AI系统在准确性和效率上更易于采用。 人类反馈强化学习(RLHF)是一种机器学习方法,通过将人类提供的反馈融入学习过程中,提高了AI智能体的训练效果。RLHF解决了传统强化学习在模糊的奖励信号、复杂的环境或需要将AI行为与人类价值观保持一致的挑战。 在RLHF中,AI智能体与环境进行交互并接收奖励反馈。然而,这些奖励可能不足、噪声干扰或难以准确定义。人类反馈对于有效引导智能体的学习至关重要。这种反馈可以采用不同的形式,例如明确的奖励、期望行为的演示、比较、排名或定性评估。 智能体通过调整其策略、奖励函数或内部表示来将人类反馈融入学习过程中。反馈和学习的融合使得智能体能够改进其行为、从人类专业知识中学习并与期望的结果保持一致。挑战在于在保持人类偏好的前提下,平衡探索(尝试新动作)和利用(选择已知动作)以有效学习。…

Leave a Comment

谷歌研究探索:在大型语言模型中,人工智能反馈能否替代人类输入进行有效的强化学习?

人类反馈对于改进和优化机器学习模型至关重要。近年来,来自人类反馈的强化学习(RLHF)在将大型语言模型(LLMs)与人类偏好相一致方面被证明非常有效,但是收集高质量的人类偏好标签仍然是一个重大挑战。在一项研究中,Google AI的研究人员试图比较RLHF和从AI反馈中进行强化学习(RLAIF)。RLAIF是一种技术,其中偏好由预训练的LLM标记,而不是依靠人类注释者。 在这项研究中,研究人员在概括任务的背景下直接比较了RLAIF和RLHF。他们的任务是为给定文本的两个候选回答提供偏好标签,利用现成的大型语言模型(LLM)。随后,基于LLM推断得出的偏好,利用对比损失训练了一个奖励模型(RM)。最后一步是通过强化学习技术对策略模型进行微调。上面的图片展示了RLAIF(上)与RLHF(下)的示意图。 上面的图片展示了SFT、RLHF和RLAIF策略为Reddit帖子生成的示例摘要。与未能捕捉关键细节的SFT相比,RLHF和RLAIF生成了更高质量的摘要。 该研究中呈现的结果表明,当以两种不同的方式进行评估时,RLAIF的性能与RLHF相当: 首先,观察到RLAIF和RLHF策略在71%和73%的情况下都得到了人类评估者的偏好,超过了监督微调(SFT)基线。重要的是,统计分析没有显示出两种方法之间的胜率之间存在显著差异。 其次,当人类被要求直接比较RLAIF和RLHF生成的结果时,他们对两种方法表达了相同的偏好,导致两种方法的胜率均为50%。这些发现表明,RLAIF是RLHF的可行替代方案,独立于人类注释操作,并具有可扩展性。 需要注意的是,这项工作仅探讨了概括任务,对于其他任务的泛化性尚未得到解决。此外,该研究没有估计大型语言模型(LLM)推断在经济支出方面是否比人类标注具有成本效益。未来,研究人员希望探索这个领域。

Leave a Comment

在RLHF中真的需要强化学习(RL)吗?斯坦福大学的新研究提出了DPO(直接偏好优化):一种简单的训练范式,用于在没有RL的情况下通过偏好来训练语言模型

当大规模数据集上进行训练时,巨大的无监督语言模型获得了令其创造者惊讶的能力。然而,这些模型是根据具有各种动机、目标和能力的人们产生的信息进行训练的。并非所有这些雄心壮志和能力都可以模拟。从其庞大的信息和技能中精心选择模型的期望响应和行为,以创建可靠、有效和可管理的系统非常重要。 斯坦福大学和CZ研究人员在不使用显式奖励建模或强化学习的情况下,展示了如何优化语言模型以符合人类喜好。他们的工作表明,目前方法采用的基于强化学习的目标可以通过一个简单的二元交叉熵目标进行精确优化,从而大大简化了偏好学习过程,并展示了如何在实践中实现这一目标。 他们提出了直接偏好优化(DPO)算法。这个新算法隐式地实现了现有RLHF算法(通过KL散度约束的奖励最大化)的相同目标,但更容易构建和训练。虽然DPO更新在直觉上增加了首选回复与非首选回复的对数比率,但它还包括一个动态的、每个示例的重要性权重,使模型不会退化。 与其他算法一样,DPO使用理论偏好模型评估奖励函数与实证偏好数据的一致性。而传统方法是使用偏好模型定义一个偏好损失来训练奖励模型,DPO则是通过变量开关来训练最大化学习奖励模型的策略。因此,在训练过程中,DPO可以基于人类对模型响应的偏好数据集优化一个具有简单二元交叉熵目标的策略,而无需显式学习奖励函数或从策略中采样。 该研究结果表明,DPO在情感调节、摘要和对话等各种任务上,与PPO-based RLHF等最先进方法一样有效。58%的人更喜欢DPO摘要而不是PPO摘要(人类评估),并且61%的人更喜欢DPO摘要而不是测试集中的人类评估。在Anthropic HH上,60%的时间内,人们更倾向于选择DPO的单轮响应而不是选择性完成。 团队表示,DPO在仅基于人类喜好训练语言模型之外,还有许多潜在用途。例如,它可以训练各种模态的生成模型。 所提出的模型评估最高达到了60亿个参数,但团队认为进一步的工作应该探索将DPO扩展到具有数量级更大数据的最先进模型。研究人员还发现,提示对GPT-4的计算胜率有影响。未来,他们计划研究从机器中引导专家意见的最有效手段。

Leave a Comment

一种新的深度强化学习(DRL)框架可以在模拟环境中对攻击者做出反应,并在攻击升级之前阻止95%的网络攻击

网络安全防御者必须根据技术发展和系统复杂性的提高动态调整他们的技术和策略。随着过去十年中机器学习(ML)和人工智能(AI)研究的进展,这些技术在各种与网络安全相关的领域中的使用案例也得到了发展。大多数现有安全应用程序中的一些功能性由在大量数据集上训练的强大的机器学习算法支持。其中一个例子是在早期的2010年代将ML算法集成到电子邮件安全网关中。 在实际情况下,创建自主的网络安全系统防御策略和行动建议是一项相当困难的任务。这是因为为此类网络安全系统防御机制提供决策支持需要同时考虑攻击者和防御者之间的动态特征以及系统状态的动态特征化。此外,网络安全防御者通常面临各种资源限制,包括与成本、劳动力和时间相关的限制。即使有了AI,开发一个能够主动防御的系统仍然是一个理想目标。 为了解决这个问题,美国能源部太平洋西北国家实验室(PNNL)的研究人员开发了一种基于深度强化学习(DRL)的新型AI系统,能够在模拟环境中响应攻击者,并能在攻击升级之前阻止95%的网络攻击。研究人员创建了一个自定义的模拟环境,展示了网络中攻击者和防御者之间的多阶段数字冲突。然后,他们使用强化学习的原则训练了四个DRL神经网络,例如根据避免妥协和减少网络中断来最大化奖励。该团队的工作还在华盛顿特区的人工智能促进协会上做了介绍,并获得了很高的评价。 该团队开发这样一个系统的理念是首先展示成功训练这样一个DRL架构是可能的。在深入研究复杂结构之前,他们希望展示有用的评估指标。研究人员首先使用Open AI Gym工具包创建了一个抽象的模拟环境。下一阶段是利用这个环境开发攻击者实体,在MITRE ATT&CK框架的15种方法和7种策略的子集上展示出技能和持久性水平。攻击者的目标是通过从初始访问和侦察阶段到其他攻击阶段直到达到其最终目标——影响和外泄阶段的七个攻击链步骤。 需要记住的是,团队并没有打算开发一个模型,在敌人在环境内发动攻击之前就能封锁敌人。相反,他们假设系统已经被入侵。然后,研究人员使用强化学习来训练四个神经网络。研究人员表示,在不使用强化学习的情况下训练这样一个模型是可以想象的,但需要很长时间来开发一个良好的机制。另一方面,深度强化学习通过模仿人类行为的某些方面,非常有效地利用了这个巨大的搜索空间。 研究人员努力证明AI系统能够在模拟攻击环境中成功训练,并展示出AI模型能够实时对攻击做出防御反应。为了对四个无模型DRL算法在实际的多阶段攻击序列中的表现进行严格评估,研究人员进行了多次实验。他们的研究表明,DRL算法可以在具有不同技能和持久性水平的多阶段攻击配置文件下进行训练,在模拟环境中产生有效的防御结果。

Leave a Comment

谷歌DeepMind正在研发一种算法,以超越ChatGPT

在一项具有突破性的宣布中,Google的DeepMind AI实验室的首席执行官Demis Hassabis揭示了一种名为Gemini的创新型AI系统的开发。凭借即将推出的算法,Gemini将超越OpenAI的ChatGPT,利用DeepMind在围棋领域的历史性胜利中获得的技术。这一揭示标志着人工智能领域的一个重要里程碑,承诺提供增强的功能和新颖的进展。让我们深入探讨这一革命性的发展及其对人工智能未来的潜在影响。 Gemini:人工智能技术的下一个飞跃 DeepMind的创新性AI系统Gemini已经成为人工智能领域的一项创举。Gemini在AlphaGo的卓越成就基础上,将DeepMind的先进技术与GPT-4的语言能力相结合,超越了OpenAI的ChatGPT的能力。这种优势的融合使Gemini成为一种有前景的创新,有望重新定义人工智能领域。 合并优势:AlphaGo和GPT-4的协同作用 通过将AlphaGo的强大技术融入GPT-4模型中,Gemini超越了传统语言模型的局限性。Gemini独特的语言能力和问题解决能力的结合承诺革新人工智能。DeepMind的首席执行官Demis Hassabis设想了一个在理解和生成文本以及规划和解决复杂问题方面表现出色的系统。 还阅读:DeepMind首席执行官表示AGI可能很快实现 揭示创新:Gemini的令人兴奋的特点 Gemini将引入许多令人兴奋的功能,推动人工智能能力的边界。通过融合AlphaGo类型的系统和大型语言模型,Gemini带来了人工智能潜力的新时代。DeepMind的工程师还暗示了Gemini内部的一些有趣创新,进一步加剧了对其正式发布的期待。 强化学习:AlphaGo成功的基础 强化学习技术的突破性应用是AlphaGo历史性胜利的核心。DeepMind的软件通过多次尝试并根据表现获得反馈来掌握复杂问题。此外,AlphaGo还利用一种称为树搜索的方法,在棋盘上探索和记住潜在的走法。这一基础为Gemini的未来发展奠定了基础。 还阅读:强化学习的综合指南 正在进行的旅程:Gemini的开发 尽管Gemini仍处于开发阶段,但Hassabis强调了这个项目所涉及的巨大工作和投入。DeepMind的团队估计,将需要数个月和大量的财力资源(可能达到数千万或数亿美元)来实现Gemini的成功。这项工作的重要性凸显了Gemini潜在影响的重要性。 应对竞争:谷歌的战略回应 随着OpenAI的ChatGPT获得关注,谷歌迅速回应,将生成型人工智能整合到其产品中,推出聊天机器人Bard,并将人工智能纳入其搜索引擎。通过将DeepMind与谷歌的主要人工智能实验室Brain合并成为Google DeepMind,这家搜索巨头试图利用Gemini的能力应对ChatGPT所带来的竞争威胁。这一战略举措凸显了谷歌在人工智能创新领域保持领先地位的承诺。 还阅读:Chatgpt-4与Google Bard的对比 DeepMind的旅程:从收购到惊艳 DeepMind于2014年被谷歌收购,标志着人工智能研究的一个转折点。这家公司靠着强化学习驱动的革命性软件展示了以前难以想象的能力。AlphaGo在2016年对阵围棋冠军李世石的巨大胜利震惊了人工智能界,挑战了人们对于在复杂游戏中达到人类水平技能时间表的预设观念。 还阅读:DeepMind的AI大师:在2小时内学习26个游戏 Transformer训练:大型语言模型的支柱…

Leave a Comment