Press "Enter" to skip to content

四海吧 Posts

SafeCoder与闭源代码助手

几十年来,软件开发人员设计了一些方法论、流程和工具,帮助他们提高代码质量和提高生产力。例如,敏捷开发、测试驱动开发、代码审查和持续集成/持续交付(CI/CD)现在已经成为软件行业的基本要素。 在《How Google Tests Software》(Addison-Wesley,2012)中,谷歌报告称,修复系统测试阶段的bug比在单元测试阶段修复该bug的代价高出1000倍。这给开发人员带来了很大的压力,作为整个链条中的第一个环节,他们需要一开始就编写质量高的代码。 尽管有关生成式人工智能的炒作,但代码生成似乎是帮助开发人员快速交付更好代码的有希望的方式。事实上,早期的研究表明,像GitHub Copilot或Amazon CodeWhisperer这样的托管服务可以帮助开发人员提高生产力。 然而,这些服务依赖于闭源模型,无法根据您的技术文化和流程进行定制。Hugging Face在几周前发布了SafeCoder,以解决这个问题。SafeCoder是一种为企业打造的代码助手解决方案,提供先进的模型、透明度、可定制性、IT灵活性和隐私保护。 在本文中,我们将比较SafeCoder与闭源服务,并强调您可以从我们的解决方案中获得的好处。 先进的模型 SafeCoder目前基于StarCoder模型构建,StarCoder是一个家族的开源模型,设计并在BigCode合作项目中进行了训练。 StarCoder是一个拥有155亿参数的模型,用于在80多种编程语言中进行代码生成。它使用创新的架构概念,如多查询注意力(MQA),以提高吞吐量和降低延迟,这种技术也在Falcon中出现,并针对LLaMa 2模型进行了调整。 StarCoder具有8192个令牌的上下文窗口,这有助于它考虑更多的代码来生成新的代码。它还可以在您的代码中进行填充,而不仅仅是在末尾添加新代码。 最后,与HuggingChat一样,SafeCoder将随着时间推移引入新的先进模型,为您提供无缝的升级路径。 不幸的是,闭源代码助手服务不会共享有关底层模型、其能力和训练数据的信息。 透明度 遵循Chinchilla Scaling Law,SafeCoder是一个在1万亿(1,000亿)代码令牌上进行训练的计算优化模型。这些令牌是从The Stack中提取的,The Stack是一个从开源代码库中提取的2.7TB数据集,使用的是许可证宽松的开源许可证。我们会尽力遵守退出请求,并构建了一个工具,让代码库所有者检查他们的代码是否包含在数据集中。 为了透明起见,我们的研究论文披露了模型架构、训练过程和详细的度量标准。…

Leave a Comment

强化学习与高性能决策制定:策略与优化

介绍 从人类因素/反馈中进行强化学习(RLHF)是一个新兴领域,它将RL的原则与人类反馈相结合。它将被设计用于优化决策和增强实际复杂系统的性能。高性能的RLHF侧重于通过利用计算模型和数据驱动方法来改善各个领域的设计、易用性和安全性,从而理解人类行为、认知、环境、知识和互动。 RLHF旨在通过将RL算法与人类因素原则结合起来,弥合以机器为中心的优化和以人为中心的设计之间的差距。研究人员试图创建适应人类需求、喜好和能力的智能系统,最终增强用户体验。在RLHF中,计算模型模拟、预测和指导人类反应,使研究人员能够洞察个体如何做出明智决策并与复杂环境互动。想象一下将这些模型与强化学习算法相结合!RLHF旨在优化决策过程,提高系统性能,并在未来几年增强人机协作。 学习目标 了解RLHF的基本原理及其在以人为中心的设计中的重要性是第一步。 探索在各个领域中优化决策和性能的RLHF应用。 识别与RLHF相关的关键主题,包括强化学习、人类因素工程和自适应界面。 认识知识图在促进数据整合和洞察RLHF研究和应用中的作用。 RLHF:革新以人为中心的领域 以人类因素为基础的强化学习(RLHF)有潜力改变人类因素至关重要的各个领域。它利用对人类认知限制、行为和互动的理解,创建了适应性界面、决策支持系统和个性化辅助技术,从而提高效率、安全性和用户满意度,促进了全行业的采用。 在RLHF的持续发展中,研究人员正在探索新的应用,并解决将人类因素整合到强化学习算法中的挑战。通过结合计算模型、数据驱动方法和以人为中心的设计,RLHF为先进的人机协作和优化决策、提高性能的智能系统铺平了道路,适用于各种复杂的实际场景。 为什么选择RLHF? RLHF对于医疗保健、金融、交通、游戏、机器人技术、供应链、客户服务等各个行业都非常有价值。RLHF使得AI系统能够以更符合人类意图和需求的方式学习,使得在各种实际应用案例和复杂挑战中,使用起来更加舒适、安全和有效。 RLHF的价值在哪里? 使AI在复杂环境中发挥作用是RLHF的能力,在许多行业中,AI系统操作的环境通常是复杂且难以准确建模的。而RLHF允许AI系统从人类因素中学习,并适应这些复杂情景,传统方法在效率和准确性方面无法满足。 RLHF促进负责任的AI行为,以与人类价值观、道德和安全一致。对这些系统的持续人类反馈有助于防止不良行为。另一方面,RLHF通过纳入人类因素、判断、优先级和偏好的方式,提供了指导代理学习过程的替代方法。 提高效率并降低成本在某些场景下,需要通过使用知识图或训练AI系统进行大量的试错。在特定情况下,这两种方法都可以在动态环境中快速采用。 实时适应的RPA和自动化在大多数行业中,已经使用了RPA或一些自动化系统,这些系统要求AI代理在快速变化的情况下迅速适应。RLHF通过人类反馈帮助这些代理实时学习,提高性能和准确性,即使在不确定的情况下也能做到。我们将这称为“决策智能系统”,RDF(资源开发框架)甚至可以将语义Web信息带入同一系统,有助于做出明智的决策。 数字化专业知识:在每个行业领域,专业知识都是至关重要的。借助RLHF的帮助,AI系统可以从专家知识中学习。同样,知识图和RDF允许我们将这些来自专家演示、流程、解决问题的事实和判断能力的知识数字化。RLHF甚至可以有效地将知识传递给代理。 根据需求进行定制:持续改进是AI系统通常在实际场景中运行的重要考虑因素之一,它们可以从用户和专业人士那里获得持续的反馈,使得AI能够根据反馈和决策不断改进。 RLHF的工作原理 RLHF通过将人类知识与强化学习技术相结合,填补了机器学习和人类专业知识之间的差距,使得AI系统在准确性和效率上更易于采用。 人类反馈强化学习(RLHF)是一种机器学习方法,通过将人类提供的反馈融入学习过程中,提高了AI智能体的训练效果。RLHF解决了传统强化学习在模糊的奖励信号、复杂的环境或需要将AI行为与人类价值观保持一致的挑战。 在RLHF中,AI智能体与环境进行交互并接收奖励反馈。然而,这些奖励可能不足、噪声干扰或难以准确定义。人类反馈对于有效引导智能体的学习至关重要。这种反馈可以采用不同的形式,例如明确的奖励、期望行为的演示、比较、排名或定性评估。 智能体通过调整其策略、奖励函数或内部表示来将人类反馈融入学习过程中。反馈和学习的融合使得智能体能够改进其行为、从人类专业知识中学习并与期望的结果保持一致。挑战在于在保持人类偏好的前提下,平衡探索(尝试新动作)和利用(选择已知动作)以有效学习。…

Leave a Comment

苹果和Equall AI的一项新的人工智能研究揭示了Transformer架构中的冗余问题:如何优化前馈网络以提高效率和准确性

最近流行起来的Transformer设计已经成为自然语言处理(NLP)活动,特别是机器翻译(MT)的标准方法。这种架构展示了令人印象深刻的扩展性,这意味着增加更多的模型参数会在各种NLP任务上获得更好的性能。许多研究和调查已经验证了这一观察结果。虽然Transformer在可扩展性方面表现出色,但也有一个并行的运动,旨在使这些模型在实际世界中更加高效和可部署。这涉及到处理延迟、内存使用和磁盘空间等问题。 研究人员一直在积极研究解决这些问题的方法,包括组件裁剪、参数共享和降维。广泛使用的Transformer架构包括许多重要部分,其中最重要的两个部分是前馈网络(FFN)和注意力。 注意力 – 注意机制允许模型在分析每个单词时捕捉句子中的关系和依赖,而不考虑它们的位置。它作为一种机制,帮助模型确定输入文本的哪些部分与其当前正在分析的每个单词最相关。理解短语中的单词之间的上下文和连接取决于这一点。 前馈网络(FFN):FFN负责对每个输入标记进行非线性转换。通过对每个单词的表示进行特定的数学运算,它为模型对每个单词的理解增加了复杂性和表达能力。 在最近的研究中,一组研究人员专注于研究Transformer架构中的FFN的作用。他们发现FFN在作为模型的一个大组件时存在很高的冗余,并消耗大量的参数。他们发现,即使显著减少了模型的参数数量,也不会对准确性造成重大影响。他们通过从解码器层中删除FFN,而是在编码器层之间使用一个共享的FFN来实现这一点。 解码器层:标准Transformer模型中的每个编码器和解码器都有自己的FFN。研究人员删除了解码器层中的FFN。 编码器层:他们使用一个单独的FFN,该FFN由所有编码器层共享,而不是为每个编码器层提供单独的FFN。 研究人员分享了采用这种方法带来的好处,如下所示。 参数减少:通过删除和共享FFN组件,他们大大减少了模型中的参数数量。 尽管删除了大量参数,但模型的准确性仅略有降低。这表明编码器的多个FFN和解码器的FFN存在一定程度的功能冗余。 缩小规模:他们扩大了共享FFN的隐藏维度,以恢复架构的先前尺寸,同时保持或甚至提高模型的性能。与之前的大规模Transformer模型相比,这在准确性和模型处理速度(延迟)方面取得了显著的改进。 总之,这项研究表明,在Transformer设计中,特别是在解码器层中,前馈网络可以简化并共享,而不会对模型性能造成重大影响。这不仅减轻了模型的计算负载,还提高了其在各种NLP应用中的效果和适用性。

Leave a Comment

这项人工智能研究提出了DISC-MedLLM:一种综合解决方案,利用大型语言模型(LLMs)提供准确的医疗响应

远程医疗的兴起改变了医疗的提供方式,打开了专业网络,降低了价格,并允许进行远程医疗咨询。此外,智能医疗系统通过添加医疗信息提取、药物推荐、自动诊断和健康问题解答等功能,改进了在线医疗服务。虽然在构建智能医疗系统方面取得了一些进展,但早期研究集中在特定问题或疾病上,具有狭窄的应用范围,导致实验性进展与实际应用之间存在差距。为了弥合这一差距,需要提供更广泛的医疗场景的完整解决方案,并为消费者提供最高品质的端到端对话式医疗服务。 近期,大型语言模型展示了与人类进行有意义对话和遵循指令的惊人能力。这些进展为开发医疗咨询系统创造了新的机会。然而,涉及医疗咨询的情况通常更为复杂,超出了通用领域的语言模型的范围。图1展示了一个真实世界医疗咨询的示例。它展示了两个特点。首先,需要全面可信的医疗知识来理解对话并在每个阶段做出适当回应。通用领域的语言模型提供与特定情况无关的输出,存在主要的幻觉问题。 其次,通常需要进行多轮对话才能获得足够了解患者情况以提供医疗咨询的知识,并且每个对话轮次都有一个明确的目标。然而,通用领域的语言模型在用户健康状况的具体问题上往往具有有限的多轮查询能力,并且是单轮代理。基于这两点发现,复旦大学、西北工业大学和多伦多大学的研究人员认为,医疗语言模型应该对全面可信的医疗知识进行编码,同时符合真实世界医疗对话的分布特征。受到指令调整的成功启发,他们研究如何构建高质量的监督微调数据集,用于训练医疗语言模型,并包括医学知识和咨询行为模式。 在实际应用中,他们使用三种不同的方法创建样本: • 基于医疗知识图的样本开发。根据从真实世界咨询数据集中收集的患者查询分布,他们使用以科室为导向的方法从医疗知识网络中选择知识三元组。然后使用GPT-3.5为每个三元组创建问答对。结果得到了50k个样本。 • 重建真实对话。为了改善语言模型,从医疗论坛收集的咨询记录是合适的数据源。这些文档中使用的语言是非正式的,术语的呈现方式不一致,各种医疗从业者的表达风格各异。因此,他们使用GPT-3.5使用实际案例重新创建对话。结果得到了420k个样本。 • 样本收集后,进行人工选择。他们从涵盖各种咨询设置的真实医疗对话记录中手动选择了一小组条目,并重新编写了某些示例以符合人类意图。他们还确保每个对话的整体质量在人工引导重建后得到保证。结果得到了2k个样本。然后,使用新创建的SFT数据集在拥有13B个参数的通用领域中文语言模型的基础上,通过两阶段训练过程训练DISC-MedLLM。他们从两个角度评估模型的性能,以确定其在多轮对话中提供系统咨询和在单轮对话中提供准确回复的能力。 图1:患者和真实医生之间对话的示例。医生回应中提到的医学实体由蓝色高亮文本标示。每一轮,医生的行为显示特定的意图:(1)在第一轮,进行更多的研究以收集有助于确定潜在情景的数据;(2)在第二轮,进行初步诊断并提出明确建议;(3)在第三轮,根据医疗状况提供具体的治疗选择。 他们从三个公共医学数据集中收集了一系列多项选择题,并使用该题库对单轮对话进行了模型准确性评估。对于多轮对话评估,他们首先使用GPT-3.5创建了一小组优秀咨询案例,模拟患者与模型进行对话。然后使用GPT-4评估模型的主动性、准确性、有用性和语言质量。实验结果显示,尽管不及GPT-3.5,但DISCMedLLM在参数相同的情况下平均超过了医学大规模华佗GPT 10%。 此外,在模拟医学咨询环境中,DISC-MedLLM的整体表现优于基准模型,如GPT-3.5、华佗GPT和扁鹊。DISC-MedLLM在涉及医学部门和患者意图的案例中表现出色,并超过了其他中文医学LLM。

Leave a Comment

如何测量神经辐射场的不确定性?介绍BayesRays:一种为NeRFs提供的革命性后处理框架

创建3D模型可以比2D图像提供更沉浸式和逼真的场景表现。它们允许观众从不同角度探索和与场景进行交互,提供对空间布局和信息深度的更好理解。 这对虚拟现实(VR)和增强现实(AR)应用非常重要。它们可以将数字信息叠加到真实世界上(AR),或创建完全虚拟的环境(VR),提升游戏、教育、培训和各种行业的用户体验。 神经辐射场(NeRFs)是一种用于3D场景重建和渲染的计算机视觉技术。NeRF将场景视为一个3D体积,其中体积中的每个点都有相应的颜色(辐射)和密度。神经网络通过基于不同视角拍摄的2D图像预测每个点的颜色和密度。 NeRFs具有多个应用,例如视图合成和深度估计,但从多视图图像中学习具有固有的不确定性。目前用于量化不确定性的方法要么是启发式的,要么是计算开销很大的。Google DeepMind、Adobe Research和多伦多大学的研究人员引入了一种名为BayesRays的新技术。 它由一个框架组成,用于评估任何预训练的NeRF的不确定性,而无需修改训练过程。通过使用空间扰动和贝叶斯拉普拉斯近似添加体积不确定性场,他们能够克服NeRFs的局限性。贝叶斯拉普拉斯近似是一种用简单的多变量高斯分布近似复杂概率分布的数学方法。 他们计算出的不确定性在统计学上是有意义的,并且可以渲染为额外的颜色通道。他们的方法在关键指标(如与重建深度误差的相关性)上也优于先前的工作。他们使用了一种即插即用的概率方法来量化任何预训练的NeRF的不确定性,而不受其架构的影响。他们的工作提供了一种实时去除预训练NeRFs中伪影的阈值。 他们表示,他们构建他们的方法的灵感来自使用体积场对3D场景建模。体积变形场通常用于操作隐式表示的对象。他们的工作也类似于摄影测量学,其中重建不确定性通常通过在已识别的空间位置上放置高斯分布来建模。 最后,他们表示他们的算法仅限于量化NeRFs的不确定性,并且不能简单地转化为其他框架。然而,他们未来的工作涉及针对更近期的空间表示(如3D高斯喷洒)制定类似基于变形的拉普拉斯近似的方法。

Leave a Comment

在医疗保健领域弥合临床医生和语言模型之间的鸿沟:介绍MedAlign,一种由临床医生生成的用于遵循电子病历的数据集

大型语言模型(LLMs)以很大程度上利用了自然语言处理的能力。从语言生成和推理到阅读理解,LLMs都能胜任。这些模型在帮助医生工作方面的潜力引起了多个领域,包括医疗保健的关注。最近的LLMs,包括Med-PaLM和GPT-4,在涉及医学问答的任务中表现出了他们的熟练程度,特别是涉及医学数据库和考试的任务。 一个常见的限制是难以确定LLMs在受控基准测试中出色的表现是否能够转化到实际的临床环境中。临床医生在医疗行业中进行各种与信息相关的工作,这些工作经常需要来自电子健康记录(EHRs)的复杂、非结构化的数据。医疗从业者所面对的复杂性和复杂性在当前可用的EHR数据问答数据集中没有很好地体现出来。当医生依靠LLMs来帮助他们时,他们缺乏评估这些模型能否提供准确和具有上下文意识的回复所需的细微差别。 为了克服这些限制,一组研究人员开发了MedAlign,这是一个基准数据集,包括15名从事7个不同医学专业的临床医生提交的共983个问题和指令。MedAlign专注于基于EHR的指令-回答配对,而不仅仅是问题-回答配对,这使其与其他数据集不同。该团队为其中303个指令提供了由临床医生撰写的参考回答,并将其与EHR数据相链接,以提供提示的上下文和基础。每个临床医生对这303个指令上六种不同LLMs生成的回答进行了评估和排名,以确认数据集的可靠性和质量。 临床医生还提供了他们自己的黄金标准解决方案。通过收集包括临床医生提供的指令、LLM生成回答的专家评估以及相关的EHR上下文的数据集,MedAlign开创了一项开拓性的工作。这个数据集与其他数据集的不同之处在于它为评估LLMs在临床情况下的工作效果提供了一个有用的工具。 第二个贡献展示了一种自动化的、检索式的方法,用于将相关的患者电子健康记录与临床指令匹配。为了实现这一点,该团队创建了一个程序,使向临床医生索取指令更加高效和可扩展。他们可以通过隔离这种指令征集方法从更大、更多样化的临床医生群体中寻求提交。 他们甚至评估了他们的自动化方法与相关EHR匹配的效果。研究结果显示,与指令与EHR的随机配对相比,这种自动匹配过程在74%的情况下成功提供了相关的配对。这一结果突显了自动化提高连接临床数据的效果和准确性的机会。 最后一个贡献考察了自动化自然语言生成(NLG)参数与临床医生对LLM生成回答的评级之间的关系。这项研究旨在确定是否可以使用可扩展的自动化指标来对LLM回答进行排序,以取代专业临床医生的评估。该团队旨在通过衡量人类专家排序与自动化标准之间的一致程度,减少医生在未来研究中手动识别和评估LLM回答的需求。通过使审查过程更加高效且不那么依赖人力资源,为医疗应用开发和改进LLMs的进程可能会加快。

Leave a Comment

微软的研究人员介绍了Hydra-RLHF:一种具有人类反馈的内存高效的强化学习解决方案

自从被广为人知以来,ChatGPT、GPT-4和Llama-2系列模型以其在各种工作中的多功能性赢得了用户的喜爱。使用RLHF和许多其他基础模型进行模型对齐是其有效性的一个因素。训练一个庞大的语言模型会创建一个具有大量知识的网络。然而,由于网络并不被教导去区分其中的信息,它可能表现出不良行为,甚至造成社会危害。通过改变模型的行为,对齐旨在解决这个问题,并在发展安全和可管理的基础模型方面变得至关重要。 虽然RLHF增强了模型对齐,但由于其在加载和训练多个模型期间PPO时的复杂性和大内存需求,其使用受到限制。需要评估RLHF的速度和性能差异,因为其应用仍处于初级阶段。为了实现这一目标,他们研究了常见的RLHFPPO的训练过程和模型架构。他们的研究发现通过在参考/奖励模型和演员/评论家模型之间共享模型,可以显著降低内存/计算成本。 微软的研究人员建议在PPO期间使用Hydra-PPO来最小化在内存中存储的学习和静态模型的数量。根据运行时和性能比较,这些内存节省可以用来增强训练批次大小,从而减少PPO每个样本的延迟高达65%。他们提出了一组名为Hydra-RLHF的RLHF改进,他们创建了一个基于解码器的模型,称为hydra,其中包含两个线性头: 1)一个因果头,预测在序列中它之后将出现的令牌 2)一个奖励模型头,提供与相同输入相关的即时奖励。 多头模型已经广泛研究,一般来说,与强化学习有关。 他们进行了比较研究,评估了几种模型对齐过程的有效性,以GPT-4为衡量标准。他们发现LoRA-PPO比FFT具有更好的对齐效果,但成本更高。他们引入了Hydra-RLHF,通过将参考和奖励模型结合起来,并在PPO期间动态切换当前的LoRA模块,以减少内存使用同时保持速度。由于Hydra-RLHF,社区现在可以使用RLHF来进行更广泛范围的模型和应用。

Leave a Comment

表意文字如何革新文本到图像的转换?超越DALL-E和Midjourney的人工智能平台生成字母

人工智能在近年来取得了显著的进展,其中文本到图像生成是一个特别感兴趣的领域。总部位于多伦多的人工智能初创公司Ideogram最近推出了其平台,旨在在生成式文本到图像技术的竞争领域中留下自己的印记。 这一领域的知名公司包括DALL-E、Midjourney和Adobe Firefly。这些平台在从文本提示生成图像方面设定了很高的标准,并因其对基于人工智能的创造力做出的贡献而广受认可。 Ideogram由一支在知名机构从事人工智能项目并具有丰富经验的行业老将团队领导。该团队强调Ideogram通过人工智能来推动创造力的民主化,同时保持高水平的信任和安全标准。 Ideogram提供与其他成熟平台类似的功能。用户可以通过使用Google电子邮件地址注册来将文本提示转换为图像。注册后,他们可以输入提示并选择从各种渲染风格中生成图像,如动漫、黑暗奇幻或涂鸦。该平台提供三种分辨率的选项,并根据输入提示和所选风格提供四种结果。用户可以通过重组这些生成的图像并添加或删除提示和技术来自定义它们。 Ideogram的一个显著特点是其生成字母的能力,这使其与Midjourney和DALL-E等文本到图像工具有所区别。虽然实现这一点需要多次尝试,但用户可以至少期望得到一个令人满意的结果。通过重新组合所选择的结果,可以轻松地获得更多拼写正确的结果。然而,和竞争对手一样,Ideogram也存在一些不足之处。用户可能会遇到奇怪的手和脸部渲染、不真实的线条和颜色以及偶尔的拼写错误。 所以,现在让我们来试试吧: 步骤 1:前往https://ideogram.ai/ 步骤 2:使用免费账户注册 步骤 3:成功登录后,您将看到下面的屏幕 步骤 4:输入您的提示以创建内容,并选择下面的标签。 步骤 5:观看下面的视频进行演示

Leave a Comment