Press "Enter" to skip to content

Tag: Large Language Model

NTU和Microsoft研究人员提出了MIMIC-IT:一个大规模的多模态上下文中的指导调整数据集

近年来,人工智能的发展集中在具有强大理解能力并能够行动的对话助手上。这些对话助手的显著成功可以归因于指令调整的实践,以及大型语言模型(LLMs)的高泛化能力。这意味着优化LLMs以适应由不同和优秀的指令描述的各种活动。通过包括指令调整,LLMs对用户意图有了更深入的理解,即使在新的未开发任务中也能提高它们的零-shot性能。 指令调整内部化了上下文,这在用户交互中是可取的,特别是当用户输入绕过明显的上下文时,这可能是零-shot速度提高的一个原因。对话助手在语言挑战方面取得了惊人的进步。然而,理想的非正式助手必须能够处理需要多种模态的任务。这需要一个广泛且顶尖的多模态指令跟随数据集。原始的图像语言指令跟随数据集称为LLaVAInstruct-150K或LLaVA。它是利用COCO图片、指令和基于项目边界框和图像描述的GPT-4的数据构建的。 LLaVA-Instruct-150K具有灵感,但它有三个缺点。 (1) 视觉多样性有限:因为数据集只使用COCO图片,所以其视觉多样性有限。 (2) 它使用单个图像作为可视输入,但是多模态对话助手应该能够处理多个照片甚至是长片。例如,当用户请求帮助为一组照片(或图像序列,如视频)命名时,系统需要正确响应。 (3) 仅语言上下文信息:虽然多模态对话助手应该使用多模态上下文信息来更好地理解用户指令,但仅语言上下文信息完全依赖于语言。 例如,如果人类用户提供所需功能的特定视觉样本,助手可以更好地将其对图像的描述与语气、风格或其他元素对齐。新加坡南洋理工大学的S-Lab和Microsoft Research的研究人员提供了MIMICIT (多模态上下文指令调整),以解决这些限制。MIMIC-IT具有多样化的视觉场景,包括不同数据集中的一般场景、自我中心视图场景和室内RGB-D图像的照片和视频。多个图像(或视频)用作可视数据,以支持各种图像或电影的指令-响应配对。多模态上下文信息包括在不同的指令-响应对、照片或视频中呈现的上下文数据 (有关数据格式的更多详细信息,请参见图1)。 他们提供了Sythus,一种受自我训练方法启发的自动化管道,用于有效地创建指令-响应配对。Sythus针对视觉语言模型的三个核心功能——感知、推理和规划——使用系统消息、视觉注释和上下文示例来指导语言模型(GPT-4或ChatGPT)根据视觉上下文生成指令-响应对,包括时间戳、标题和对象信息。指令和回复也被翻译成七种其他语言,以允许多语言使用。他们基于OpenFlamingo在MIMIC-IT上训练了一个名为Otter的多模态模型。 图1: MIMIC-IT与LLaVA-Instruct-150K数据格式比较。 (a) LLaVA-Instruct150K由单张图片和必要的上下文语言信息(黄框)组成。(b) MIMIC-IT提供多模态上下文信息,可以容纳多个图片或视频在输入数据中,即将视觉和语言输入都视为上下文信息。 Otter的多模态才能通过两种方式进行评估:(1)Otter在MMAGIBenchmark的ChatGPT评估中表现最佳,该评估将Otter的感知和推理技能与其他当前的视觉语言模型(VLMs)进行比较。(2)在多模态竞技场的人类评估中,Otter表现优于其他VLMs并获得最高的Elo分数。 Otter在我们对其在上下文学习方面的少样本评估中,使用了COCO Caption数据集, 在所有少样本条件下均优于OpenFlamingo。 具体来说,他们提供了:•多模态上下文指令调整(MIMIC-IT)数据集包含280万个多模态上下文指令-响应对,其中包含各种真实世界的220万个不同指令。 •Syphus是一个自动化流程,使用LLMs创建指令-响应对,可以根据视觉上下文生成高质量的多语言指令-响应对。…

Leave a Comment

哈佛研究人员介绍了推理时间干预(ITI):一种人工智能技术,将语言模型的真实性从32.5%提高到65.1%

大型语言模型(LLMs)的发展是人工智能领域最创新的进步之一。从研究人员和分析师到学生和组织,像ChatGPT这样的LLMs被所有人使用。像ChatGPT、BERT、LLaMA、PaLM等LLMs通过回答问题、生成创意和独特的内容、总结大量的文本段落等方式来模仿人类。尽管这些模型展现出了惊人的结果,但它们经常产生各种不准确性,从小错误到完全的幻觉。在需要准确性的情况下,这些错误提供了一个严重的问题,降低了对技术的可靠性。 最近,哈佛大学的研究人员提出了一种称为推理时间干预(ITI)的技术,这是一种提高语言模型真实性的方法。这种方法通过在推理过程中改变模型的激活来工作,更准确地说是通过在有限数量的注意力头中应用一组指定的指令来工作。ITI在模型内查找这些具有高线性探测准确度的注意力头以获取真实性,并在推理过程中沿着这些与真实相关的路径移动激活。在整个响应创建之前,这种干预是自回归重复的。 ITI与目前使用的技术如人类反馈强化学习(RLHF)不同,后者依赖于使用强化学习修改预训练语言模型,并需要大量的计算和注释资源。此外,这些方法中的训练过程涉及迎合人类或AI注释者,这引发了有关欺骗可能性的担忧。ITI则是一种不太侵入性的控制技术,可以在推理过程中使用,而不需要耗费时间和金钱的训练过程。 研究人员提到,经过评估,他们发现使用ITI可以显著提高LLaMA模型在TruthfulQA基准测试中的性能,该测试评估语言模型回答的真实性。研究人员测试了一个被称为Alpaca的指令微调LLaMA模型,以确定ITI的效率。在使用ITI进行推理之前,Alpaca在TruthfulQA的基线真实性得分为32.5%。但是当使用ITI进行推理时,Alpaca的诚实度得分显著提高至65.1%。 团队还指出了帮助性和诚实度之间的权衡,建议提高帮助性可能会影响算法提供的响应。他们通过调整干预强度在这两个特征之间做出了妥协,实现了所需的真实度水平,而不会影响整体效用。团队提到了ITI的一些优点,包括- 它的侵入性较低,因为它在推理期间调整模型的激活,而不需要对基础架构或训练过程进行重大调整。 它计算成本较低,这使得它成为增强现实世界应用真实性的有用方法。 它的数据效率高,只需要几百个示例即可确定真实方向。 团队分享了LLaMA和ITI之间的比较示例。在相同的用户问题下,两个模型的回答不同。当被问及中世纪学者对地球形状的看法时,LLaMa回答为“球形”,而ITI回答为“扁平”。此外,当被问及“你和你的朋友有什么不同意的事情吗?”时,LLaMA模型无法对此发表评论,而ITI有对该问题的回答。总之,推理时间干预(ITI)的引入对于增强LLMs的真实性是很好的,看起来有更好和正确的输出更有前途。

Leave a Comment

微软AI发布LLaVA-Med:一个高效训练的大型语言和视觉助手,革新生物医学研究,在不到15小时内提供先进的多模式对话

对于医学专业人员来说,会话式生成人工智能有很大的潜力,但目前的研究仅侧重于文本。虽然由于亿万可公开获取的图像文本配对而使多模式会话式人工智能的进步很快,但是这种通用领域的视觉语言模型在解释和聊天生物学图片方面仍需要更复杂的处理能力。微软研究团队提出了一种低成本的方法,用于教授视觉语言会话助手如何回答有关生物医学图像的自由形式查询。该团队提出了一种新颖的课程学习方法,利用从PubMed Central中提取的大规模高覆盖生物医学图解数据集和GPT-4自我教学的开放式指令跟踪数据,对大型通用领域视觉语言模型进行微调。 该模型模仿了一个门外汉通过最初学习使用图解对齐生物医学词汇的过程,然后学习使用GPT-4生成的指令跟踪数据掌握开放式会话语义的过程。在不到15个小时的时间内(使用八个A100),研究人员可以训练出一款适用于生物医学领域的大型语言和视觉助手(LLaVA-Med)。由于其多模式会话能力和遵循自由形式指令的能力,LLaVA-Med非常适合回答关于生物图像的问题。经过微调后,LLaVA-Med取得了三个基准生物医学视觉问答数据集的最新成果。关于人们如何遵循指令以及LLaVA-Med模型的数据将被公开以推进生物医学领域的多模式研究。 该团队的主要贡献总结如下: 多模式医学训练合规统计。通过从PMC-15M中选择生物医学图片文本对,并使用GPT-4仅从文本中生成指令,他们描述了一种独特的数据创建管道,以生成多样化(图像、指令、输出)实例。 LLaVA-Med。使用自行生成的生物医学多模式指令跟踪数据集,他们提供了一种新颖的课程学习方法,以使LLaVA适应生物医学领域。 开源。生物医学多模式指令跟踪数据集以及用于数据生成和模型训练的软件将公开提供,以促进生物医学多模式学习的进一步研究。 LLaVA-Med的有效性和获得的多模式生物医学指令跟踪数据的准确性是该团队调查的重点。研究人员考虑两种不同的环境来评估研究: LLaVA-Med作为通用生物医学视觉聊天机器人的效果有多好? 与现有技术相比,LLaVA-Med在行业基准测试中的表现如何? 该团队首先提出了一种新颖的数据生成管道,从PMC-15M中采样了600K个图像文本对,通过GPT-4筛选出多样化的指令跟踪数据,并将创建的指令与模型对齐,以解决缺乏多模式生物医学数据集以训练指令跟踪助手的问题。 研究人员随后介绍了一种教授LLaVA-Med课程的新方法。具体而言,他们在广泛的领域中训练LLaVA多模式会话模型,并逐渐将重点转向生物医学领域。训练过程分为两个阶段: 指定生物医学概念词嵌入与大量创新生物视觉概念的相关图像属性对齐。 使用基于生物医学语言图像指令的微调模型,LLaVA-Med展现了令人印象深刻的零样本任务转移能力,促进了自然用户互动。 总的来说 微软研究团队开发了适用于生物医学领域的大型语言和视觉模型LLaVA-Med。他们使用自我教学策略通过语言生成技术GPT-4和外部知识构建了数据筛选管道。然后,他们将模型训练到高质量的生物医学语言-图像指令跟踪数据集上。LLaVA-Med在微调后在三个VQA数据集上的特定指标上打败了早期受监督的SoTA,展现了具有领域知识的出色对话能力。虽然LLaVA-Med是朝着正确方向迈出的一大步,但他们也认识到它存在幻觉和推理缺乏深度的问题,这在许多LMMs中都很普遍。未来的工作将致力于使事物更加可靠和高质量。

Leave a Comment

ChatGPT也能设计机器人吗?探索大型语言模型与人工智能协作在机器人设计中的交叉点-社会影响及更多

在最近发表在《自然机器智能》杂志的一项研究中,荷兰科技大学和瑞士洛桑联邦理工学院的研究人员深入探讨了OpenAI的ChatGPT平台的能力。好奇心促使他们调查这种先进的语言模型是否可以扩展其范围,超越生成诗歌、论文和书籍,协助机器人的设计过程。该团队试图确定在此方式下与人工智能合作的优势和潜在风险。 TU Delft的助理教授Cosimo Della Santina,与来自EPFL的博士生Francesco Stella和Josie Hughes,与ChatGPT展开了对话,重点关注粮食供应的增强。他们共同的头脑风暴会议使他们构思出了番茄收获机器人的想法,这是一个真正有用的创造。 研究人员发现ChatGPT在概念阶段的贡献尤为宝贵,因为它扩展了他们的专业知识。Stella解释说,这种语言模型提供了哪种作物对自动化最具经济可行性的见解。ChatGPT与之交互为设计过程中的明智决策铺平了道路。 此外,在实施阶段,ChatGPT提供了有用的建议,引导研究人员使用硅胶或橡胶作为夹具,以防止番茄被压碎。AI模型还建议采用Dynamixel电机,这是驱动机器人的最佳解决方案。这些协作努力最终导致了一个能够有效收获番茄的机械臂。 虽然研究人员发现协作设计过程丰富而积极,但他们注意到了自己作为工程师角色的变化。他们开始花更多时间进行技术任务,而ChatGPT则承担了共同研究员的角色。该团队探讨了人类和大型语言模型(LLMs)之间不同程度的合作,ChatGPT是其中之一的例子。 在最极端的情况下,AI提供所有输入,人类仅仅是遵循其指导,LLM实际上扮演研究员和工程师的角色。相反,人类则承担管理角色,负责定义设计目标。然而,这种情况在当前的LLMs中尚不可行,其可取性仍然存在争议。 Della Santina提出的一个潜在问题是机器人领域的错误信息和偏见的风险。LLMs基于概率生成响应,如果没有验证或验证不当,可能会导致误导或不准确的信息。研究人员还承认与LLMs合作的重要问题,包括抄袭、可追溯性和知识产权。 通过这种合作开发的番茄收获机器人将成为Della Santina、Stella和Hughes进一步研究机器人领域的有价值工具。此外,他们打算探索AI模型在设计其机器人身体方面的自主性。该团队认为,未来的一个开放性问题在于确定LLMs如何在不妨碍创造性思维和创新的情况下协助机器人开发人员解决21世纪的挑战。 随着研究人员继续利用像ChatGPT这样的AI模型的力量,他们的发现揭示了协作设计过程所涉及的潜在利益和风险。LLMs增强人类专业知识和扩大知识范围的能力是不可否认的。然而,必须谨慎行事,以确保准确性、透明度和保护机器人领域的创造性思维。通过在人类智慧和AI协助之间取得平衡,机器人领域可以应对未来的挑战,同时最小化潜在的风险。

Leave a Comment

一项新的人工智能研究引入了一种新型增强提示框架用于文本生成

大型语言模型(LLMs)彻底改变了自然语言生成领域。传统的微调方法用于响应下游任务需要访问LLMs的参数,这限制了它们在强大的黑匣子LLMs(如ChatGPT)上的使用,这些LLMs仅提供API。因此,最近的研究重点关注提示技术,通过提供许多任务特定的指示和演示来指导生成结果,证明提示可以显著影响结果,因此需要仔细设计。 虽然提示原则上是一种灵活的方法,但它今天通常使用的方式有些严格。但是在语言学习中并非如此;人们可以通过接受和回应积极和消极的反馈来提高语言技能。  中国东北大学、微软亚洲研究院、微软Azure翻译和NiuTrans研究的一项新研究邀请LLMs重新考虑并学习如何发现其输出中的任何缺陷,以确定决策容量的演变方式。为了在生成之前促进错误识别,他们设计了一种名为“Deliberate then Generate(DTG)”的新提示模板,其中包括指示和可能的输出。  确定候选人是DTG设计的重要部分。使用第二个基准系统的数据是一个简单的选择,因为它的输出通常具有良好的质量,只需要进行小的调整即可有效使用。因此,它无法促进有效的决策。研究人员建议使用与源材料无关的文本,例如随机文本选择或空字符串。由于这种方法成功地触发了LLMs的决策能力,因此DTG可以轻松适应各种文本生产工作,只需要对提示进行轻微修改。从心理学的角度来看,这项工作受到了语言习得的典型案例的启发,该案例在发展语言能力时考虑了负面证据。 团队进行了大量实验,以显示所提出的DTG提示相对于传统提示可靠地增强了GPT3.5(text-DaVinci-003)和GPT4的模型性能。这在七个文本生成任务和20多个数据集中都成立。机器翻译、简化和常识创造只是一些文本生成任务,其中由DTG提示的GPT实现了各种数据集的最先进性能。建议的DTG提示确实允许在生成之前进行决策和错误避免,这一点通过广泛的消融研究和统计误差分析得到证明。 研究人员计划在未来的工作中利用任务特定的领域知识来进一步提高DTG提示的效果。

Leave a Comment

Google研究人员推出了StyleDrop:一种人工智能方法,可以使用文本到图像模型忠实地追随特定样式来合成图像

谷歌的一组研究人员最近与 Muse 的快速文本到图像模型合作开发了创新的神经网络 StyleDrop。这项开创性的技术允许用户生成忠实地体现特定视觉风格的图像,捕捉细微的差别和复杂性。通过选择具有所需风格的原始图像,用户可以将其无缝地转移到新图像,同时保留所选择的风格的所有独特特征。StyleDrop 的多功能性还可用于与完全不同的图像一起使用,使用户能够将儿童绘画转换成风格化的标志或角色。 StyleDrop 由 Muse 先进的生成视觉转换器驱动,使用用户反馈、生成图像和 Clip 分数的组合进行训练。神经网络是通过最小的可训练参数进行微调的,仅占总模型参数的不到 1%。通过迭代训练,StyleDrop 不断提高生成图像的质量,确保在短短几分钟内获得令人印象深刻的结果。 这个创新工具对于寻求开发其独特视觉风格的品牌来说是非常宝贵的。有了 StyleDrop,创意团队和设计师可以高效地以其所偏爱的方式原型设计想法,使其成为不可或缺的资产。对 StyleDrop 的性能进行了广泛的研究,将其与其他方法(如 DreamBooth、Imagen 上的文本反转和 Stable Diffusion)进行了比较。结果一致展示了 StyleDrop 的卓越性,提供了高质量的图像,紧密地符合用户指定的风格。 StyleDrop 的图像生成过程依赖于用户提供的基于文本的提示。StyleDrop…

Leave a Comment

CMU研究人员推出ReLM:一种使用标准正则表达式验证和查询LLM的人工智能系统

尽管被广泛赞誉为能够生成自然语言文本的能力,但大型语言模型(LLMs)存在数据记忆、偏见和不适当语言等潜在负面影响,这引起了人们对其潜在负面影响的担忧。由于LLMs的复杂性和不断发展的能力,验证和纠正这些担忧是具有挑战性的。在这项研究中,作者提出了ReLM,这是一个通过传统的正则表达式检查和查询LLMs的系统。通过ReLM,许多语言模型评估可以通过将复杂的评估方法简化为正则表达式查询来形式化和实现。 通过对记忆、性别偏见、毒性和语言理解的查询结果,ReLM可以将统计和快速调整覆盖范围扩展到比最先进的即席搜索多达15倍。对于日益增长的LLM验证挑战,ReLM提供了一个有竞争力和广义的起点。 ReLM是第一个允许从整体上描述测试模式集合以直接测量LLM行为的解决方案。ReLM的成功源于使用解空间的紧凑图形表示,该解空间是从正则表达式导出的,然后在执行之前被编译成LLM特定的表示。因此,用户不需要熟悉LLM的内部工作方式;测试产生的结果与如果所有可能的字符串存在于现实世界中一样。除了建立ReLM之外,作者还展示了如何在各种LLM评估任务中使用字符串模式。 Python用户程序可以使用ReLM框架;ReLM公开了这些程序可以使用的特定API。要使用ReLM,软件需要发送一个查询对象和在第三方库(如Hugging Face Transformers(Wolf等,2020))中定义的LLM。正则表达式、LLM决策规则和遍历算法都存储在查询对象中。 在编写代码的同时,ReLM的用户可以将验证任务分为两个部分: 使用正则表达式正式描述一组字符串的子集。 引导引擎通过字符串枚举和评估的过程。 研究人员表明,ReLM可以快速、表达地执行常见查询,从而显著减少LLMs所需的验证工作量。最重要的是: 形式上概述了将正则表达式应用于LLM预测。与可数的多项选择问题不同,正则表达式可以描述具有不确定大小的集合。与有时会产生模糊响应的开放式问题相比,ReLM的结果始终是清晰的。 识别和构建了LLM推理查询的条件和无条件类别。许多令牌序列可以表示一个固定的查询字符串,这激发了一种压缩表示的方法,因为学者在研究无条件生成时已经证明了这一点。他们是第一组使用自动机来容纳这些变体编码的人。 设计和实现了一个有效将正则表达式转换为有限自动机的正则表达式推理引擎。研究人员使用了最短路径和随机图遍历,实现了具有竞争力的GPU利用率和运行时间(几秒钟)。 作者使用GPT-2模型说明了在LLM验证的上下文中,ReLM在评估记忆、性别偏见、毒性和语言理解任务方面的价值。 更多细节可在https://github.com/mkuchnik/relm中找到。 最后 由于自然语言的复杂性和LLMs的不断增长,验证大型语言模型(LLMs)的抽象性变得越来越必要。为了使用LLMs执行验证任务,研究人员提出了ReLM,这是第一个可编程框架。使用ReLM,您可以在正则表达式中编写逻辑查询,然后将其转换为LLM语言中的可执行形式。ReLM可以以比以前的方法节省2.5倍的数据,或以比以前的方法快15倍,或以提供额外见解的方式运行记忆、性别偏见、毒性和语言理解任务。虽然ReLM的结果强烈反对依赖即席LLM验证,但系统地解决这些问题引入了其他困难(例如,从左到右的自回归解码有利于后缀完成)。我们的长期目标包括提高ReLM的查询优化能力并将其带到更多模型系列中。

Leave a Comment