在自然语言处理(NLP)任务中,大型语言模型(LLM)在大规模在线数据集上训练表现出色。通过扩大数据规模,分割任何模型(SAM)在计算机视觉(CV)中显示出了出色的零样本定位能力。 不幸的是,SAM 无法生成语义标签,这是与定位相当的基本任务。多标签图像识别是识别单个图像的多个标签的目标,也称为图像标记。由于图像包含各种标签,包括对象、场景、属性和活动,图像标记是一个重要且有用的计算机视觉问题。 以下是阻碍图像标记的两个主要因素: 高质量数据的广泛收集。目前仍缺乏一个能够半自动或自动注释各类大量照片的高效数据注释引擎,以及一个标准化和全面的标记系统。 建立起足够的开放词汇表和强大的模型,采用高效灵活的模型设计,利用大规模的弱监督数据。 识别任何模型(RAM)是一个强大的图像标记基础模型,由OPPO研究院、国际数字经济学院(IDEA)和AI2机器人的研究人员刚刚推出。在数据方面,RAM可以克服标签系统不足、数据集不足、数据引擎低效和架构限制等问题。 研究人员首先创建了标准的全球命名约定。他们使用学术数据集(分类、检测和分割)和商业标记工具(Google、Microsoft和Apple)来丰富他们的标记系统。通过将所有可用的公共标记与常见的基于文本的标记相结合,标记方法产生6,449个标签,共同解决了绝大部分用例。研究人员表示,可以使用开放集识别来识别其余的开放词汇标签。 自动注释大规模照片使用标签系统是一项具有挑战性的任务。图像标记的提出方法受到了该领域以前的工作的启发,该领域使用大规模的公共图像文本对来训练强大的视觉模型。为了将这些大量的图片文本数据用于标记,团队采用了自动文本语义解析来提取图像标签。通过这种方法,他们可以在不依赖手动注释的情况下,基于图像文本对获得大量的图片标签。 因为互联网来源的图像文本组合往往存在随机噪声,所以团队创建了数据标记引擎来提高注释准确性。为了解决缺少标签的问题,他们采用现有模型来产生补充分类。在处理错误标记区域时,他们确定图像中与不同标签相关的某些部分,然后使用区域聚类方法查找和消除同一类别内的异常值。此外,还删除做出不一致预测的标签,以获得更精确的注释。 RAM通过为标签搜索添加语义上下文,允许对新颖类别进行泛化。RAM的识别能力可以通过这种模型架构为任何视觉数据集提高。通过展示一个在嘈杂的、无注释的数据上训练的通用模型可以击败高度监督的模型,RAM引入了一种新的图像标记范式。RAM需要一个免费且公开可用的没有注释的数据集。RAM的最强大版本只需在8个A100 GPU上训练三天。 据团队表示,RAM仍有改进的空间。这包括运行多个数据引擎迭代、增加骨干参数以提高模型容量,以及扩展训练数据集超过1400万张照片,以更好地覆盖不同领域。
Leave a CommentTag: Applications
基于互联网规模数据训练的大型文本到视频模型展现出了从任意编写描述生成高保真电影的非凡能力。然而,微调预训练的巨型模型可能代价高昂,难以将这些模型适应于具有有限领域特定数据的应用,例如动画或机器人视频。Google DeepMind、加州大学伯克利分校、麻省理工学院和艾伯塔大学的研究人员探索了如何在不进行微调的情况下自定义大型预训练文本到视频模型以适应各种下游领域和任务,灵感来自于一个小型可修改组件(如提示、前缀微调)如何使大型语言模型能够执行新任务而不需要访问模型权重。为了解决这个问题,他们提出了Video Adapter,一种通过使用大型预训练视频扩散模型的得分函数作为先验概率来生成特定任务的微小视频模型的方法。实验表明,Video Adapter可以使用预训练模型的参数仅占1.25%,以包含广泛的知识并在特定任务的微小视频模型中保持高保真度。可以使用Video Adapter生成高质量的特定任务的电影,包括但不限于动画、自我中心建模以及模拟和真实世界机器人数据的建模。 研究人员在各种视频创作工作中测试了Video Adapter。在困难的Ego4D数据和机器人Bridge数据上,Video Adapter生成的视频比高质量的预训练大型视频模型具有更好的FVD和Inception Scores,同时使用的参数少达80倍。研究人员定性地证明了Video Adapter可以生成类别特定的视频,如科幻电影和动画电影。此外,研究的作者展示了Video Adapter如何通过建模真实和模拟机器人电影并允许个性化风格化来为弥合机器人的臭名昭着的模拟到实际差距铺平道路。 主要特点 为了实现高质量且多功能的视频合成而无需在预训练模型上进行梯度更新,Video Adapter在采样时将预训练文本到视频模型的分数与领域特定微小模型的分数(仅使用1%参数)组合。 使用Video Adapter可以轻松地将预训练视频模型适应于人类和机器人数据的电影。 在相同的TPU小时数下,Video Adapter获得的FVD、FID和Inception Scores高于预训练模型和特定任务模型。 Video Adapter的潜在用途范围从动漫制作到领域随机化,以弥合机器人中的模拟现实差距。 与从互联网数据预训练的巨型视频模型相反,Video Adapter需要训练具有数量级更少参数的微小领域特定文本到视频模型。Video Adapter通过在采样期间组成预训练和领域特定视频模型的分数来实现高质量和可适应的视频合成。 使用Video…
Leave a Comment在最近发表在《自然机器智能》杂志的一项研究中,荷兰科技大学和瑞士洛桑联邦理工学院的研究人员深入探讨了OpenAI的ChatGPT平台的能力。好奇心促使他们调查这种先进的语言模型是否可以扩展其范围,超越生成诗歌、论文和书籍,协助机器人的设计过程。该团队试图确定在此方式下与人工智能合作的优势和潜在风险。 TU Delft的助理教授Cosimo Della Santina,与来自EPFL的博士生Francesco Stella和Josie Hughes,与ChatGPT展开了对话,重点关注粮食供应的增强。他们共同的头脑风暴会议使他们构思出了番茄收获机器人的想法,这是一个真正有用的创造。 研究人员发现ChatGPT在概念阶段的贡献尤为宝贵,因为它扩展了他们的专业知识。Stella解释说,这种语言模型提供了哪种作物对自动化最具经济可行性的见解。ChatGPT与之交互为设计过程中的明智决策铺平了道路。 此外,在实施阶段,ChatGPT提供了有用的建议,引导研究人员使用硅胶或橡胶作为夹具,以防止番茄被压碎。AI模型还建议采用Dynamixel电机,这是驱动机器人的最佳解决方案。这些协作努力最终导致了一个能够有效收获番茄的机械臂。 虽然研究人员发现协作设计过程丰富而积极,但他们注意到了自己作为工程师角色的变化。他们开始花更多时间进行技术任务,而ChatGPT则承担了共同研究员的角色。该团队探讨了人类和大型语言模型(LLMs)之间不同程度的合作,ChatGPT是其中之一的例子。 在最极端的情况下,AI提供所有输入,人类仅仅是遵循其指导,LLM实际上扮演研究员和工程师的角色。相反,人类则承担管理角色,负责定义设计目标。然而,这种情况在当前的LLMs中尚不可行,其可取性仍然存在争议。 Della Santina提出的一个潜在问题是机器人领域的错误信息和偏见的风险。LLMs基于概率生成响应,如果没有验证或验证不当,可能会导致误导或不准确的信息。研究人员还承认与LLMs合作的重要问题,包括抄袭、可追溯性和知识产权。 通过这种合作开发的番茄收获机器人将成为Della Santina、Stella和Hughes进一步研究机器人领域的有价值工具。此外,他们打算探索AI模型在设计其机器人身体方面的自主性。该团队认为,未来的一个开放性问题在于确定LLMs如何在不妨碍创造性思维和创新的情况下协助机器人开发人员解决21世纪的挑战。 随着研究人员继续利用像ChatGPT这样的AI模型的力量,他们的发现揭示了协作设计过程所涉及的潜在利益和风险。LLMs增强人类专业知识和扩大知识范围的能力是不可否认的。然而,必须谨慎行事,以确保准确性、透明度和保护机器人领域的创造性思维。通过在人类智慧和AI协助之间取得平衡,机器人领域可以应对未来的挑战,同时最小化潜在的风险。
Leave a Comment人工智能在我们日常遇到的所有主要用例和应用中都是革命性的。其中一个领域围绕着大量的音频和视觉媒体。想想所有能够生成有趣视频、艺术性惊人的图像、复制名人声音或只需一键记录整个讲座的人工智能应用程序。所有这些模型都需要大量的数据进行训练。大多数成功的系统都依赖于带注释的数据集来自我教育。 最大的挑战是存储和注释此数据,并将其转换为模型可以摄入的可用数据点。说起来容易做起来难,公司需要帮助每年收集并创建金标准数据点。 现在,来自麻省理工学院、麻省理工-IBM沃森人工智能实验室、IBM研究和其他机构的研究人员已经开发出一种能够有效解决这些问题的开创性技术,即分析未标记的音频和视觉数据。这种模型具有很大的潜力和潜力,可以改善当前模型的训练方式。这种方法与许多模型共鸣,例如语音识别模型、转录和音频创建引擎以及对象检测。它结合了两种自我监督学习体系结构:对比学习和遮蔽数据建模。这种方法遵循一个基本思想:复制人类如何感知和理解世界,然后复制相同的行为。 正如麻省理工学院的博士后Yuan Gong所解释的那样,自我监督学习非常重要,因为如果你看看人类如何收集和学习数据,其中很大一部分是没有直接监督的。目标是在机器中实现相同的过程,使它们能够从未标记的数据中学习尽可能多的功能。这种训练成为可以利用和改进的强大基础,具体取决于用例的监督学习或强化学习。 这里使用的技术是对比音频 – 视觉遮蔽自编码器(CAV-MAE),它使用神经网络从音频和视觉数据中提取和映射有意义的潜在表示。这些模型可以在10秒YouTube剪辑的大型数据集上进行训练,利用音频和视频组件。研究人员声称,CAV-MAE比任何其他先前方法都要好得多,因为它明确强调了音频和视觉数据之间的关联,而其他方法则没有。 CAV-MAE方法包括两种方法:遮蔽数据建模和对比学习。遮蔽数据建模包括: 获取视频及其匹配的音频波形。 将音频转换为频谱图。 遮蔽75%的音频和视频数据。 然后,该模型通过联合编码器/解码器恢复缺失的数据。重建损失,即衡量重建预测和原始音频-视觉组合之间差异的损失,用于训练模型。这种方法的主要目的是将相似的表示映射到彼此靠近的位置。它通过关联音频和视频数据的相关部分来实现,例如连接口部的口型。 将基于CAV-MAE的模型与其他模型进行测试证明非常有启发性。测试是在音频视频检索和音频-视觉分类任务上进行的。结果表明,对比学习和遮蔽数据建模是互补的方法。 CAV-MAE在事件分类方面优于以前的技术,并保持与使用行业级计算资源训练的模型竞争力。此外,多模态数据显着提高了单模态表示的微调和音频事件分类任务的性能。 麻省理工学院的研究人员认为,CAV-MAE代表了自我监督音频-视觉学习进展的突破。他们设想,它的用例可以涵盖动作识别,包括运动、教育、娱乐、摩托车和公共安全,跨语言自动语音识别和音频-视频生成。虽然当前的方法侧重于音频-视觉数据,但研究人员的目标是将其扩展到其他模态,认识到人类感知涉及音频和视觉提示以外的多种感官。 很有意思看到这种方法随着时间的推移表现如何,并且有多少现有模型尝试纳入这种技术。 研究人员希望随着机器学习的进步,像CAV-MAE这样的技术将变得越来越有价值,使模型能够更好地理解和解释世界。
Leave a Comment大型语言模型(LLMs)彻底改变了自然语言生成领域。传统的微调方法用于响应下游任务需要访问LLMs的参数,这限制了它们在强大的黑匣子LLMs(如ChatGPT)上的使用,这些LLMs仅提供API。因此,最近的研究重点关注提示技术,通过提供许多任务特定的指示和演示来指导生成结果,证明提示可以显著影响结果,因此需要仔细设计。 虽然提示原则上是一种灵活的方法,但它今天通常使用的方式有些严格。但是在语言学习中并非如此;人们可以通过接受和回应积极和消极的反馈来提高语言技能。 中国东北大学、微软亚洲研究院、微软Azure翻译和NiuTrans研究的一项新研究邀请LLMs重新考虑并学习如何发现其输出中的任何缺陷,以确定决策容量的演变方式。为了在生成之前促进错误识别,他们设计了一种名为“Deliberate then Generate(DTG)”的新提示模板,其中包括指示和可能的输出。 确定候选人是DTG设计的重要部分。使用第二个基准系统的数据是一个简单的选择,因为它的输出通常具有良好的质量,只需要进行小的调整即可有效使用。因此,它无法促进有效的决策。研究人员建议使用与源材料无关的文本,例如随机文本选择或空字符串。由于这种方法成功地触发了LLMs的决策能力,因此DTG可以轻松适应各种文本生产工作,只需要对提示进行轻微修改。从心理学的角度来看,这项工作受到了语言习得的典型案例的启发,该案例在发展语言能力时考虑了负面证据。 团队进行了大量实验,以显示所提出的DTG提示相对于传统提示可靠地增强了GPT3.5(text-DaVinci-003)和GPT4的模型性能。这在七个文本生成任务和20多个数据集中都成立。机器翻译、简化和常识创造只是一些文本生成任务,其中由DTG提示的GPT实现了各种数据集的最先进性能。建议的DTG提示确实允许在生成之前进行决策和错误避免,这一点通过广泛的消融研究和统计误差分析得到证明。 研究人员计划在未来的工作中利用任务特定的领域知识来进一步提高DTG提示的效果。
Leave a Comment通过使用户连接工具和服务,能够遵循图形用户界面(GUI)指令的系统可以自动化繁琐的工作,增加可访问性,并增加数字助手的实用性。 许多基于GUI的数字代理实现都依赖于HTML衍生的文本表示,这些表示并不总是容易获取。人们通过感知视觉输入并使用标准的鼠标和键盘快捷键来使用GUI;他们不需要查看应用程序的源代码来弄清楚程序的工作原理。无论底层技术如何,他们都可以通过直观的图形用户界面快速掌握新的程序。 雅达利游戏系统只是一个例子,说明了一个从仅像素输入中学习的系统可以表现得多么出色。然而,在尝试基于GUI的指令跟随任务时,从仅像素输入中学习时会面临许多障碍,这与通用的低级动作相结合。要对GUI进行视觉解释,必须熟悉界面的结构,能够识别和解释视觉定位的自然语言,识别和识别视觉元素,并预测这些元素的功能和交互方法。 谷歌DeepMind和谷歌介绍了PIX2ACT,这是一个模型,它以基于像素的截屏作为输入,并选择与基本鼠标和键盘控件匹配的操作。研究小组首次证明,一个只有像素输入和通用操作空间的代理可以超过人类众包工作者,并达到使用DOM信息和相当数量的人类演示的最先进代理的性能。 为此,研究人员扩展了PIX2STRUCT。这个基于Transformer的图像到文本模型已经通过大规模在线数据进行了训练,将截图转换为基于HTML的结构化表示。PIX2ACT应用树搜索来反复构建新的专家轨迹进行训练,采用人类演示和与环境的交互的组合。 团队在这里的努力包括创建一个通用的基于浏览器的环境框架,并使用标准的跨域观察和操作格式调整了两个基准数据集MiniWob++和WebShop,以在其环境中使用。使用他们提出的选项(不带DOM的CC-Net),PIX2ACT在MiniWob++上的表现比人类众包工作者高出约四倍。削减实验表明,PIX2STRUCT的基于像素的预训练对PIX2ACT的性能至关重要。 对于基于GUI的指令跟随像素输入,研究结果表明PIX2STRUCT通过屏幕截图解析的预训练的有效性。在行为克隆环境中进行预训练将MiniWob++和WebShop任务得分分别提高了17.1和46.7。尽管与使用基于HTML的输入和任务特定操作的较大语言模型相比仍存在性能劣势,但这项工作为这个环境设置了第一个基准。
Leave a Comment准确地分割多个对象对于各种场景理解应用非常重要,例如图像/视频处理、机器人感知和AR/VR。最近发布了Segment Anything Model (SAM),这是一个广泛的图像分割基本视觉模型。它使用十亿级别的掩码标签进行训练。SAM可以使用一系列点、边界框或粗略掩码作为输入,在多个上下文中分割各种对象、组件和可视结构。它的零-shot分割能力引发了快速的范式变化,因为它们可以在许多应用程序中仅使用一些基本提示。 尽管其表现出色,但SAM的分割结果仍然需要改进。SAM存在两个重要问题:1)粗糙的掩码边缘,经常遗漏细小物体结构的分割,如图1所示。2)在困难情况下,错误的预测、损坏的掩码或显著的不准确性。这通常与SAM的误读细小结构有关,例如图中右上角的风筝线。基本分割方法(如SAM)的应用和效果受到这些错误的严重限制,特别是对于自动注释和图像/视频编辑作业,其中极其精确的图像掩码至关重要。 图1:比较了SAM和我们的HQ-SAM的预测掩码,使用了单个红色框或对象上的多个点的输入提示。具有极其精确边界的HQ-SAM生成明显更详细的结果。在最右边的一列中,SAM误读了风筝线的细小结构,并为输入框提示生成了大量的错误和破损孔。 来自苏黎世联邦理工学院和香港科技大学的研究人员建议HQ-SAM,它保持了原始SAM的强大零-shot能力和灵活性,同时能够预测非常准确的分割掩码,即使在极其困难的情况下(参见图1)。他们建议对SAM进行小的调整,添加少于0.5%的参数,以增加其高质量分割的能力,同时保持效率和零-shot性能。直接调整SAM解码器或添加新的解码器模块会对零-shot分割的一般布局造成严重的影响。因此,他们建议HQ-SAM设计完全保留零-shot效率,与并重用当前学习的SAM结构相集成。 除了原始提示和输出令牌外,他们还创建了一个可学习的HQ-Output Token,馈送到SAM的掩码解码器中。与原始输出令牌相比,他们的HQ-Output Token及其相关的MLP层被教授预测高质量的分割掩码。其次,他们的HQ-Output Token在改进的特征集上运行,以生成精确的掩码信息,而不仅仅是使用SAM的掩码解码器功能。他们将SAM的掩码解码器特征与其ViT编码器的早期和晚期特征图结合使用,以使用全局语义上下文和细粒度的本地特征。 在训练期间,完整的预训练SAM参数被冻结,只更新HQ-Output Token、相关的三层MLP和一个小型特征融合块。学习准确分割所需的是一个具有复杂几何形状的各种对象的精确掩码注释的数据集。使用11M张照片和类似于SAM的模型自动创建的1.1亿个掩码的SA-1B数据集来训练SAM。然而,图1中SAM的性能表明,使用这个大型数据集具有重大的经济后果。它无法产生研究所需的高质量掩码生成。 因此,他们创建了HQSeg-44K,一个新的数据集,包括44K个高精度细粒度图像掩码注释。他们将六个现有的图像数据集与非常精确的掩码注释结合起来,以创建HQSeg-44K,涵盖了1000多个不同的语义类别。由于数据集较小,以及他们简单的集成设计,HQ-SAM可以在8个RTX 3090 GPU上进行训练,时间不到4小时。他们进行了严格的定量和定性实验研究,以验证HQ-SAM的有效性。 他们在来自各种下游任务的九个不同分割数据集上将HQ-SAM与SAM进行了比较,其中有七个在零-shot转移协议下,包括COCO、UVO、LVIS、HQ-YTVIS、BIG、COIFT和HR-SOD。这一彻底的分析表明,与SAM相比,所提出的HQ-SAM可以制造出更高质量的掩模,同时仍具有零-shot能力。他们的GitHub页面上有一个虚拟演示。 通过引入对原始SAM的可忽略开销,他们提出了第一个高质量的零-shot分割模型。 查看论文和GitHub。不要忘记加入我们的23k+ ML SubReddit、Discord频道和电子邮件通讯,在这里我们分享最新的AI研究新闻、酷炫的AI项目等等。如果您对上述文章有任何问题或我们漏掉了任何东西,请随时发送电子邮件至Asif@marktechpost.com 查看AI工具俱乐部中的100个AI工具 这篇文章最初发表在MarkTechPost上。
Leave a Comment谷歌的一组研究人员最近与 Muse 的快速文本到图像模型合作开发了创新的神经网络 StyleDrop。这项开创性的技术允许用户生成忠实地体现特定视觉风格的图像,捕捉细微的差别和复杂性。通过选择具有所需风格的原始图像,用户可以将其无缝地转移到新图像,同时保留所选择的风格的所有独特特征。StyleDrop 的多功能性还可用于与完全不同的图像一起使用,使用户能够将儿童绘画转换成风格化的标志或角色。 StyleDrop 由 Muse 先进的生成视觉转换器驱动,使用用户反馈、生成图像和 Clip 分数的组合进行训练。神经网络是通过最小的可训练参数进行微调的,仅占总模型参数的不到 1%。通过迭代训练,StyleDrop 不断提高生成图像的质量,确保在短短几分钟内获得令人印象深刻的结果。 这个创新工具对于寻求开发其独特视觉风格的品牌来说是非常宝贵的。有了 StyleDrop,创意团队和设计师可以高效地以其所偏爱的方式原型设计想法,使其成为不可或缺的资产。对 StyleDrop 的性能进行了广泛的研究,将其与其他方法(如 DreamBooth、Imagen 上的文本反转和 Stable Diffusion)进行了比较。结果一致展示了 StyleDrop 的卓越性,提供了高质量的图像,紧密地符合用户指定的风格。 StyleDrop 的图像生成过程依赖于用户提供的基于文本的提示。StyleDrop…
Leave a Comment尽管被广泛赞誉为能够生成自然语言文本的能力,但大型语言模型(LLMs)存在数据记忆、偏见和不适当语言等潜在负面影响,这引起了人们对其潜在负面影响的担忧。由于LLMs的复杂性和不断发展的能力,验证和纠正这些担忧是具有挑战性的。在这项研究中,作者提出了ReLM,这是一个通过传统的正则表达式检查和查询LLMs的系统。通过ReLM,许多语言模型评估可以通过将复杂的评估方法简化为正则表达式查询来形式化和实现。 通过对记忆、性别偏见、毒性和语言理解的查询结果,ReLM可以将统计和快速调整覆盖范围扩展到比最先进的即席搜索多达15倍。对于日益增长的LLM验证挑战,ReLM提供了一个有竞争力和广义的起点。 ReLM是第一个允许从整体上描述测试模式集合以直接测量LLM行为的解决方案。ReLM的成功源于使用解空间的紧凑图形表示,该解空间是从正则表达式导出的,然后在执行之前被编译成LLM特定的表示。因此,用户不需要熟悉LLM的内部工作方式;测试产生的结果与如果所有可能的字符串存在于现实世界中一样。除了建立ReLM之外,作者还展示了如何在各种LLM评估任务中使用字符串模式。 Python用户程序可以使用ReLM框架;ReLM公开了这些程序可以使用的特定API。要使用ReLM,软件需要发送一个查询对象和在第三方库(如Hugging Face Transformers(Wolf等,2020))中定义的LLM。正则表达式、LLM决策规则和遍历算法都存储在查询对象中。 在编写代码的同时,ReLM的用户可以将验证任务分为两个部分: 使用正则表达式正式描述一组字符串的子集。 引导引擎通过字符串枚举和评估的过程。 研究人员表明,ReLM可以快速、表达地执行常见查询,从而显著减少LLMs所需的验证工作量。最重要的是: 形式上概述了将正则表达式应用于LLM预测。与可数的多项选择问题不同,正则表达式可以描述具有不确定大小的集合。与有时会产生模糊响应的开放式问题相比,ReLM的结果始终是清晰的。 识别和构建了LLM推理查询的条件和无条件类别。许多令牌序列可以表示一个固定的查询字符串,这激发了一种压缩表示的方法,因为学者在研究无条件生成时已经证明了这一点。他们是第一组使用自动机来容纳这些变体编码的人。 设计和实现了一个有效将正则表达式转换为有限自动机的正则表达式推理引擎。研究人员使用了最短路径和随机图遍历,实现了具有竞争力的GPU利用率和运行时间(几秒钟)。 作者使用GPT-2模型说明了在LLM验证的上下文中,ReLM在评估记忆、性别偏见、毒性和语言理解任务方面的价值。 更多细节可在https://github.com/mkuchnik/relm中找到。 最后 由于自然语言的复杂性和LLMs的不断增长,验证大型语言模型(LLMs)的抽象性变得越来越必要。为了使用LLMs执行验证任务,研究人员提出了ReLM,这是第一个可编程框架。使用ReLM,您可以在正则表达式中编写逻辑查询,然后将其转换为LLM语言中的可执行形式。ReLM可以以比以前的方法节省2.5倍的数据,或以比以前的方法快15倍,或以提供额外见解的方式运行记忆、性别偏见、毒性和语言理解任务。虽然ReLM的结果强烈反对依赖即席LLM验证,但系统地解决这些问题引入了其他困难(例如,从左到右的自回归解码有利于后缀完成)。我们的长期目标包括提高ReLM的查询优化能力并将其带到更多模型系列中。
Leave a CommentGPT模型是OpenAI开发的ChatGPT聊天机器人背后的变压器架构,它基于通过仅几个例子学习任务的概念。这种称为上下文学习的方法,使模型避免了使用数千个输入文本进行微调,只使用特定于任务的示例作为输入就能学习在不同任务上表现良好。针对特定任务微调模型可能非常昂贵,因为GPT是一个具有数十亿参数的“大”语言模型,由于在微调期间需要更新所有模型参数,因此相对而言成本较高。 上下文学习在代码生成、问答、机器翻译等方面得到了有效应用,但在图机器学习任务中仍然存在局限性和挑战。一些图机器学习任务包括识别在社交网络上传播半真半假或虚假新闻的传播者和跨电子商务网站的产品推荐。上下文学习在制定和建模这些任务的过程中面临局限性,无法形成和建模统一的任务表示,使模型能够处理各种任务而无需重新训练或参数调整。 最近,一组研究人员在其研究论文中介绍了PRODIGY,这是一个预训练框架,可实现在图形上下文中学习。PRODIGY(Pretraining Over Diverse In-Context Graph Systems)使用提示图表示形式来制定上下文学习。提示图作为上下文图任务表示,集成了节点、边缘和图级机器学习任务的建模。提示网络将输入节点或边缘与其他标签节点连接,并对提示示例和查询进行上下文化。这种互连表示允许指定各种图形机器学习任务到同一模型中,而不受图形大小的限制。 由斯坦福大学和卢布尔雅那大学的研究人员提出,团队设计了一种图形神经网络架构,专门用于处理提示图,并有效地对图结构化数据进行建模和学习。所提出的设计利用GNN教授提示图的节点和边缘的表示。此外,还引入了一系列上下文预训练目标,以指导学习过程,提供监督信号,使模型能够捕获相关的图形模式并在不同的任务中进行推广。 为了评估PRODIGY的性能和有效性,作者在涉及引文网络和知识图的任务上进行了实验。引文网络代表科学论文之间的关系,而知识图则捕获有关不同领域的结构化信息。使用上下文学习对预训练模型进行了测试,并将结果与硬编码适应性的对比预训练基线和使用有限数据的标准微调进行了比较。PRODIGY在准确性方面平均优于对比预训练基线的硬编码适应性18%。当应用上下文学习时,与标准微调相比,平均提高了33%。 总之,PRODIGY在基于图形的场景中似乎很有前途,如图机器学习应用中的上下文学习。它甚至可以在以前未见过的图形上执行下游分类任务,使其更加有效和有益。
Leave a Comment