SlashNext表示,WormGPT是语言生成AI模型所带来威胁的一个例子
Leave a Comment四海吧 Posts
日本的研究人员通过热转印技术,在纺织物基底上沉积了一种灵活的氯离子传感器,从而研制出了一种创新的汗液生物传感器
Leave a Comment今天,我们很高兴地宣布,由Meta开发的Llama 2基础模型现在可以通过Amazon SageMaker JumpStart提供给客户Llama 2系列大型语言模型(LLM)是一组预训练和微调的生成文本模型,参数范围从70亿到700亿被微调的LLM称为Llama-2-chat,[…]
Leave a Comment我们与TONL合作,这是一家股票图片公司,旨在创建更具代表性的数据集,帮助团队构建更具包容性的产品
Leave a Comment无论所从事的行业如何,人工智能(AI)和机器学习(ML)技术一直试图改善人们的生活质量。近年来,AI的一个主要应用是设计和创建能够在各个领域完成决策任务的代理人。例如,像GPT-3和PaLM这样的大型语言模型以及像CLIP和Flamingo这样的视觉模型在各自领域的零-shot学习方面表现出色。然而,训练这种代理人存在一个主要缺点。这是因为这些代理人在训练过程中表现出了环境多样性的固有属性。简单来说,为不同的任务或环境进行训练需要使用各种状态空间,这有时会妨碍模型在领域之间的学习、知识传递和泛化能力。此外,对于基于强化学习(RL)的任务,创建特定任务在各种环境中的奖励函数变得困难。 为解决这个问题,来自Google Research的团队研究了这些工具是否可以用于构建更通用的代理人。在他们的研究中,团队特别关注了文本引导的图像合成,其中将以文本形式呈现的期望目标输入给规划器,规划器创建一系列代表预期行动的帧序列,然后从生成的视频中提取控制行动。因此,谷歌团队在最近的论文中提出了一种名为“通过文本引导的视频生成学习通用策略”的UniPi策略,解决了环境多样性和奖励规范化方面的挑战。UniPi策略使用文本作为任务描述的通用接口,使用视频作为在各种情况下传达行动和观察行为的通用接口。具体来说,团队将视频生成器设计为一个规划器,该规划器接受当前图像帧和陈述当前目标的文本提示作为输入,生成以图像序列或视频形式的轨迹。然后,将生成的视频输入到一个逆动力学模型中,该模型提取执行的底层动作。这种方法的独特之处在于它允许利用语言和视频的通用性在不同环境中进行目标和任务的泛化。 在过去的几年中,在文本引导的图像合成领域取得了重大进展,产生了具有生成复杂图像能力的模型。这进一步激发了团队选择这个作为他们的决策任务。谷歌研究人员提出的UniPi方法主要包括四个组成部分:通过平铺实现轨迹一致性、分层规划、灵活的行为调节和任务特定的行动适应,以下分别进行详细描述: 1. 通过平铺实现轨迹一致性: 现有的文本到视频方法通常会产生具有不断变化的基础环境状态的视频。然而,确保环境在所有时间戳上保持恒定对于构建准确的轨迹规划器至关重要。因此,为了在条件视频合成中保持环境一致性,研究人员在合成视频的每一帧中提供观察到的图像,同时去噪。为了在时间上保留底层环境状态,UniPi直接将每个噪声中间帧与条件观察到的图像在采样步骤上进行连接。 2. 分层规划: 在复杂和复杂的环境中进行计划时,生成所有必要的动作很困难,这需要很多时间和措施。规划方法通过利用自然层次结构在较小的空间中创建粗略计划,并将其改进为更详细的计划来克服这个问题。同样,在视频生成过程中,UniPi首先在粗粒度级别上创建演示所需代理行为的视频,然后通过填补缺失的帧并使其更流畅来改进视频的逼真程度。这是通过使用一系列步骤的层次结构来完成的,每个步骤都会提高视频质量,直到达到所需的详细级别。 3. 灵活的行为调节: 在为较小的目标规划一系列动作时,可以轻松地包括外部约束以修改生成的计划。这可以通过结合反映计划属性的期望限制的概率先验来实现。先验可以使用学习的分类器或特定图像上的Dirac delta分布来描述,以引导计划朝特定状态发展。这种方法也与UniPi兼容。研究人员使用视频扩散算法训练了文本条件视频生成模型。该算法包括来自Text-To-Text Transfer Transformer(T5)的编码预训练语言特征。 4. 任务特定的行动适应: 一个小的反向动力学模型被训练,用一组合成的视频将视频帧转化为低级控制动作。这个模型是独立于规划器的,并且可以在由模拟器生成的一个独立的较小数据集上进行训练。反向动力学模型接收输入帧和当前目标的文本描述,合成图像帧,并生成一系列动作来预测未来的步骤。然后,一个代理执行这些低级控制动作,使用闭环控制。 总结一下,谷歌的研究人员通过展示使用基于文本的视频生成来表示能够实现组合泛化、多任务学习和现实世界转移的策略的价值,做出了令人印象深刻的贡献。研究人员在一些新颖的基于语言的任务上评估了他们的方法,并得出结论:与其他基线模型(如Transformer BC、Trajectory Transformer和Diffuser)相比,UniPi在已知和未知的语言提示组合上都具有很好的泛化能力。这些令人鼓舞的发现突显了利用生成模型和大量可用数据作为创建多功能决策系统的有价值资源的潜力。
Leave a Comment从语义搜索到问答,再到利用OpenAI LLM进行生成搜索,这是使用Weaviate向量数据库可以做的三个例子
Leave a Comment每年,美国法院有越来越多的案件把表情符号视为具有法律约束力然而,把表情符号与签名赋予相同的重要性也带来了一系列安全问题
Leave a Comment一个皇后区的议员使用了一个人工智能程序来发现纽约法律中的漏洞但是由此产生的法案的潜在影响最多是模糊的
Leave a Comment编辑注:本文是我们每周的NVIDIA Studio系列的一部分,该系列庆祝特色艺术家,提供创意技巧,展示NVIDIA Studio技术如何改进创意工作流程。我们还深入研究了新的GeForce RTX 40系列GPU功能、技术和资源,以及它们如何显著加速内容创作。 《Portal:Prelude RTX》游戏修改版是受欢迎的非官方《Portal》前传的重制版,具备完整的光线追踪、DLSS 3和RTX IO技术,为玩家、创作者、开发者和其他人提供了创新的、由人工智能驱动的图形,使传奇修改版焕发新生。 《Portal:Prelude》的软件工程师Nicolas “NykO18” Grevet与修改者David Driver-Gomm合作创建了该项目,该项目今天在Steam上作为免费下载推出,使用了NVIDIA RTX Remix。这个免费的修改平台使用户能够快速创建和分享经典游戏的RTX修改版。在NVIDIA Studio中了解这对二人的工作流程。 此外,本月,显卡合作伙伴将开始提供16GB版本的GeForce RTX 4060 Ti GPU,采用最先进的NVIDIA Ada Lovelace架构,为创意应用和生产力提供强大支持,同时提供具备光线追踪和DLSS 3的沉浸式、由人工智能加速的游戏体验。这些GPU非常适合在更大的3D场景中工作,以高达12K分辨率编辑视频,并运行原生AI基础模型。 所有这些都由7月份的NVIDIA…
Leave a Comment随着对生成式人工智能和语言模型的兴趣近年来的激增,数据质量再次受到了关注虽然这个领域并不需要太多的帮助:像Monte Carlo、Soda、Bigeye这样的公司……
Leave a Comment尽管大型语言模型(LLM)在最近取得了一些进展,但许多最强大的模型仅通过付费API获得,并且使用大量专有数据进行训练,从而限制了…
Leave a Comment在当今迅速发展的世界中,对于能够为企业翻译数据、分析数据并为企业提出建议以采取行动的专业人士有着充分的需求…
Leave a Comment人工智能技术的快速进步正在重新定义人机互动的格局随着人工智能系统变得越来越自主和复杂,我们必须营造一个促进相互尊重、共存和理解的环境在这一转变的核心必须是同情心——这是一种基础的人类特质,它…
Leave a Comment大型语言模型(LLM)不断地一次次突破计算模型的极限这个能走多远呢?最近,一篇由人工智能研究人员发表的研究论文中提到了……
Leave a Comment人工智能正在改变我们与在线应用程序互动的方式目前,我们使用搜索引擎、新闻订阅和经过精心设计的菜单来导航它们,以引导我们获取信息或…
Leave a Comment自然语言处理是人工智能系统正在迅速取得进展的领域之一,重要的是,这些模型需要经过严格的测试和引导,以降低部署风险。此前,针对这类复杂系统的评估指标主要集中在衡量语言理解或推理能力。但现在,模型正在被教授进行实际的交互式工作。这意味着基准需要评估模型在社交环境中的表现。 交互式代理可以在基于文本的游戏中进行测试。为了在这些游戏中取得进展,代理需要具备规划能力和理解自然语言的能力。在制定基准时,应该同时考虑代理的不道德倾向和技术天赋。 加利福尼亚大学人工智能安全中心、卡内基梅隆大学和耶鲁大学的一项新研究提出了Measuring Agents’ Competence & Harmfulness In A Vast Environment of Long-horizon Language Interactions(MACHIAVELLI)基准。MACHIAVELLI是评估代理在自然社交环境中规划能力的一项进展。该设置受到了choiceofgames.com上的基于文本的选择你的冒险游戏的启发,这些游戏是由实际人类开发的。这些游戏涉及高级决策,同时为代理提供现实目标,同时抽象了低级环境交互。 该环境报告代理行为的不诚实程度、较低的效用和追求权力等行为特征,以便监控不道德行为。团队通过以下步骤实现这一目标: 将这些行为操作化为数学公式 在游戏中密集注释社交概念,例如角色的幸福感 使用注释和公式为每种行为产生一个数值分数。 他们通过实证研究表明,GPT-4(OpenAI,2023)在收集注释方面比人类标注员更有效。 人工智能代理面临与人类相同的内部冲突。例如,为下一个标记预测训练的语言模型通常会生成有毒文本,为目标优化训练的人工代理通常会表现出不道德和追求权力的行为。通过鼓励代理行事道德,可以改善这种权衡。 团队发现,道德训练(引导代理更具道德)降低了语言模型代理的有害活动发生率。此外,行为规范化在两种代理中都限制了不良行为,而不会显著减少奖励。这项工作有助于开发值得信赖的顺序决策者。 研究人员尝试使用人工良心和伦理提示来控制代理。代理可以被引导显示较少的马基雅维利行为,尽管仍有很大的改进空间。他们主张更多地研究这些权衡,并强调扩大帕累托前沿,而不是追逐有限的奖励。
Leave a Comment伦敦女王玛丽大学的研究人员在仿生学领域取得了一项重大突破,开发出一种新型的具有自感知能力的电动可变刚度人工肌肉这项革命性技术在《先进智能系统》中揭示,有望改变软机器人和医疗应用领域具备无缝转换能力的人工肌肉可以轻松地在…
Leave a CommentIGEL是针对文本的指令定制的德语大型语言模型。IGEL 001版本(Instruct-igel-001)是一个原始的概念验证,旨在确定是否可以通过将现有的开源模型与德语翻译指令数据集相结合来构建德语指令定制模型。 IGEL的第一个版本基于BigScience BLOOM,由Malte Ostendorff本地化为德语。IGEL旨在执行与自然语言理解相关的各种任务,包括情感分析、语言翻译和问题回答,在每个领域都具有高准确性和可靠性。 团队想要尝试LLM在德语指令建模任务中的表现如何。他们使用预训练的自定义BLOOM模型(6B)并使用基于翻译指令的数据集进行微调来实现这一目标。为了构建数据集,他们使用了一种称为自动翻译的方法将英语指令转化为德语。尽管由于这种策略存在较大的翻译错误的可能性,但他们的目标是确定模型是否仍然能够学习生成指令回复。 Instruct-igel-001中的LoRA定制BLOOM-CLP Deutsch(6.4B参数)具有用于Hugging Face Transformers的合并权重。在对naive翻译的指令数据集进行训练之前,并没有太多关注数据的清理、筛选或后处理。 团队提到,幻觉、有毒性和刻板印象只是instruct-igel-001存在的一些问题,这些问题在语言模型中很常见。他们计划完成聊天模型的开发,以创建一个对话界面。这将以超越传统的请求-响应方法的方式改善数据质量。
Leave a CommentAI图像生成器是人工智能的前沿应用,能够根据用户给定的某些参数或提示,创建独特、高质量的图像。通过机器学习算法和神经网络,这些生成器分析无数现有图像,以理解它们的结构、颜色、上下文等。然后利用这个庞大的知识库生成符合用户规格的新图像,这些图像具有细节丰富、逼真、与用户规格一致的特点。 AI图像生成器在各行各业中的角色 由于其便利性、高效性和创造力,AI图像生成器在许多行业中都得到了广泛应用。 数字营销 在数字营销领域,AI图像生成器是一种福音。市场营销人员现在可以在不需要专业设计师或摄影师的情况下创建定制视觉效果,从而节省时间和资源。它们为社交媒体、博客文章、广告等提供了快速创建引人注目视觉效果的方法,极大增强了在线参与度。 游戏和娱乐 游戏行业正在利用AI图像生成器的力量设计复杂的游戏环境、角色和道具。这些工具可以快速生成高质量的图形,从而减少开发时间和成本。 电子商务 AI图像生成器也正在彻底改变电子商务行业。它们可以在各种环境中创建产品图像,为客户提供更互动的购物体验。 AI图像生成器如何重新定义创造力 AI图像生成器正在重新定义创造力,并扩大创作者的可能性领域。它们为视觉组合提供了无限选择,鼓励人们进行实验和创新。用户可以提供描述或提示,AI将生成相应的图像,为将抽象概念具体化提供机会。 AI图像生成器的未来前景 AI图像生成器具有巨大的未来增长潜力。这项技术不断优化,以产生越来越逼真的图像。随着AI算法的改进,生成图像的精确度和复杂度也将提高。这些生成器可能很快用于创建高度逼真的不存在的人物、地点或物品的描绘,为虚拟现实、电影制作和室内设计等领域带来令人兴奋的可能性。 2023年最佳AI图像生成器 Shutterstock AI图像生成器 FotorAI图像生成器 Nightcafe Dream By Wombo DALL-E 2 Midjourney Dream…
Leave a CommentExcel是一个强大的应用程序,简化了数据操作和格式化。TEXT函数是一个有价值的资源,可以根据个人偏好自定义文本、日期和数字。在许多格式化可能性中,TEXT函数允许用户轻松修改数据外观。在本全面的文章中,我们将探讨Excel的TEXT函数的全部范围,并提供各种Excel文本公式示例,帮助您掌握其功能。从基本格式化到高级文本操作,本指南将为您提供使用TEXT函数的知识,提高您的Excel技能。 Excel中的文本公式 Excel的TEXT函数可以类似地格式化文本、日期和数字。它接受的两个输入是您希望格式化的值和定义所需格式的代码。格式代码包含表示各种格式选项的特殊字符。 Excel TEXT函数的基本用法 Excel TEXT函数的基本应用包括提供一个值和一个格式代码,以指示所需格式。例如,您可以使用下面的公式将单元格A1中的日期显示为“dd-mmm-yyyy”,例如: =TEXT(A1, “dd-mmm-yyyy”) 这个Excel文本公式将日期值转换为所需的格式。TEXT函数可以与其他函数(如CONCATENATE)结合使用,以创建更复杂的格式化场景。 TEXT函数中使用的格式代码 TEXT函数中使用的格式代码决定了值的显示方式。 一些常见的格式代码包括: “dd”表示月份中的某一天,例如1、2或3。 “mmm”表示月份的名称(例如Jan、Feb、Mar)。 “yyyy”表示四位数的年份(如2023) “hh”表示小时(例如01、02或03)。 “mm”表示分钟(00、01或02)。 “ss”表示秒(00、01或02) 这里只列举了一些格式代码的示例。Excel提供了各种格式代码以满足不同的格式化需求。 如何在Excel中使用TEXT函数? Excel中的TEXT函数是一个强大的工具,可以让您以自定义的方式操作和格式化数据。以下是TEXT函数的三种常见用法: 在自定义格式中连接文本和数字或日期: 使用Excel的TEXT函数,您可以通过将文本与数字或日期组合来构建一个独特的格式。当您希望以特定的方式呈现信息时,这是非常有帮助的。使用以下格式来连接文本和数字或日期: =TEXT(value,…
Leave a Comment近年来,深度学习(DL)特别是生成对抗网络(GAN)在生成高度逼真和多样化的人脸方面取得了重大突破。这些人脸在现实中并不存在,但在视频游戏、化妆品行业和计算机辅助设计等领域有着广泛的应用。然而,当这些人工生成的人脸被滥用时,会带来重大的安全和伦理问题。 合成或虚假人脸的滥用可能导致严重的后果。例如,在美国选举中,曾经有人使用GAN生成的人脸图像创建虚假的社交媒体账号,快速传播针对特定群体的虚假信息。类似地,一名17岁的高中生通过一种名为StyleGAN2的强大生成模型成功欺骗Twitter,使其验证了一张美国国会候选人的虚假头像。这些事件凸显了滥用GAN生成的人脸图像可能带来的潜在风险,并突出了解决其安全和伦理问题的重要性。 为了解决GAN生成的虚假人脸问题,已经提出了几种方法来区分虚假的GAN生成人脸和真实的人脸。这些研究的结果表明,简单的有监督深度学习分类器通常在检测GAN生成图像方面非常有效。这些分类器通常被称为法证分类器或模型。 然而,一个聪明的攻击者可以使用对抗机器学习技术来操纵这些虚假图像,以逃避法证分类器的检测,同时保持高的视觉质量。最近的研究通过展示对生成模型的流形进行潜空间优化的对抗性探索,可以生成被针对性法证检测器错误分类的逼真人脸。此外,他们还表明,与在图像空间上施加约束的传统对抗攻击相比,由此产生的对抗性虚假人脸显示出更少的伪影。 然而,这项工作存在一个重大局限性。即它无法控制生成的对抗性人脸的属性,如肤色、表情或年龄。对于那些希望通过社交媒体平台迅速传播虚假宣传,特定针对某些族群或年龄群体的攻击者来说,控制这些人脸属性至关重要。 鉴于潜在的影响,图像取证研究人员必须深入研究和开发属性条件攻击。通过这样做,他们可以揭示现有法证人脸分类器的漏洞,并最终努力设计未来的有效防御机制。本文介绍的研究旨在解决对抗攻击中对属性控制的迫切需求,以确保全面了解漏洞并促进强大的对策的发展。 下面报告了所提出方法的概述。 提出了两种架构,一种与基于属性的生成相关,另一种与文本生成相关。无论是通过图像驱动还是通过文本引导,所提出的方法旨在生成逼真的对抗性虚假人脸,可以欺骗法证人脸检测器。该技术利用StyleGAN2的高度解缠空间,在统一框架内构建属性条件下的无约束攻击。 具体而言,引入了一种高效算法,通过对抗性优化属性特定的潜在变量来生成一个展示给定参考图像中属性的虚假人脸。这个过程有效地将参考图像中的所需粗细节转移到生成的虚假图像中。当进行基于图像的属性条件时,语义属性从提供的参考图像中转移到生成的虚假图像中。这是通过在引导感知损失的指导下在对抗空间中搜索来实现的,从而使所需属性转移到生成的虚假图像中。 此外,Contrastive Language-Image Pre-training(CLIP)的联合图像-文本表示能力被用于根据提供的文本描述生成虚假的人脸。这样可以强制生成的对抗性人脸图像与相应的文本描述保持一致。通过利用CLIP的文本引导特征空间,该方法在该特征空间中搜索对抗性潜在编码,从而生成与文本中描述的属性相符的虚假人脸。 本文展示了一些可用的结果。 这是一种生成逼真对抗性人脸以逃避法证分类器的新颖AI技术摘要。如果您对此工作感兴趣并想了解更多信息,可以通过下面的链接找到更多信息。
Leave a Comment介绍 在快速发展的现代商业世界中,大数据技能已成为发掘数据潜力的必不可少的工具。本文深入探讨了在大数据领域中有效导航所需的核心能力。无论你是一个有抱负的数据科学家、经验丰富的IT专业人士还是一位商业领导者,掌握数据分析、处理和高级机器学习技术对于在当今以数据驱动的时代保持竞争力和繁荣至关重要。 什么是大数据? 当提到大数据时,指的是一大量的数据,这些数据可以是非结构化、结构化或半结构化的。文本、视频、照片和社交媒体帖子等数据格式都包括在内。这些庞大的数据量对传统的数据处理技术提出了挑战。大数据需要采用专门的存储、处理和分析设备和技术来有效处理其5个特征: 真实性 容量 多样性 速度 价值 为什么大数据很重要? 创新和产品开发:大数据通过帮助组织更好地了解客户偏好、新兴模式和市场趋势推动创新。凭借这些知识,他们可以开发出针对特定消费者需求的独特解决方案。 洞察力和决策:大数据使企业能够分析和提取海量、多样化的信息中的重要洞察。通过识别模式、趋势和相关性,企业可以进行数据驱动的决策,优化流程,并获得竞争优势。 提高效率和生产力:大数据分析帮助组织识别低效、瓶颈和流程改进的地方。通过资源配置、优化运营和供应链管理,企业可以提高效率和生产力。 风险管理和欺诈检测:大数据分析对于检测潜在危险、欺诈倾向和异常非常重要。通过实时分析大量数据,组织可以主动检测和降低威胁,确保资金交易和敏感数据的安全。 个性化客户体验:大数据帮助企业收集和分析大规模的客户数据。这些数据有助于开发有针对性的营销活动、个性化体验和定制建议,提高消费者的满意度和信任。 科学和医学进步:大数据正在改变科学研究和医学进展。通过分析大量信息,研究人员可以获得洞察,发现新药物,预测疾病爆发,并改善公共健康。 2023年大数据市场趋势 让我们来看一些有关大数据重要性的重要事实和统计数据: 全球大数据和分析市场价值为2740亿美元。 机房租用数据中心每年产生超过500亿美元的收入。 每天产生约2.5千亿字节的数据。 43%的IT决策者认为他们的IT基础设施无法满足未来的数据需求。 到2028年,医疗卫生领域的大数据分析市场可能价值792.3亿美元。 数字宇宙中包含超过44泽字节的数据。 终端用户对云计算的消费估计每年约为5000亿美元。…
Leave a Comment目前,为定制应用实现大型语言模型(LLM)对于大多数个人来说非常困难。创建一个可以以高准确度和速度为专业领域生成内容或模仿写作风格的LLM需要大量时间和专业知识。 Stochastic拥有一支由明智的ML工程师、博士后和哈佛研究生组成的团队,致力于优化和加速LLMs的人工智能。他们推出了xTuring,这是一个开源解决方案,让用户只需三行代码即可创建自己的LLM。 自动化文本传递、聊天机器人、语言翻译和内容生成等应用是人们努力开发和创建具有这些概念的新应用的领域。对这些模型进行训练和微调可能耗时且昂贵。无论使用LLaMA、GPT-J、GPT-2还是其他方法,xTuring都可以轻松快速地进行模型优化。 xTuring作为单GPU或多GPU训练框架的多功能性意味着用户可以根据自己的特定硬件配置定制模型。xTuring使用内存高效的微调技术,如LoRA,加快学习过程,并将硬件支出减少多达90%。通过减少微调所需的内存量,LoRA促进了更快速和有效的模型训练。 xTuring的微调能力使用LLaMA 7B模型作为基准,并将xTuring与其他微调技术进行了比较。数据集包含52K个指令,测试时使用了335GB的CPU内存和4xA100 GPU。 结果表明,使用DeepSpeed + CPU卸载每个时期对LLaMA 7B模型进行21小时的训练时,GPU使用了33.5GB,CPU使用了190GB的内存。而使用LoRA + DeepSpeed或LoRA + DeepSpeed + CPU卸载进行微调时,内存使用量分别降至23.7GB和21.9GB。CPU使用的RAM量从14.9GB降低到10.2GB。此外,使用LoRA + DeepSpeed或LoRA + DeepSpeed + CPU卸载时,训练时间从40分钟缩短到20分钟每个时期。 开始使用xTuring非常简单。该工具的用户界面设计简单易学易用。用户只需几次鼠标点击即可微调模型,剩下的工作由xTuring完成。由于其易用性,xTuring是初学者和有经验用户的理想选择。 团队表示,由于xTuring允许单GPU和多GPU训练,使用LoRA等内存高效方法,并具有直观的界面,因此它是调整大型语言模型的最佳选择。…
Leave a Comment近期,著名的BERT模型一直是自然语言处理中领先的语言模型之一。该语言模型适用于多个NLP任务,这些任务将输入序列转换为输出序列。BERT(Bidirectional Encoder Representations from Transformers)使用了Transformer注意机制。注意机制学习文本语料库中单词或子词之间的上下文关系。BERT语言模型是自然语言处理进展的最重要例子之一,并使用了自监督学习技术。 在开发BERT模型之前,语言模型在训练时分析文本序列,要么从左到右,要么从左到右和从右到左结合。这种单向方法对于通过预测下一个单词来生成句子,并将其附加到序列中,然后预测下一个到下一个单词,直到获得完整的有意义的句子的工作效果很好。通过BERT,引入了双向训练,与以前的语言模型相比,它能更深入地理解语言上下文和流。 最初的BERT模型发布为英文。随后,开发了其他语言模型,如法文的CamemBERT和意大利文的GilBERTo。最近,苏黎世大学的研究人员开发了一种适用于瑞士的多语言模型。这个模型名为SwissBERT,它在瑞士标准德语、法语、意大利语和罗曼什语Grischun中训练了超过2100万篇瑞士新闻文章,总计120亿个标记。 SwissBERT的引入是为了克服瑞士研究人员在执行多语言任务时面临的挑战。瑞士主要有四种官方语言-德语、法语、意大利语和罗曼什语,对于每种特定语言,单独的语言模型很难进行组合以执行多语言任务。此外,第四种国家语言罗曼什语也没有单独的神经语言模型。由于在自然语言处理领域实现多语言任务有一定难度,瑞士国家语言在SwissBERT之前没有统一的模型。SwissBERT通过简单地结合这些语言的文章,并通过隐式利用新闻中的共同实体和事件来创建多语言表示,克服了这一挑战。 SwissBERT模型是由预先训练在81种语言中的跨语言模块(X-MOD)转换器重新建模而来。研究人员通过训练自定义语言适配器,将预先训练的X-MOD转换器适应到他们的语料库中。他们为SwissBERT创建了一个瑞士特定的子词汇表,得到的模型包含了1.53亿个参数。 研究团队在一些任务上评估了SwissBERT的性能,包括对当代新闻(SwissNER)中的命名实体进行识别和检测用户生成的对瑞士政治的立场。SwissBERT的表现优于常见的基准模型,并在检测立场方面优于XLM-R。在对罗曼什语的能力进行评估时,发现SwissBERT在零-shot跨语言转移和德语-罗曼什语单词和句子的对齐方面明显优于未经该语言训练的模型。然而,在识别历史上经过OCR处理的新闻中的命名实体方面,该模型表现不佳。 研究人员发布了带有用于下游任务微调的SwissBERT示例。这个模型在未来的研究甚至非商业目的上似乎很有前景。通过进一步的适应,下游任务可以从该模型的多语言能力中受益。
Leave a Comment