Press "Enter" to skip to content

16 search results for "Bloomberg"

伦理与社会通讯第5期:“拥抱脸”走进华盛顿及其他2023年夏日的思考

关于AI中“伦理”最重要的一点是它与价值观有关。伦理不告诉你什么是对的或错的,它提供了一个价值观的词汇表,透明度、安全性、公正性,并提供了优先考虑它们的框架。今年夏天,我们能够将我们对AI中的价值观的理解带给欧盟、英国和美国的立法者,帮助塑造AI监管的未来。这就是伦理的闪光之处:在还没有法律制定的情况下帮助开辟前进道路。 符合Hugging Face对开放和问责的核心价值观,我们在这里分享了我们所说和所做的一些内容。其中包括我们CEO克莱姆在美国国会作证和美国参议院AI洞察论坛上的发言;我们对欧盟AI法案的建议;我们对NTIA关于AI问责的意见;以及我们首席伦理科学家梅格在民主党代表团的意见。在许多这些讨论中,经常出现的问题是为什么AI中的开放性是有益的,我们在这里分享了我们对这个问题的回答的一些内容here。 顺应我们的核心价值观民主化,我们也花了很多时间公开演讲,并有幸与记者进行交流,以帮助解释目前AI领域的情况。这包括: 莎夏在AI的能源使用和碳排放方面的评论(The Atlantic,The Guardian,两次,New Scientist,The Weather Network,华尔街日报,两次),以及参与了华尔街日报关于这一主题的发表的一部分;对AI末日风险的看法(Bloomberg,The Times,Futurism,Sky News);关于生成AI中的偏见的详细信息(Bloomberg,NBC,Vox);解释边缘化工人如何为AI创建数据(The Globe and Mail,The Atlantic);强调AI中的性别歧视(VICE);以及在MIT Technology Review上就AI文本检测、开放模型发布和AI透明度发表见解。 内森就语言模型和开放发佈的最新进展发表评论(WIRED,VentureBeat,Business Insider,Fortune)。 梅格就AI和虚假信息发表评论(CNN,半岛电视台,纽约时报);关于在AI中公平处理艺术家作品的需要(华盛顿邮报);生成AI的进展及其与更大利益的关系(华盛顿邮报,VentureBeat);通过报告解释记者如何更好地塑造AI的发展(CJR);以及解释AI中的基本统计概念困惑度(Ars Technica);并强调性别歧视的模式(Fast Company)。 艾琳就理解AI的监管环境发表评论(MIT Technology…

Leave a Comment

释放领域特定LLMs的潜力

介绍 大型语言模型(LLMs)已经改变了整个世界。特别是在人工智能社区中,这是一个巨大的飞跃。几年前,建立一个能够理解和回复任何文本的系统是不可想象的。然而,这些能力是以牺牲深度为代价的。通才型的LLMs是万能的,但却无所专精。对于需要深度和精确性的领域来说,如幻觉等缺陷可能是代价高昂的。这是否意味着医学、金融、工程、法律等领域永远无法享受到LLMs的好处?专家们已经开始构建专门针对这些领域的专用领域LLMs,利用了与自监督学习和RLHF相同的基本技术。本文探讨了专用领域LLMs及其产生更好结果的能力。 学习目标 在我们深入技术细节之前,让我们概述本文的学习目标: 了解大型语言模型(LLMs)的概念,了解它们的优势和好处。 了解流行通才型LLMs的局限性。 了解什么是专用领域LLMs以及它们如何帮助解决通才型LLMs的局限性。 探索构建专用领域语言模型的不同技术,并通过示例展示它们在法律、代码补全、金融和生物医学等领域的性能优势。 本文作为数据科学博文的一部分发表。 什么是LLMs? 大型语言模型(LLM)是一个包含数亿到数千亿个参数的人工智能系统,旨在理解和生成文本。训练过程涉及将模型暴露于来自互联网文本(包括书籍、文章、网站和其他书面材料)的许多句子,并教导它预测句子中的掩码词或后续词。通过这样做,模型学习了其训练文本中的统计模式和语言关系。它们可以用于各种任务,包括语言翻译、文本摘要、问答、内容生成等。自从Transformer被发明以来,已经构建和发布了无数个LLMs。最近流行的LLMs的一些例子包括Chat GPT、GPT-4、LLAMA和Stanford Alpaca,它们取得了突破性的性能。 LLMs的优势 LLMs已经成为语言理解、实体识别、语言生成等问题的首选解决方案。在GLUE、Super GLUE、SQuAD和BIG基准测试等标准评估数据集上取得的出色表现反映了这一成就。BERT、T5、GPT-3、PALM和GPT-4发布时都在这些标准测试中取得了最先进的结果。GPT-4在BAR和SAT等方面的得分超过了普通人。下图(图1)显示了大型语言模型出现以来在GLUE基准测试中的显著改进。 大型语言模型的另一个主要优势是其改进的多语言能力。例如,训练了104种语言的多语言BERT模型在不同语言上展现出了很好的零-shot和few-shot结果。此外,利用LLMs的成本变得相对较低。出现了一些低成本的方法,如提示设计和提示调整,可以确保工程师可以以较低的成本轻松利用现有的LLMs。因此,大型语言模型已成为基于语言的任务的默认选择,包括语言理解、实体识别、翻译等。 通才型LLMs的局限性 大多数流行的LLMs,如上述提到的那些,是训练于互联网文本、书籍、维基百科等各种文本资源的通才型LLMs。这些LLMs有多种应用,包括搜索助手(使用GPT-4的Bing Chat,使用PALM的BARD)、内容生成任务(如编写营销邮件、营销内容和销售演讲稿)以及问答任务(如个人聊天机器人、客户服务聊天机器人等)。 尽管通才型人工智能模型在理解和生成各种主题的文本方面表现出色,但它们有时需要更深入、更细致的专业领域知识。例如,“债券”是金融行业的一种借贷形式。然而,通用语言模型可能无法理解这个独特的短语,并将其与化学中的债券或两个人之间的债券混淆。相反,专门针对特定使用案例的LLMs对与特定行业相关的术语有专门的理解,能够正确解释行业特定的概念。 此外,通用语言模型(LLMs)存在多个隐私挑战。例如,在医学LLMs的情况下,患者数据非常重要,将此类机密数据暴露给通用LLMs可能会违反隐私协议,因为RLHF等技术的存在。另一方面,专业领域的LLMs采用封闭框架,以避免数据泄露。 同样,通用LLMs容易出现严重的幻觉问题,因为它们往往是为创意写作而量身定制的。而专业领域的LLMs在领域特定的基准测试中表现更加精确,并且性能显著更好,如下面的应用案例所示。 专业领域的LLMs 在特定领域的数据上训练的LLMs被称为专业领域的LLMs。领域这个术语可以涵盖从特定领域(如医学、金融等)到特定产品(如YouTube评论)的任何内容。专业领域的LLMs旨在在领域特定的基准测试上表现最佳;通用基准测试不再关键。构建专用语言模型的方法有多种。最常见的方法是将现有的LLMs进行微调以适应特定领域的数据。然而,对于追求在利基领域中达到最先进性能的用例来说,预训练才是正确的选择。…

Leave a Comment

北京大学的研究人员推出ChatLaw:一种集成外部知识库的开源法律大型语言模型

得益于人工智能的持续增长和发展,大规模语言模型现在已经广泛可用。像ChatGPT、GPT4、LLaMA、Falcon、Vicuna和ChatGLM这样的模型在各种传统任务中表现出色,为法律职业开辟了无限的机遇。然而,收集可靠、实时、高质量的数据对于创建可观的语言模型来说至关重要。因此,创建既有效又高效的开源法律语言模型变得至关重要。 人工智能中的大规模模型发展影响了包括医疗、教育和金融在内的几个行业:BloombergGPT、FinGPT、Huatuo和ChatMed这些模型在处理具有挑战性的问题和产生深入洞察的数据方面已经证明了其有用性和有效性。另一方面,法律领域需要进行深入研究,并创建一个独特的法律模型,因为法律具有内在的相关性和准确性的需求。法律在形成社区、管理人际关系和确保公正方面至关重要。法律从业者依赖准确和实时的信息来做出明智的判断,理解法律并提供法律建议。 法律术语的细微差别、复杂的解释和法律的动态特性提供了需要专门解决的特殊问题。即使是像GPT4这样的最先进模型,也经常出现幻觉现象,以及在处理法律困难时产生令人难以置信的结果。人们经常认为,通过增加相关领域的专业知识来改进模型会产生积极的结果。然而,早期的法律LLM(LawGPT)仍然存在很多幻觉和不准确的结果,所以情况并非如此。起初,他们明白了对一个中文法律LLM的需求。然而,在那个时候,没有商业可用的中文模型比13亿个参数更大。通过结合来自MOSS等来源的训练数据,并增加中文词汇表,改善了OpenLLAMA的基础,这是一个经济可行的模型。这使得北京大学的研究人员能够建立一个基本的中文语言模型,然后添加法律特定数据来训练他们的法律模型ChatLaw。 以下是本论文的主要贡献: 1. 一种成功减少幻觉的方法:他们提出了一种通过改进模型的训练过程并在推理过程中包括四个模块“咨询”、“参考”、“自我建议”和“回应”来减少幻觉的方法。通过参考模块将垂直模型和知识库整合在一起,减少了幻觉的频率,并将领域特定知识融入模型,并使用来自知识库的可靠数据。 2. 训练了一种从用户日常语言中提取法律特征词的模型。它基于LLM。借助这个模型,可以快速有效地识别和分析用户输入中的法律情况,识别具有法律含义的术语。 3. 使用BERT训练了一种衡量用户普通语言与930,000个相关法庭案例文本数据集之间相似度的模型。这使得可以构建一个向量数据库,快速检索具有相似法律背景的文献,进一步进行研究和引用。 4. 开发了一个用于评估中国人法律专业知识的数据集。他们还制定了一个ELO竞技场评分系统,以确定各种模型在法律多项选择测试中的表现如何。 他们还指出,单一的通用法律LLM可能只在某些工作中表现良好。因此,他们针对不同情况开发了多个模型,包括多项选择问题、关键词提取和问答。使用HuggingGPT技术,他们使用一个大型LLM作为控制器来管理这些模型的选择和部署。根据每个用户的请求,该控制器模型动态选择要激活的特定模型,确保任务使用最佳模型。

Leave a Comment

北京大学的研究人员推出了ChatLaw:一个集成外部知识库的开源法律大型语言模型

由于人工智能的持续增长和发展,大规模语言模型现在已经广泛可用。像ChatGPT、GPT4、LLaMA、Falcon、Vicuna和ChatGLM这样的模型在各种传统任务中表现出色,为法律行业打开了一个机遇的世界。然而,收集可靠、当前、高质量的数据对于创建规模可观的语言模型至关重要。因此,创建既有效又高效的开源法律语言模型变得至关重要。 人工智能在大规模模型开发方面对多个行业产生了影响,包括医疗保健、教育和金融:BloombergGPT、FinGPT、Huatuo和ChatMed;这些模型在处理复杂问题和生成深入数据方面证明了其有用性和有效性。另一方面,法律领域由于其固有的相关性和准确性需求,需要进行深入调查和创建独特的法律模型。法律对于形成社区、调节人际关系和确保正义至关重要。法律从业人员依赖准确和当前的信息来做出明智的判断、理解法律并提供法律咨询。 法律术语的微妙之处、复杂的解释以及法律的动态性提供了特殊问题,需要专门的解决方案。即使是像GPT4这样最先进的模型,也经常出现幻觉现象和与法律相关的令人难以置信的结果。人们经常认为通过相关领域的专业知识来改进模型会产生积极的结果。然而,早期的法律LLM(LawGPT)仍然存在许多幻觉和不准确的结果,所以情况并非如此。起初,他们了解到对中文法律LLM的需求。然而,当时没有商业可获取的大于130亿参数的中文模型。通过结合MOSS等来源的训练数据和扩充中文词汇表,改善了OpenLLAMA的基础,这是一个经济可行的模型。这使得北京大学的研究人员能够构建一个基础的中文语言模型,然后添加法律特定数据来训练他们的法律模型ChatLaw。 以下是该论文的主要贡献: 1. 减少幻觉的成功方法:他们提出了一种通过改进模型的训练过程并在推理过程中包含“咨询”、“参考”、“自我建议”和“回应”四个模块的方法来减少幻觉。通过参考模块将垂直模型和知识库整合在一起,幻觉变得更少,这个模块将领域特定知识融入模型,并使用知识库中的可靠数据。 2. 训练了一个能从用户的日常语言中提取法律特征词的模型。这个模型基于LLM,并且可以快速有效地识别和分析用户输入中的法律情况。 3. 使用BERT训练了一个模型,用于衡量用户普通语言与包含93万个相关法庭案例文本的数据集之间的相似度。这使得可以建立一个向量数据库,快速检索具有类似法律背景的文稿,以进行额外的研究和引用。 4. 开发了一个中文法律考试评估数据集:他们创建了一个评估中国人法律专业知识的数据集。他们还制定了一个ELO竞技场评分系统,以确定不同模型在法律多项选择测试中的表现如何。 他们还指出,单一的通用法律LLM可能只在某些任务中表现良好。因此,他们针对不同情况开发了多个模型,包括多项选择题、关键词提取和问答。他们使用HuggingGPT技术,将一个大型LLM作为控制器来管理这些模型的选择和部署。根据每个用户的请求,该控制器模型动态选择特定的模型进行激活,以确保任务使用最佳模型。

Leave a Comment

Can't find what you're looking for? Try refining your search: