Press "Enter" to skip to content

Tag: Natural language processing

语言复兴的生成AI

简介 语言不仅仅是沟通的形式,更是文化、身份和遗产的储藏室。然而,许多语言面临灭绝的风险。语言复兴旨在扭转这个趋势,生成式人工智能已经成为这一努力中的强大工具。 语言复兴对于保护濒危语言和文化遗产至关重要。生成式人工智能凭借其自然语言处理能力,在这一任务中具有重要作用。本指南将探讨以下内容: 如何利用生成式人工智能进行语言复兴 实用的Python实现 了解语音合成、文本生成和度量 本文作为“数据科学博文马拉松”的一部分发表。 理解语言复兴 语言复兴涉及到振兴濒危或休眠语言的努力。它包括语言文献记录、教学和语言资源的创建。 理解AI语言复兴意味着认识到人工智能在保护和复兴濒危语言方面的变革潜力。人工智能系统,特别是GPT-3等自然语言处理(NLP)模型,可以理解、生成和翻译语言,使其成为记录和教学濒危语言的宝贵工具。这些由人工智能驱动的倡议可以创建大规模的语言语料库、自动翻译服务,甚至是互动式语言学习应用程序,使语言复兴更加可行。 此外,人工智能还可以为创作具有文化敏感性的内容做出贡献,促进语言和文化遗产之间的更深层次的联系。通过理解人工智能在语言复兴中的微妙挑战和机遇,利益相关者可以利用这项技术弥合语言差距,吸引年轻一代,确保这些语言蓬勃发展。 最终,AI语言复兴是一项多学科的努力,将语言学家、社区和技术人员汇聚在一起,以保护语言多样性,保存濒危语言所编码的丰富人类文化图谱。 生成式人工智能和自然语言处理 基于深度学习的生成式人工智能可以理解和生成类似人类的文本。自然语言处理(NLP)致力于使计算机能够理解、解释和生成人类语言。 构建语言语料库 在应用生成式人工智能之前,您需要一个大规模的语言数据集。本节将介绍如何收集、组织和预处理用于人工智能应用的语言数据。 使用Python和GPT-3生成文本 OpenAI的GPT-3是一个可以生成类似人类文本的强大语言模型。我们将指导您设置OpenAI API并创建Python实现,用于在目标语言中生成文本。 # 使用GPT-3生成文本的Python代码import openai# 设置OpenAI API密钥api_key =…

Leave a Comment

探索OpenAI的ChatGPT代码解释器:深入了解其功能

OpenAI 在自然语言处理(NLP)方面的进展标志着大型语言模型(LLM)的崛起,这些模型支持着数百万用户使用的产品,包括编码助手 GitHub Copilot 和必应搜索引擎这些模型通过其独特的记忆和融合信息的能力,在代码和文本等任务上树立了无与伦比的基准

Leave a Comment

见面Brain2Music:一种使用功能磁共振成像(fMRI)捕获的脑活动重建音乐的人工智能方法

谁不喜欢音乐呢?你是否曾经记得一首歌的节奏,但却想不起歌词,也无法找出歌曲的名字?谷歌和大阪大学的研究人员一起找到了一种方法,使用功能性磁共振成像(fMRI)从脑活动中重构音乐。根据音乐的流派、乐器和情绪,生成音乐。 谷歌和大阪大学的研究人员使用深度神经网络生成音乐,通过预测高级、语义结构化的音乐来生成音乐特征,如fMRI扫描。根据人类听觉皮层的活动,可以预测音乐的不同组成部分。研究人员使用了JukeBox进行实验,该系统生成具有高时间连贯性的音乐,其中包含可预测的特征。使用低比特率的压缩神经音频编解码器生成高质量音频。 从fMRI生成音乐需要中间阶段,其中包括通过选择音乐嵌入来表示音乐。他们使用的架构包括音乐嵌入,用于随后的音乐生成的瓶颈。如果预测的音乐嵌入接近受试者听到的原始刺激的音乐嵌入,则使用MusicLM(音乐生成模型)生成类似原始刺激的音乐。 音乐生成模型MusicLM由名为MuLan和w2v-BERT-avg的音频派生嵌入组成。在侧前额皮质中,MuLan往往比w2v-BERT-avg具有更高的预测性能,因为它捕捉到了人脑中的高级音乐信息处理。与音频派生嵌入相比,音乐的抽象信息在听觉皮层中以不同的方式表示。 MuLan嵌入通过生成模型转换为音乐。模型中恢复了嵌入中不包含的信息。在检索技术中,重建的音乐也是音乐性的,因为它直接从音乐数据集中提取。这确保了更高水平的重建质量。研究人员使用fMRI响应数据的线性回归。该方法也存在局限性,包括在使用fMRI数据的线性回归中的确切信息量的不确定性。 研究人员表示,他们未来的工作包括从个体的想象中重构音乐。当用户想象一段音乐片段时,解码分析会考察想象能否被准确重构。这将符合实际的读心术。不同音乐专业背景的多样化受试者存在,需要通过比较进行多个重构属性。比较受试者之间的重构质量,其中包括专业音乐家,可以为他们的观点和理解差异提供有用的见解。 他们的研究工作只是将您纯粹的、富有想象力的思想变为现实的第一步。这也将导致仅凭空想象生成全息图像的可能性。在这一领域的进步还将从生物学角度提供定量解释。

Leave a Comment

每个数据科学家都必须阅读的前7本自然语言处理书籍

介绍 自然语言处理(NLP)的最新进展对于数据科学家来说至关重要。NLP相关书籍是提供深入知识、实用指导和前沿技术的宝贵资源。本文将介绍8本最佳的NLP书籍,这些书对于数据科学家来说是必读的。这些作品涵盖了从NLP的基本原理到尖端的深度学习技术。无论你是初学者还是经验丰富的从业者,这些书籍都将提高你在NLP方面的理解和能力。 什么是NLP? 自然语言处理是人工智能领域的一个研究方向,专注于计算机与人类语言之间的交互。它涉及开发算法和技术,使计算机能够理解、解释和生成人类语言,以便实现诸如语言翻译、情感分析、聊天机器人和信息检索等任务。 请查看我们关于自然语言处理入门的免费课程。 1. 语音和语言处理 作者:Daniel Jurafsky和James H. Martin 《语音和语言处理》被认为是关于NLP最全面的手册,包括语音和语言处理方法。这本书介绍了基本概念、前沿的研究主题和算法。它提供了针对各种能力水平读者的练习和实际例子,对建立NLP的坚实基础非常有帮助。 书籍链接:语音和语言处理 2. 使用Python进行自然语言处理 作者:Steven Bird, Ewan Klein和Edward Loper 如果你想通过实践来学习新知识,那么《使用Python进行自然语言处理》是一个不错的选择。这本书演示了如何使用Python和NLTK(自然语言工具包)等知名模块开发NLP算法。重要的NLP过程包括情感分析、命名实体识别、词性标注、分词和命名实体识别。这本NLP书籍通过提供有用的例子和代码片段,让你能够在实际环境中运用NLP思想。 书籍链接:使用Python进行自然语言处理 3. 统计自然语言处理基础 作者:Christopher…

Leave a Comment

符号调整改善语言模型中的上下文学习

由谷歌研究的学生研究员Jerry Wei和首席科学家Denny Zhou发布 人类智能的一个关键特征是人类可以通过只使用少数示例来学会执行新任务的推理。扩展语言模型解锁了机器学习中一系列新的应用和范例,包括通过上下文学习执行具有挑战性的推理任务的能力。然而,语言模型仍然对提示的方式敏感,表明它们并不是以稳健的方式进行推理。例如,语言模型通常需要大量的提示工程或将任务构建为指令的方式,并且它们表现出意外的行为,如在显示错误标签时对任务的表现不受影响。 在“符号调优改进语言模型中的上下文学习”中,我们提出了一种简单的微调过程,称为符号调优,它可以通过强调输入-标签映射来改进上下文学习。我们在Flan-PaLM模型中尝试了符号调优,并观察到在各种设置下都有益处。 符号调优提高了对未见过的上下文学习任务的表现,并且对于未明确指定的提示(例如没有指令或没有自然语言标签的提示)更加稳健。 符号调优的模型在算法推理任务上表现更强。 最后,符号调优的模型在使用上下文信息来覆盖先前知识时,对于翻转标签呈现的任务有很大的改进。 符号调优的概述,其中模型在任务中使用任意符号代替自然语言标签进行微调。符号调优依赖于这样的直觉,即当没有指令和相关标签可用时,模型必须使用上下文示例来学习任务。 动机 指令调优是一种常见的微调方法,已经证明可以提高性能并使模型能够更好地遵循上下文示例。然而,一个缺点是模型并不强制学会使用这些示例,因为在评估示例中通过指令和自然语言标签重复定义了任务。例如,在上图左侧,虽然示例可以帮助模型理解任务(情感分析),但它们并不是严格必要的,因为模型可以忽略示例,只需阅读指示表明任务是什么。 在符号调优中,模型在示例上进行微调,其中移除了指令,并用语义不相关的标签(例如“Foo”,“Bar”等)替换了自然语言标签。在这种设置下,不查看上下文示例的情况下任务是不清楚的。例如,在上图右侧,需要多个上下文示例才能弄清楚任务。因为符号调优教会模型在上下文示例之间和它们的标签之间进行推理,所以符号调优的模型在需要在上下文示例和标签之间进行推理的任务上应该有更好的表现。 用于符号调优的数据集和任务类型。 符号调整过程 我们选择了22个公开可用的自然语言处理(NLP)数据集,用于我们的符号调整过程。这些任务过去被广泛使用,我们只选择了分类类型的任务,因为我们的方法需要离散标签。然后,我们将标签重新映射到从三个类别中选择的约30K个任意标签集中的随机标签:整数、字符组合和单词。 在我们的实验中,我们对Flan-PaLM进行符号调整,这是PaLM的指令调整变体。我们使用了三种不同大小的Flan-PaLM模型:Flan-PaLM-8B、Flan-PaLM-62B和Flan-PaLM-540B。我们还测试了Flan-cont-PaLM-62B(Flan-PaLM-62B使用1.3T个标记而不是780B个标记),我们将其缩写为62B-c。 我们使用了来自三个类别(整数、字符组合和单词)的约300K个任意符号。其中约30K个符号用于调整,其余的符号用于评估。 实验设置 我们希望评估模型在未见过的任务上的表现能力,因此不能在符号调整(22个数据集)或指令调整(1.8K个任务)中评估。因此,我们选择了11个在微调过程中未使用的NLP数据集。 上下文学习 在符号调整过程中,模型必须学会通过上下文示例进行推理,以成功执行任务,因为提示被修改以确保任务不能简单地从相关标签或指令中学习。符号调整的模型应在任务不明确且需要在上下文示例和其标签之间进行推理的情况下表现更好。为了探索这些情况,我们定义了四种上下文学习设置,这些设置根据输入和标签之间的推理量(基于指令/相关标签的可用性)来学习任务。 根据指令和相关自然语言标签的可用性,模型可能需要对上下文示例进行不同程度的推理。当这些特征不可用时,模型必须通过给定的上下文示例进行推理以成功执行任务。 符号调整改善了62B及更大模型在所有设置下的性能,在具有相关自然语言标签的设置中略有改进(+0.8%至+4.2%),在没有相关自然语言标签的设置中有显著改进(+5.5%至+15.5%)。令人惊讶的是,当相关标签不可用时,符号调整的Flan-PaLM-8B的性能超过了FlanPaLM-62B,而符号调整的Flan-PaLM-62B的性能超过了Flan-PaLM-540B。这种性能差异表明,符号调整可以使较小的模型在这些任务上表现得和大型模型一样好(有效地节省了约10倍推理计算量)。 大型符号调整模型在上下文学习方面比基线模型表现更好,特别是在没有相关标签的情况下。性能以十一个任务的平均模型准确率(%)显示。 算法推理…

Leave a Comment

使用自然语言处理(NLP)和引导法探索性别平等的研究

介绍 NLP(自然语言处理)可以帮助我们理解大量的文本数据。不需要手动阅读大量文档,我们可以利用这些技术加快理解速度,快速获得主要信息。在这篇博文中,我们将深入探讨如何使用Python中的pandas数据框和NLP工具,通过使用Elicit,对在阿富汗进行性别平等研究时人们的写作内容有一个了解。这些见解可能有助于我们理解在过去几十年中,在一个被认为是对女性或女孩来说最困难的地方之一的国家,为促进性别平等所做的工作和未能取得的成果(世界经济论坛,2023年)。 学习目标 掌握处理CSV文件中的文本分析。 了解如何在Python中进行自然语言处理。 开发有效数据可视化的沟通技巧。 深入了解阿富汗性别平等研究的演变。 本文是数据科学博文马拉松的一部分。 使用Elicit进行文献综述 为了生成底层数据,我使用了Elicit,一款用于文献综述的AI工具(Elicit)。我让这个工具生成与问题“为什么阿富汗的性别平等失败了?”相关的论文列表。然后,我以CSV格式下载了结果列表(我考虑了150多篇论文的随机数量)。这些数据是什么样的?让我们来看一看! 在Python中分析来自Elicit的CSV数据 我们首先将CSV文件读入pandas数据框中: import pandas as pd #识别路径和CSV文件 file_path = ‘./elicit.csv’ #读入CSV文件 df = pd.read_csv(file_path) #CSV的形状…

Leave a Comment

使用机器学习解决代码审查评论

由亚历山大·弗瑞姆根 (Alexander Frömmgen),高级软件工程师莱拉·卡拉提扬 (Lera Kharatyan) 发布 代码更改审查是规模化软件开发过程中至关重要的一部分,占用了代码作者和代码审查人员相当数量的时间。作为这个过程的一部分,审查人员检查建议的代码,并通过自然语言编写的评论要求作者进行代码更改。在 Google,我们每年看到数百万个审查人员的评论,作者需要平均 ~60 分钟的积极引导时间,在发送更改进行审查和最终提交更改之间。在我们的测量中,代码作者必须做出的为了应对审查人员的评论所需的积极工作时间几乎是随着评论数量线性增长的。然而,通过机器学习 (ML),我们有机会自动化和简化代码审查过程,例如,根据评论的文本提出代码更改。 今天,我们描述了我们在 Google 的日常开发工作流程中应用最新的大型序列模型 (使用 DIDACT 方法论) 的应用,自动解决代码审查评论。截至今天,Google 的代码更改作者通过应用 ML 建议的编辑,处理了大量的审查人员评论。我们预计,在 Google 的规模下,这将每年减少数十万小时的代码审查时间。非请求的非常积极的反馈表明,ML 建议的代码编辑的影响增加了 Google…

Leave a Comment