Press "Enter" to skip to content

四海吧 Posts

北京大学的研究人员推出ChatLaw:一种集成外部知识库的开源法律大型语言模型

得益于人工智能的持续增长和发展,大规模语言模型现在已经广泛可用。像ChatGPT、GPT4、LLaMA、Falcon、Vicuna和ChatGLM这样的模型在各种传统任务中表现出色,为法律职业开辟了无限的机遇。然而,收集可靠、实时、高质量的数据对于创建可观的语言模型来说至关重要。因此,创建既有效又高效的开源法律语言模型变得至关重要。 人工智能中的大规模模型发展影响了包括医疗、教育和金融在内的几个行业:BloombergGPT、FinGPT、Huatuo和ChatMed这些模型在处理具有挑战性的问题和产生深入洞察的数据方面已经证明了其有用性和有效性。另一方面,法律领域需要进行深入研究,并创建一个独特的法律模型,因为法律具有内在的相关性和准确性的需求。法律在形成社区、管理人际关系和确保公正方面至关重要。法律从业者依赖准确和实时的信息来做出明智的判断,理解法律并提供法律建议。 法律术语的细微差别、复杂的解释和法律的动态特性提供了需要专门解决的特殊问题。即使是像GPT4这样的最先进模型,也经常出现幻觉现象,以及在处理法律困难时产生令人难以置信的结果。人们经常认为,通过增加相关领域的专业知识来改进模型会产生积极的结果。然而,早期的法律LLM(LawGPT)仍然存在很多幻觉和不准确的结果,所以情况并非如此。起初,他们明白了对一个中文法律LLM的需求。然而,在那个时候,没有商业可用的中文模型比13亿个参数更大。通过结合来自MOSS等来源的训练数据,并增加中文词汇表,改善了OpenLLAMA的基础,这是一个经济可行的模型。这使得北京大学的研究人员能够建立一个基本的中文语言模型,然后添加法律特定数据来训练他们的法律模型ChatLaw。 以下是本论文的主要贡献: 1. 一种成功减少幻觉的方法:他们提出了一种通过改进模型的训练过程并在推理过程中包括四个模块“咨询”、“参考”、“自我建议”和“回应”来减少幻觉的方法。通过参考模块将垂直模型和知识库整合在一起,减少了幻觉的频率,并将领域特定知识融入模型,并使用来自知识库的可靠数据。 2. 训练了一种从用户日常语言中提取法律特征词的模型。它基于LLM。借助这个模型,可以快速有效地识别和分析用户输入中的法律情况,识别具有法律含义的术语。 3. 使用BERT训练了一种衡量用户普通语言与930,000个相关法庭案例文本数据集之间相似度的模型。这使得可以构建一个向量数据库,快速检索具有相似法律背景的文献,进一步进行研究和引用。 4. 开发了一个用于评估中国人法律专业知识的数据集。他们还制定了一个ELO竞技场评分系统,以确定各种模型在法律多项选择测试中的表现如何。 他们还指出,单一的通用法律LLM可能只在某些工作中表现良好。因此,他们针对不同情况开发了多个模型,包括多项选择问题、关键词提取和问答。使用HuggingGPT技术,他们使用一个大型LLM作为控制器来管理这些模型的选择和部署。根据每个用户的请求,该控制器模型动态选择要激活的特定模型,确保任务使用最佳模型。

Leave a Comment

释放英国的人工智能驱动机遇 释放英国的人工智能驱动机遇

人工智能是人类目前正在研究的最深奥的技术它是解决重大社会问题和改善我们日常生活的关键部分,从应对气候变化到研发新药这项技术的一些早期种子就在英国播下,从英国数学家艾伦·图灵在50年代的工作到谷歌DeepMind今天在蛋白质折叠方面的工作我们的初创企业生态系统、学术机构和数以百万计的数字优先企业充分展示了英国在释放人工智能的经济潜力方面具备的良好条件根据谷歌2023年的经济影响报告,我们希望了解人工智能对英国经济的潜在影响这份由Public First编撰的报告揭示了谷歌的工具(如搜索、地图、Workspace、云、Play和Android)将在今年为英国创造约1180亿英镑的经济价值它还强调,在适当的条件下,AI驱动的创新到2030年时可能为英国经济创造超过4000亿英镑的经济价值以下是报告的一些关键发现概述:提高生产力新的人工智能创新将为英国带来显著的生产力提升总体而言,Public First估计,生成式人工智能可以为英国的普通劳动者每年节省超过100小时的时间,这将是自谷歌搜索问世以来对劳动生产率的最大改进更广泛地说,AI可以为全科医生和教师每年节省超过70万小时的行政工作沉重的工作负荷和过长的工作时间是导致人们离开医疗和教育行业的最重要因素,加剧了人员短缺问题使用人工智能可以帮助缓解诸如卫生和教育等领域不断增加的成本压力,并释放出80多亿英镑的公共部门资源供其他用途使职业更具可获得性人工智能还有可能加速新的辅助技术的发展,这些技术可以帮助超过100万残疾人在工作中发挥作用,每年为经济增加超过300亿英镑的价值根据英国国家统计局的统计数据,英国工作年龄人口中大约五分之一目前有残疾,残疾人就业率约为普通人的三分之二AI生成的字幕等技术可以帮助残疾人重获独立性,与周围世界建立联系,并给他们回归职场的选择,为英国创造经济增长机会开启技能获取之门人工智能可以帮助每个人掌握数字技能,以充分利用数字经济使用AI导师和编码助手可以让每个人更容易提升自己的数字技能,每年为英国的生产力增加超过48亿英镑如今,约35%的企业表示他们很难找到拥有良好数字技能的员工,而39%的失业人员表示他们缺乏数字技能是他们找工作的障碍这就是为什么自2015年以来,谷歌已经访问了英国500多个地点,并已经培训了超过100万人的数字技能,帮助他们发展业务和职业这只是人工智能在推动英国生产力和为该国提供关键经济推动力方面的三个例子公共、私营和第三部门共同努力释放这一潜力至关重要推动英国创新的社会创新基金谷歌.org的人工智能社会创新基金还将向在英国推动使用人工智能帮助社区的项目的社会企业家分配价值100万英镑的资金选定的社会企业家将获得现金拨款、指导以及谷歌初创企业加速器团队的加速支持,以确保他们的创新想法有机会推动有意义的变革社会企业家可以在Social Tides网站上注册他们的兴趣!我们对英国的持续承诺这个国家有着继续保持技术领导地位的巨大机会英国是一个创新的中心,谷歌自豪地将其视为家园已经超过20年政府已经提出了英国成为全球人工智能、科学和技术领导者,并确保每个人都具备数字技能,将技术主导的增长和机会带给该国各地的雄心壮志谷歌正在与这一愿景合作——通过可持续、负责任和有影响力的技术,利用人工智能帮助英国每个人实现他们的雄心壮志,无论是大还是小阅读谷歌完整的英国经济影响报告请点击此处

Leave a Comment

北京大学的研究人员推出了ChatLaw:一个集成外部知识库的开源法律大型语言模型

由于人工智能的持续增长和发展,大规模语言模型现在已经广泛可用。像ChatGPT、GPT4、LLaMA、Falcon、Vicuna和ChatGLM这样的模型在各种传统任务中表现出色,为法律行业打开了一个机遇的世界。然而,收集可靠、当前、高质量的数据对于创建规模可观的语言模型至关重要。因此,创建既有效又高效的开源法律语言模型变得至关重要。 人工智能在大规模模型开发方面对多个行业产生了影响,包括医疗保健、教育和金融:BloombergGPT、FinGPT、Huatuo和ChatMed;这些模型在处理复杂问题和生成深入数据方面证明了其有用性和有效性。另一方面,法律领域由于其固有的相关性和准确性需求,需要进行深入调查和创建独特的法律模型。法律对于形成社区、调节人际关系和确保正义至关重要。法律从业人员依赖准确和当前的信息来做出明智的判断、理解法律并提供法律咨询。 法律术语的微妙之处、复杂的解释以及法律的动态性提供了特殊问题,需要专门的解决方案。即使是像GPT4这样最先进的模型,也经常出现幻觉现象和与法律相关的令人难以置信的结果。人们经常认为通过相关领域的专业知识来改进模型会产生积极的结果。然而,早期的法律LLM(LawGPT)仍然存在许多幻觉和不准确的结果,所以情况并非如此。起初,他们了解到对中文法律LLM的需求。然而,当时没有商业可获取的大于130亿参数的中文模型。通过结合MOSS等来源的训练数据和扩充中文词汇表,改善了OpenLLAMA的基础,这是一个经济可行的模型。这使得北京大学的研究人员能够构建一个基础的中文语言模型,然后添加法律特定数据来训练他们的法律模型ChatLaw。 以下是该论文的主要贡献: 1. 减少幻觉的成功方法:他们提出了一种通过改进模型的训练过程并在推理过程中包含“咨询”、“参考”、“自我建议”和“回应”四个模块的方法来减少幻觉。通过参考模块将垂直模型和知识库整合在一起,幻觉变得更少,这个模块将领域特定知识融入模型,并使用知识库中的可靠数据。 2. 训练了一个能从用户的日常语言中提取法律特征词的模型。这个模型基于LLM,并且可以快速有效地识别和分析用户输入中的法律情况。 3. 使用BERT训练了一个模型,用于衡量用户普通语言与包含93万个相关法庭案例文本的数据集之间的相似度。这使得可以建立一个向量数据库,快速检索具有类似法律背景的文稿,以进行额外的研究和引用。 4. 开发了一个中文法律考试评估数据集:他们创建了一个评估中国人法律专业知识的数据集。他们还制定了一个ELO竞技场评分系统,以确定不同模型在法律多项选择测试中的表现如何。 他们还指出,单一的通用法律LLM可能只在某些任务中表现良好。因此,他们针对不同情况开发了多个模型,包括多项选择题、关键词提取和问答。他们使用HuggingGPT技术,将一个大型LLM作为控制器来管理这些模型的选择和部署。根据每个用户的请求,该控制器模型动态选择特定的模型进行激活,以确保任务使用最佳模型。

Leave a Comment

斯坦福研究人员推出了HyenaDNA:一种长程基因组基础模型,其上下文长度可达到100万个令牌,并且具有单核苷酸分辨率

在过去几年中,人工智能(AI)领域取得了快速的进展,有可能彻底改变行业,并推动了可能性的边界。研究人员关注的一个领域是开发更强大和高效的自然语言任务模型。在这个背景下,研究人员不断努力开发能够处理更长标记的模型,因为模型中的标记数量决定了其处理和理解文本的能力。此外,更高的标记数量使模型能够考虑更广泛的上下文,从而使模型能够处理大量的数据序列。然而,在长上下文模型方面,大部分关注都集中在自然语言上,而与处理长序列的领域存在显著的疏忽:基因组学,它涉及研究生物体的遗传物质的不同方面,如结构、进化元素等。与自然语言模型采取的方法类似,研究人员提出了在基因组学中使用基础模型(FMs)来从非结构化的基因组数据中获取可泛化特征的建议。这些FMs可以进行微调,用于各种任务,如基因定位、调控元件识别等。 然而,基于Transformer架构的现有基因组模型在处理DNA序列时面临着独特的挑战。其中一个限制是注意力的二次扩展,限制了对DNA内的长程相互作用的建模。此外,主流方法依赖于固定的k-mers和标记器来聚合有意义的DNA单元,这往往导致个体DNA特征的损失。然而,与自然语言不同,这种损失是至关重要的,因为即使是微小的遗传变异也可能对蛋白质功能产生深远影响。Hyena是一种最近引入的LLM,通过利用隐式卷积成为一种有希望的替代方案来处理长序列。这种创新方法通过允许处理更长的上下文长度,显著减少计算时间复杂度,证明了与基于注意力的模型相当的质量。受到这些发现的启发,斯坦福大学和哈佛大学的研究人员团队开始调查是否可以利用Hyena的能力有效捕捉分析基因组序列所需的基本长程依赖性和个体DNA特征。 这导致了HyenaDNA的开发,这是一种基因组FM,具有处理长达100万个标记的上下文长度的前所未有的能力,相比现有的基于注意力的模型增加了500倍。利用Hyena的长程能力,HyenaDNA展示了无与伦比的可伸缩性,训练速度比配备FlashAttention的Transformer快160倍。HyenaDNA利用一系列Hyena操作符作为其模型DNA和其复杂交互的基础。该模型使用无监督学习来学习DNA序列的分布,并理解基因如何编码以及非编码区域在基因表达中起到调控功能。该模型在一些具有挑战性的基因组任务上表现出色,如长程物种分类任务。此外,与核苷酸Transformer相比,它在17个数据集中有12个达到了最先进的结果,同时使用的参数和预训练数据显著减少。 如前所述,在预训练期间,HyenaDNA可以达到100万个标记的令人印象深刻的上下文长度,使模型能够有效捕获基因组序列中的长程依赖性。此外,通过在每个层上利用单核苷酸分辨率和全局上下文进行标记化,进一步增强了模型的能力。为了解决训练不稳定性并进一步加快过程,研究人员还考虑到了序列长度预热调度器,从而使物种分类相关任务的训练时间减少了40%。HyenaDNA的另一个重要优势是其参数效率。研究人员还对模型大小和质量之间的关系进行了突破性观察,表明在较长的序列和较小的词汇表中,HyenaDNA尽管尺寸显著较小,但表现卓越。 研究人员评估了HyenaDNA在几个下游任务上的性能。在GenomicBenchmarks数据集上,预训练模型在所有八个数据集上都取得了新的最先进(SOTA)性能,远远超过了以前的方法。此外,在Nucleotide Transformer的基准测试中,HyenaDNA在17个数据集中有12个达到了SOTA结果,并且使用的参数和预训练数据要少得多。为了探索在基因组学中上下文学习(ICL)的潜力,研究人员还进行了一系列实验。他们引入了软提示标记的概念,允许输入指导冻结预训练的HyenaDNA模型的输出,而无需更新模型权重或附加解码器头部。增加软提示标记的数量显著提高了在GenomicBenchmarks数据集上的准确性。该模型在超长范围任务中也表现出色。在具有挑战性的染色质剖面任务上,HyenaDNA与SOTA稀疏变压器模型BigBird进行了有效竞争。此外,在超长范围物种分类任务中,当上下文长度增加到450K和1M标记时,该模型证明了其效率。 这些结果突显了HyenaDNA在处理复杂基因组任务方面的卓越能力,以及它在解决长程依赖和物种差异方面的潜力。他们预期这一进展将对推动AI辅助药物发现和治疗创新至关重要。此外,它还有潜力使基因组基础模型能够以个性化的方式学习和分析完整的患者基因组,进一步增强对基因组学的理解和应用。

Leave a Comment

关于向量数据库的一切 – 它们的重要性、向量嵌入和大型语言模型(LLMs)的顶级向量数据库

大型语言模型在最近取得了巨大的增长和进展。人工智能领域随着这些模型的每一次新发布而蓬勃发展。从教育、金融到医疗保健和媒体,大型语言模型几乎在每个领域都有贡献。像GPT、BERT、PaLM和LLaMa这样的著名大型语言模型通过模仿人类正在改变人工智能行业。基于GPT架构并由OpenAI开发的著名聊天机器人ChatGPT通过生成准确而富有创意的内容、回答问题、总结大量文本段落和语言翻译来模仿人类。 什么是向量数据库? 在人工智能和机器学习领域中,一种新颖而独特的数据库类型——向量数据库正变得越来越受欢迎。与最初用于以行和列的形式存储表格数据的传统关系型数据库以及像MongoDB这样将数据存储在JSON文档中的较新的NoSQL数据库不同,向量数据库在性质上有所不同。这是因为向量嵌入是向量数据库旨在存储和检索的唯一一种数据类型。 大型语言模型和所有新应用都依赖于向量嵌入和向量数据库。这些数据库是专门为有效存储和操作向量数据而设计的数据库。向量数据使用点、线和多边形来描述空间中的对象,在计算机图形、机器学习和地理信息系统等各个行业中经常使用。 向量数据库基于向量嵌入,它是一种携带语义信息的数据编码方式,有助于AI系统解释数据并保持长期记忆。这些嵌入是作为机器学习过程的一部分生成的训练数据的压缩版本。它们作为过程中新数据的过滤器,用于运行机器学习的推理阶段。 在向量数据库中,数据的几何特性被用于组织和存储数据。每个项目通过在空间中的坐标和其他赋予其特征的属性来标识。例如,向量数据库可以用于在地理信息系统应用程序中记录有关城镇、高速公路、河流和其他地理特征的详细信息。 向量数据库的优势 空间索引 – 向量数据库使用R树和四叉树等空间索引技术,可以基于地理关系(如接近和约束)进行数据检索,这使得向量数据库优于其他数据库。 多维索引 – 除了空间索引,向量数据库还可以支持对其他向量数据特性进行索引,以实现基于非空间属性的高效搜索和过滤。 几何操作 – 向量数据库通常具有内置的支持几何操作(如交集、缓冲和距离计算),这对于空间分析、路由和地图可视化等任务非常重要。 与地理信息系统(GIS)的集成 – 向量数据库经常与GIS软件和工具一起使用,以高效地处理和分析空间数据。 构建大型语言模型的最佳向量数据库 在大型语言模型的情况下,向量数据库越来越受欢迎,其主要应用是存储由LLM训练产生的向量嵌入。 Pinecone – Pinecone是一款强大的向量数据库,以其出色的性能、可扩展性和处理复杂数据的能力脱颖而出。它非常适合需要即时访问向量和实时更新的应用程序,因为它专为快速高效的数据检索而构建。 DataStax…

Leave a Comment

Magic123介绍:一种新的图像到3D的流水线,使用两阶段的粗到精优化过程,生成高质量、高分辨率的3D几何和纹理

尽管人类只能以二维方式看世界,但他们擅长在三维环境中导航、思考和互动。这表明了一种深深根植于人类本性的三维环境的认知意识。能够从一张照片中创建详细的三维复制品的艺术家将这种技能提升到了一个新的水平。然而,经过几十年的研究和进展,从非姿势图像进行三维重建的挑战,包括几何和纹理的生成,仍然是计算机视觉领域一个开放且不适定的课题。由于近期深度学习的进展,许多三维创建活动可以通过学习来实现。 尽管深度学习在图像识别和生成方面取得了重大进展,但在真实世界中的单幅图像三维重建这一特定挑战方面仍有待改进。他们将人类和机器在三维重建能力上的显著差距归咎于两个主要问题:(i) 缺乏大规模的三维数据集,以防止三维几何的大规模学习,以及(ii) 在处理三维数据时,在细节级别和计算资源之间存在权衡。利用二维先验是解决这个问题的一种策略。在线上有大量真实的二维图片数据。为了训练像CLIP和Stable Diffusion这样的先进图像解释和生成算法,最全面的文本-图像对数据集之一是LAION。 随着二维生成模型的扩展泛化能力的增强,使用二维模型作为先验来创建三维材料的策略越来越多。DreamFusion在文本到三维创建中首创了这种基于二维先验的技术。该方法在零样本情况下展示了引导独特视角和增强神经辐射场(NeRF)的卓越能力。在DreamFusion的基础上,最近的研究尝试使用RealFusion和NeuralLift等方法将这些二维先验适应于单张图像的三维重建。另一种策略是使用三维先验。在早期的研究中,诸如拓扑限制之类的三维先验被用于辅助三维创建。这些手工制作的三维先验可以创建一些三维内容,但可能不够好。 最近对二维扩散模型进行了修改,使其成为视角依赖的,并将这种视角依赖的扩散用作Zero-1-to-3和3Dim等技术中的三维先验。根据行为分析,二维和三维先验都有优点和缺点。与三维先验相比,二维先验在三维创建方面具有出色的泛化能力,如图1中的龙像示例所示。由于其有限的三维理解能力,仅依赖于二维先验的方法最终会失去三维的准确性和一致性。这导致了不真实的几何结果,如许多面(双面问题)、不同大小、不均匀的纹理等。图1中的泰迪熊示例是一个失败的情况。 然而,由于缺乏三维训练数据,需要更多地依赖于三维先验来进行野外重建。因此,正如图1所示,虽然基于三维先验的解决方案成功处理常见物品(如顶行的泰迪熊示例),但它们在处理不常见物品时困难重重,产生过于简单甚至扁平的三维几何形状(如左下角的龙像)。本研究中来自沙特阿拉伯国王阿卜杜拉科技大学(KAUST)、Snap Inc.和牛津大学视觉几何组的研究人员提倡同时使用两种先验来引导图像到三维创建中的创新视角,而不仅仅依赖于二维或三维先验。他们可以通过调整二维和三维先验之间具体但有用的权衡参数来控制生成的三维几何中的探索和开发之间的平衡。 图1展示了Magic123的2D和3D先验之间的权衡。一个经常出现的玩具熊、两个叠放的甜甜圈(一个不太常见的物品)和一座龙像(一个不常见的物体)是他们比较单张图像重建的三种情景。从右侧可以看到,只有2D背景的Magic123更倾向于几何探索,并以更大的创造力创建3D物体,但可能缺乏一致性。只有3D先验的Magic123(左侧)则优先考虑几何利用,导致准确但可能更简单且缺少特征的几何形状。 优先考虑2D先验可以提高创造性的3D技能,以弥补每个2D图像中部分3D信息的不足。然而,这可能会导致3D几何的准确性降低,因为缺乏对3D的理解。另一方面,优先考虑3D先验可以得到更多受3D约束的解以及更准确的3D几何,但代价是创造力降低以及在困难和不寻常情况下寻找可行解的能力减弱。他们提出了Magic123,这是一种先进的图像到3D的流水线,使用两阶段粗到精的优化方法,同时利用2D和3D先验生成高质量的3D输出。 他们在粗阶段对神经辐射场(NeRF)进行改进。NeRF有效地学习了一种隐式体积表示,用于学习复杂的几何形状。然而,NeRF使用了大量内存,导致生成的低分辨率图片被发送到扩散模型,从而降低了图像到3D过程的输出质量。Instant-NGP是一种更节约资源的NeRF替代方法,限制了在16GB内存GPU上的图像到3D流水线分辨率为128×128。因此,他们添加了第二步,并使用Deep Marching Tetrahedra(DMTet),一种内存高效且纹理分解的SDF-Mesh混合表示,以提高3D内容的质量。 借助这种方法,他们可以将NeRF的几何和纹理细化分开,并将分辨率提升到1K。他们在两个阶段中使用了2D和3D先验的组合,以引导创新的视角。他们对自己的贡献进行了以下总结: • 他们提出了Magic123,一种革命性的图像到3D的流水线,使用两阶段粗到精的优化过程创建高质量、高分辨率的3D几何和纹理。 • 他们建议同时使用2D和3D先验从任意给定的图像中创建准确的3D内容。先验的强度参数可以在探索几何和利用几何之间进行权衡。用户可以通过调整这个权衡参数来创建所需的3D内容。 • 他们可以找到2D和3D先验之间的平衡权衡,从而得到相对逼真和详细的3D重建结果。Magic123在真实世界和合成环境中,使用相同的参数集合为所有样本生成最先进的单张非姿势照片的3D重建结果,无需进一步重新配置。

Leave a Comment

密集机器学习训练营,提升技能发展

机器学习正在颠覆各个行业,推动创新为了发挥这种变革性技术的力量,专业人士需要获得深入的机器学习知识和实践技能本文探讨了参加密集机器学习训练营的教育方面、行业趋势和好处为什么选择密集机器学习…提升技能的密集机器学习训练营 阅读更多 »

Leave a Comment

使用自然语言处理(NLP)和引导法探索性别平等的研究

介绍 NLP(自然语言处理)可以帮助我们理解大量的文本数据。不需要手动阅读大量文档,我们可以利用这些技术加快理解速度,快速获得主要信息。在这篇博文中,我们将深入探讨如何使用Python中的pandas数据框和NLP工具,通过使用Elicit,对在阿富汗进行性别平等研究时人们的写作内容有一个了解。这些见解可能有助于我们理解在过去几十年中,在一个被认为是对女性或女孩来说最困难的地方之一的国家,为促进性别平等所做的工作和未能取得的成果(世界经济论坛,2023年)。 学习目标 掌握处理CSV文件中的文本分析。 了解如何在Python中进行自然语言处理。 开发有效数据可视化的沟通技巧。 深入了解阿富汗性别平等研究的演变。 本文是数据科学博文马拉松的一部分。 使用Elicit进行文献综述 为了生成底层数据,我使用了Elicit,一款用于文献综述的AI工具(Elicit)。我让这个工具生成与问题“为什么阿富汗的性别平等失败了?”相关的论文列表。然后,我以CSV格式下载了结果列表(我考虑了150多篇论文的随机数量)。这些数据是什么样的?让我们来看一看! 在Python中分析来自Elicit的CSV数据 我们首先将CSV文件读入pandas数据框中: import pandas as pd #识别路径和CSV文件 file_path = ‘./elicit.csv’ #读入CSV文件 df = pd.read_csv(file_path) #CSV的形状…

Leave a Comment

Google AI开源Flan-T5:一种基于Transformer的语言模型,使用文本到文本的方法进行自然语言处理任务

大型语言模型,例如PaLM、Chinchilla和ChatGPT,为从阅读教学线索执行自然语言处理(NLP)任务开辟了新的可能性。先前的研究表明,指令调整,即在各种带有指令的NLP任务上微调语言模型,进一步提高了语言模型在给定指令的情况下执行未知任务的能力。通过比较它们的微调过程和策略,本文评估了开源指令泛化倡议的方法和结果。 该工作关注指令调整方法的细节,对各个因素进行剔除并直接进行比较。他们在“Flan 2022 Collection”中确定并评估了方法论改进,该术语用于数据收集以及适用于数据和指令调整过程的方法,重点关注将Flan 2022与PaLM 540B结合的新兴和最先进的结果。Flan 2022 Collection目前是公开可用的最全面的指令调整作业和技术集合,它已经通过数千个高级模板和更好的格式模式进行了扩充。 他们证明,在所有评估的评估基准上,训练在该集合上的模型优于其他公开集合,包括原始的Flan 2021、T0++、Super-Natural Instructions和OPT-IML的当代工作。对于具有相同大小的模型,MMLU和BIG-Bench Hard评估基准上的改进分别达到4.2%+和8.5%。根据对Flan 2022方法的分析,这些稳健的结果是由于更大更多样的任务集合以及用于微调和数据增强的几种简单策略。特别是,使用零样式、少样式和思考链的模板进行训练改善了所有这些上下文中的性能。 例如,少样式提示的增加10%可以将零样式提示的结果提高2%或更多。此外,已经证明,通过倒置输入-输出对,在任务来源的平衡和任务多样性的增强方面都对性能至关重要。在单任务微调中,得到的Flan-T5模型收敛更快,表现优于T5模型,表明经过指令调整的模型为后续应用提供了更具计算效率的起点。他们预计,公开提供这些结果和工具将简化用于指令定制的可用资源,并加快更通用的语言模型的发展。 本研究的主要贡献如下列举:• 方法论:证明混合使用零样式和少样式提示进行训练在两种环境中都能产生显著优越的结果。• 测量和展示有效指令调整的关键方法,包括缩放第3.3节,使用输入倒置增强任务多样性,添加思考链训练数据以及平衡各种数据来源。• 结果:这些技术决策相对于现有的开源指令调整集合,提高了保留任务性能3-17% • 发现:Flan-T5 XL为单任务微调提供了更稳健和有效的计算起点。• 公开提供新的Flan 2022任务集合、模板和研究方法供公众使用。源代码可在GitHub上获取。

Leave a Comment

什么是大型语言模型(LLMs)?LLMs的应用和类型是什么?

被称为大型语言模型的计算机程序为软件提供了分析和创建文本的新选项。大型语言模型通常使用千兆字节甚至更多的文本数据进行训练,使其大小达到几十兆字节。模型的参数是从先前的训练数据中学到的组件,从本质上来说,它们确定了模型在任务(如文本生成)上的熟练程度。自然语言处理(NLP)活动,包括语音转文字、情感分析、文本摘要、拼写检查、令牌分类等,都依赖于语言模型作为其基础。语言模型可以分析文本并预测大多数自然语言处理任务中下一个令牌出现的可能性。Unigram、N-gram、指数和神经网络都是语言模型的有效形式。 LLM的应用 下图总结了目前大型语言模型(LLM)的功能、产品和支持软件方面的现状。 图片来源:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b Shell命令生成 下一代终端Warp利用GPT-3将自然语言转化为可执行的shell指令,类似于GitHub Copilot,但用于终端。 即使对于经验丰富的程序员来说,shell命令的语法可能也需要解释。 正则表达式生成 开发人员编写正则表达式是一项耗时的任务,然而Autoregex.xyz利用GPT-3自动化这个过程。 文案撰写 这项任务最常用的模型是GPT-3,但也有开源替代方案,如BigScience的BLOOM和Eleuther AI的GPT-J。Copy ai、Copysmith、Contenda、Cohere和Jasper ai是在这一领域开发应用程序的一些初创公司,它们的工具可以更快、更轻松地编写博客文章、销售内容、数字广告和网站文案。 分类 将文本分类到预定类别是一种监督学习的例子。通过使用聚类这种无监督学习技术,可以将具有相似含义的文本聚类在一起,而无需使用预定义的类别。 回应生成 回应生成是使用示例对话生成对话流的思路,并采用机器学习方法。在这种方法中,下一次呈现给用户的对话取决于模型,考虑到用户的过去回答和最有可能的未来对话,这被称为预测式对话。 文本生成 LLM的能力从简要描述中生成测试,无论是否有示例数据,都可以被视为其“元能力”。 几乎所有LLM都能扮演生成的角色。少样本学习数据不仅显著提升了生成能力,而且数据的构造也影响着数据的使用方式。 知识回答 知识回答是知识密集型自然语言处理(KI-NLP)的应用,它允许对通用和跨领域的问题进行回答,而无需查询应用程序接口(API)或依赖传统的知识存储。 知识密集型自然语言处理不是网络搜索,而是基于语义搜索的知识库。…

Leave a Comment

一种新的人工智能(AI)研究方法将基于提示的上下文学习作为一种从统计角度看待的算法学习问题

上下文学习是一种最近的范式,其中一个大型语言模型(LLM)观察一个测试实例和一些训练示例作为其输入,并直接解码输出,而不对其参数进行任何更新。这种隐式训练与通常的训练相反,通常的训练会根据示例来改变权重。 来源: https://arxiv.org/pdf/2301.07067.pdf 那么为什么上下文学习会有益呢?你可以假设你有两个回归任务要建模,但唯一的限制是你只能使用一个模型来适应这两个任务。在这种情况下,上下文学习非常有用,因为它可以为每个任务学习回归算法,这意味着模型将为不同的输入集使用单独的适应回归。 在“Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning”这篇论文中,他们将上下文学习问题形式化为一个算法学习问题。他们使用transformer作为学习算法,在推理时通过训练来实现另一个目标算法。在这篇论文中,他们通过transformer探索了上下文学习的统计学方面,并进行了数值评估以验证理论预测。 在这项工作中,他们研究了两种情况,第一种情况是提示由一系列i.i.d(输入、标签)对组成,而第二种情况是一个动态系统的轨迹(下一个状态取决于前一个状态:xm+1 = f(xm) + noise)。 现在问题来了,我们如何训练这样的模型? 在ICL的训练阶段,T个任务与数据分布 {Dt}t=1T相关联。他们从对应分布中独立采样训练序列St。然后他们从序列St中选择一个子序列S和一个值x,对x进行预测。这就像元学习框架一样。预测之后,我们最小化损失。ICL训练背后的直觉可以解释为在寻找适应当前任务的最优算法。 接下来,为了获得ICL的泛化界限,他们从算法稳定性文献中借用了一些稳定性条件。在ICL中,提示中的训练示例影响到从那一点起算法的未来决策。因此,为了处理这些输入扰动,他们需要对输入施加一些条件。您可以阅读[论文]以获取更多细节。图7显示了对学习算法(这里是Transformer)稳定性进行实验评估的结果。 来源:…

Leave a Comment

AI欺骗骗子:对抗自动拨号电话的巧妙战斗

尽管美国联邦通信委员会(FCC)努力打击骚扰电话,但它们仍然是一种持续的困扰,对无辜和易受伤害的人进行攻击。然而,一位企业家找到了一种独特的方式来反击。来认识一下罗杰·安德森(Roger Anderson),这位乐观的罗杰电话公司(Jolly Roger Telephone Company)背后的智能机器人,他利用人工智能(AI)来欺骗诈骗者。在本文中,我们将探讨安德森的巧妙解决方案如何利用由ChatGPT和语音克隆器驱动的机器人来智胜电话推销诈骗者,浪费他们的时间并最终让他们付出代价。 对抗骚扰电话 骚扰电话继续困扰着美国的消费者,每个电话号码平均每月接到14个电话。其中许多电话都是针对幼稚和年长者的诈骗。尽管FCC努力解决这个问题,但骚扰电话仍然是一个持续存在的问题,需要创新的解决方案。 罗杰·安德森和乐观的罗杰电话公司 罗杰·安德森(Roger Anderson)是乐观的罗杰电话公司(Jolly Roger Telephone Company)的所有者,他设计了一种非常规的方法来对抗骚扰电话。通过利用人工智能技术,安德森的公司让电话推销诈骗者在电话中浪费时间和资源。然而,安德森的动机超越个人娱乐。他为普通人提供使用他的系统的机会,只需支付合理的费用。 了解更多:NLP在呼叫中心支持活动中的应用 简便设置和无尽娱乐 乐观的罗杰电话公司的系统设置非常简单。用户只需要订阅每年25美元的计划,并将呼叫转发到与他们账户关联的唯一号码。从那里,他们可以允许机器人处理骚扰电话,或者将呼叫合并以偷偷地倾听随之而来的滑稽情节,看诈骗者如何试图应对由人工智能驱动的对话。 多样的机器人个性 乐观的罗杰电话公司系统的一个亮点是可供选择的各种机器人个性。例如,用户可以选择“白胡子”(Whitey Whitebeard),一个经常抱怨或容易分心的年长人。或者,Salty Sally扮演忙碌的家庭主妇,背景中有不听话的孩子。这些多样的人物角色使与诈骗者的互动更加有趣。 机器人如何交互? 与普遍的观念相反,诈骗者并不直接与ChatGPT交谈。相反,乐观的罗杰系统利用OpenAI机器人来分析诈骗者的语音,然后选择与主题相关的预先编程的回答。虽然声音可能听起来像人类,但短语可能是重复或不自然的,偶尔会破坏幻象。然而,这些机器人在让诈骗者忙碌上至多15分钟方面非常有效,防止他们针对其他潜在受害者。 揭穿骗子 – 白胡子的遭遇…

Leave a Comment