Press "Enter" to skip to content

四海吧 Posts

使用Amazon SageMaker的地理空间能力分析啮齿类动物的入侵情况

“老鼠等啮齿动物与许多健康风险相关,并且已知可以传播35种以上的疾病识别高频率啮齿动物活动的区域可以帮助当地政府和害虫控制组织有效地计划干预措施,并消灭这些啮齿动物在本文中,我们展示了如何监测和可视化…”

Leave a Comment

解码人类智能:斯坦福最新的人工智能研究质疑固有的数字感知——是一种学到的技能还是一种天赋?

解读任何数量的能力被称为数字感。数字感在数学认知中至关重要。我们的神经系统能够轻松地将大量数据组织成小组并对数字数量进行分类,但这些数字感的出现原因尚不明确。对于数字表示如何在人脑中出现,我们需要更好地理解。 斯坦福人机协同人工智能(HAI)研究人员声称,可以使用生物启发的神经网络结构来理解数字感的出现。通过使用大脑皮层的V1、V2和V3层与顶枕沟(IPS)的神经网络结构,可以理解神经表示的变化。类似于人脑的视觉皮层;V1、V2、V3和IPS是深度神经网络中的视觉处理流。通过单元和分布式群体层面上的深度神经网络,可以研究数量出现的神经编码与学习。 HAI的研究人员发现,由于深度神经网络中图像的统计属性,视觉数量性质会出现,并且数量敏感的神经元会在经过标准化的ImageNet数据集中训练的卷积神经网络中自发地出现。他们使用了一个具有更符合生物学的可行性架构的数字-DNN(nDNN)模型,而不是使用卷积神经网络。 大多数现实生活中的图像都包含非符号刺激。通过数量训练和解释,它们被映射到数量表示上。研究人员发现,随着数量训练的进行,自发调谐的神经元会发生变化并形成层次结构。类似于大脑用于图像学习的过程,研究人员实施了表示相似性分析,以评估数值数量如何跨信息处理过程产生分布式表示。 HAI的研究人员在儿童的数字技能上进行了实验,因为儿童通常被描述为将非符号表示映射到抽象符号表示。这对于数值问题解决能力的发展至关重要。这些数字感和符号数字处理能力依赖于不同的神经系统。除了这些差异,研究发现,儿童通常倾向于通过将小数字映射到非符号表示来学习,通过计数和算术原理来学习大数字。研究还表明,符号和非符号数量之间的神经表示相似性与儿童的算术技能呈正相关,与顶叶、额叶皮层和海马体有关。 大多数神经心理学研究都是在动物身上进行的,以获得了解认知推理出现的数据。但是,动物的大脑存在局限性。目前尚不清楚理解方式是否与人类相同。解决方案类似于HAI的研究,因为它对于理解认知意义上的数字感发展和儿童通过训练深度神经网络进行类似认知和数学推理的活动来学习数量表示具有重要意义。

Leave a Comment

探索用人工智能生成音乐的世界

介绍 利用人工智能生成音乐已经成为一个有价值的领域,改变了音乐的创作和欣赏方式。本项目介绍了在音乐创作中应用人工智能的概念和目的。我们旨在探索使用人工智能算法生成音乐的过程以及其潜力。 我们的项目专注于理解和实施促进音乐创作的人工智能技术。人工智能可以通过学习大量音乐作品,并利用特殊的数学规则来理解音乐中的模式、节奏和结构,然后根据所学习的内容创作新的曲调。通过对音乐数据进行训练,我们使人工智能系统能够学习和产生新的原创作品。我们还将研究人工智能生成音乐的最新发展,特别是Meta的MusicGen。 通过探索人工智能在音乐生成中的范围,本项目旨在激发音乐家、研究人员和音乐爱好者探索这一创新技术的可能性。让我们一起踏上这段音乐之旅,揭示人工智能可以生成的旋律。 学习目标 通过参与这个项目,我们将获得新的技术技能,并了解如何实施人工智能算法来构建创新应用程序。在项目结束时,我们将: 了解人工智能在音乐创作中的应用。我们将学习训练人工智能模型进行音乐创作的基本概念和技术。 学习如何收集和准备与音乐模型训练相关的音乐数据。我们将探索如何收集.mp3文件并将其转换为MIDI文件,利用诸如Spotify的Basic Pitch之类的工具。 我们还将了解构建用于音乐生成的人工智能模型的步骤。此外,我们将学习适用于该任务的模型架构及其相关性,并亲自体验训练模型的过程,包括确定epoch数和批量大小。 我们将花时间探索评估训练模型性能的方法。然后,我们将学习如何分析指标并评估生成的音乐作品的质量,以衡量模型的效果并找出改进的方向。 最后,我们将探索使用训练好的人工智能模型生成新的音乐作品的过程。 本文作为数据科学博文发布。 项目描述 本项目旨在探索利用人工智能生成音乐的有趣领域。我们旨在研究人工智能技术如何创造独特的音乐作品。通过利用机器学习算法,我们的目标是训练一个能够在各种音乐流派中产生旋律和和声的人工智能模型。 该项目的重点是收集各种类型的音乐数据,特别是.mp3文件,这些文件将成为训练人工智能模型的基础。这些文件将经过预处理,使用专门的工具(如Spotify的Basic Pitch)将它们转换为MIDI格式。这种转换是必要的,因为MIDI文件提供了人工智能模型可以轻松解释的音乐元素的结构化表示。 随后的阶段涉及构建专门用于音乐生成的人工智能模型。使用准备好的MIDI数据训练模型,旨在捕捉音乐中的潜在模式和结构。 进行性能评估以评估模型的熟练程度。这将涉及生成音乐样本并评估其质量,以优化流程并提高模型产生创意音乐的能力。 本项目的最终成果将是使用训练好的人工智能模型生成原创作品的能力。这些作品可以通过后期处理技术进一步改进,以丰富其音乐性和连贯性。 问题陈述 本项目致力于解决音乐创作工具的可访问性有限的问题。传统的音乐创作方法可能繁琐,并需要专业知识。此外,产生新颖和独特的音乐概念可能是一个巨大的挑战。本项目的目标是利用人工智能来克服这些障碍,为音乐创作提供无缝解决方案,即使对于非音乐家也是如此。通过开发一个能够作曲旋律和和声的人工智能模型,本项目旨在民主化音乐创作过程,让音乐家、爱好者和新手释放他们的创造潜力,并轻松创作独特的作品。 音乐生成使用人工智能的简要历史 人工智能在创作音乐方面的故事可以追溯到20世纪50年代,最早是由计算机帮助创作的Illiac Suite…

Leave a Comment

图像识别与计算机视觉:有什么区别?

在当前的人工智能和机器学习行业中,“图像识别”和“计算机视觉”是最热门的两个趋势这两个领域都涉及到识别视觉特征,这也是为什么通常情况下这两个术语经常被互换使用的原因尽管有些相似之处,但计算机视觉和图像识别代表了不同的技术,[…]

Leave a Comment

见面LLaMaTab:一个在浏览器中完全运行LLM的开源Chrome扩展程序

LLaMaTab – 一个具有洞察力的Chrome扩展 一个名为LLaMaTab New Tab的Chrome附加程序将在每次新建标签页时显示不同的羊驼图片。这是一个愚蠢的附加程序,但在事情变得困难时,它可以让人继续前行。如果你正在使用Chrome并希望为浏览体验注入个性和乐趣,LLaMaTab New Tab是一个绝佳的扩展。此外,它还是保持动力和完成任务的绝佳方法。如果你想让Chrome的体验更有趣,LLaMaTab New Tab扩展正是你所需要的。 LLaMaTab New Tab的优势 使用LLaMaTab New Tab扩展,将一些轻松的元素注入你的日常网络活动中。 你可以通过添加羊驼照片或从一个预先制作的图库中选择照片来自定义LLaMaTab New Tab。 LLaMaTab New Tab是一个轻量级的附加程序,不会影响浏览器的性能。 特点 由于附加程序的代码是公开的,可以轻松修改以提供新的功能。 该附加程序已经翻译成多种语言,让用户可以使用他们偏好的语言工作。…

Leave a Comment

遇见StyleAvatar3D:一种使用图像-文本扩散模型和基于GAN的3D生成网络生成风格化3D头像的新AI方法

自从大规模图像-文本配对和复杂的生成模型拓扑结构(如扩散模型)的出现以来,生成模型在生成高保真度的二维图片方面取得了巨大的进展。这些模型通过允许用户根据文本提示创建逼真的视觉效果,消除了人工参与。与二维模型相比,由于三维学习模型的多样性和可访问性的不足,三维生成模型仍然面临着重大的问题。高质量的三维模型的可用性受到了软件引擎中繁琐且高度专业化的手动开发三维资产的限制。 研究人员最近研究了预训练的图像-文本生成方法,以创建高保真度的三维模型来解决这个问题。这些模型包括物品的几何和外观的详细先验知识,这可能会使创建逼真且多样化的三维模型变得更容易。在这项研究中,来自腾讯、南洋理工大学、复旦大学和浙江大学的研究人员提出了一种使用经过训练的文本到图像扩散模型创建三维风格化头像的独特方法,允许用户通过文本提示选择头像的风格和面部特征。他们选择使用基于 GAN 的 EG3D 三维生成网络,主要是因为它具有几个优点。 首先,EG3D 在训练时使用校准的照片而不是三维数据,这使得利用改进的图像数据不断增加三维模型的多样性和逼真度成为可能。对于二维照片来说,这个特性非常简单。其次,他们可以独立地生成每个视角,有效地控制图像生成过程中的随机性,因为用于训练的图像在外观上不需要严格的多视角一致性。他们的方法使用了基于 StableDiffusion 的 ControlNet,允许通过预定的姿势进行图片生成,为 EG3D 训练创建校准的二维训练图像。 通过从姿势照片中重复使用摄像机特征进行学习,这些姿势可以在当前引擎中合成或检索。即使在使用准确的姿势照片作为指导时,ControlNet 在创建大角度视角(如头部的背面)时经常遇到困难。这些失败的输出需要改进生成完整的三维模型。为了解决这个问题,他们采取了两种不同的方法。首先,他们为图片生成过程中的各个视角创建了特定于视角的提示,极大地减少了失败的发生次数。即使有特定于视角的提示,合成的照片可能只能部分匹配姿势照片。 为了解决这种不匹配的问题,他们为三维 GAN 训练创建了一个粗到精的姿势感知判别器。他们的系统中的每个图片数据都有一个粗略和精细的姿势注释。在 GAN 训练过程中,他们随机选择一个训练注释。对于自信的视角(如正面),他们有很大的机会选择好的姿势注释,但对于其它视角的学习更依赖于粗略的想法。即使输入的照片包含混乱的注释,这种方法也可以生成更准确和多样化的三维模型。此外,他们还在 StyleGAN 的潜在风格空间中创建了一个潜在扩散模型,以实现使用图像输入进行条件三维生成。 由于风格代码的低维度、高表现力和紧凑性,扩散模型的训练速度很快。他们直接从训练好的三维生成器中采样图像和风格代码配对来学习扩散模型。他们对许多大规模数据集进行了全面的测试,以评估他们提出的策略的有效性。研究结果显示,他们的方法在视觉质量和多样性方面超过了当前的尖端技术。总之,这项研究介绍了一种使用经过训练的图像-文本扩散模型生成高保真度的三维头像的独特方法。 他们的架构通过允许通过文本提示确定风格和面部特征,极大地增加了头像制作的灵活性。为了解决图像位置不匹配的问题,他们还提出了一个粗到精的姿势感知判别器,这将使带有错误姿势注释的图像数据更好地利用起来。最后,他们创建了一个额外的条件生成模块,可以在潜在风格空间中使用图像输入进行条件三维生成。这个模块进一步增加了框架的适应性,并允许用户创建符合自己口味的三维模型。他们还计划开源他们的代码。

Leave a Comment

在RLHF中真的需要强化学习(RL)吗?斯坦福大学的新研究提出了DPO(直接偏好优化):一种简单的训练范式,用于在没有RL的情况下通过偏好来训练语言模型

当大规模数据集上进行训练时,巨大的无监督语言模型获得了令其创造者惊讶的能力。然而,这些模型是根据具有各种动机、目标和能力的人们产生的信息进行训练的。并非所有这些雄心壮志和能力都可以模拟。从其庞大的信息和技能中精心选择模型的期望响应和行为,以创建可靠、有效和可管理的系统非常重要。 斯坦福大学和CZ研究人员在不使用显式奖励建模或强化学习的情况下,展示了如何优化语言模型以符合人类喜好。他们的工作表明,目前方法采用的基于强化学习的目标可以通过一个简单的二元交叉熵目标进行精确优化,从而大大简化了偏好学习过程,并展示了如何在实践中实现这一目标。 他们提出了直接偏好优化(DPO)算法。这个新算法隐式地实现了现有RLHF算法(通过KL散度约束的奖励最大化)的相同目标,但更容易构建和训练。虽然DPO更新在直觉上增加了首选回复与非首选回复的对数比率,但它还包括一个动态的、每个示例的重要性权重,使模型不会退化。 与其他算法一样,DPO使用理论偏好模型评估奖励函数与实证偏好数据的一致性。而传统方法是使用偏好模型定义一个偏好损失来训练奖励模型,DPO则是通过变量开关来训练最大化学习奖励模型的策略。因此,在训练过程中,DPO可以基于人类对模型响应的偏好数据集优化一个具有简单二元交叉熵目标的策略,而无需显式学习奖励函数或从策略中采样。 该研究结果表明,DPO在情感调节、摘要和对话等各种任务上,与PPO-based RLHF等最先进方法一样有效。58%的人更喜欢DPO摘要而不是PPO摘要(人类评估),并且61%的人更喜欢DPO摘要而不是测试集中的人类评估。在Anthropic HH上,60%的时间内,人们更倾向于选择DPO的单轮响应而不是选择性完成。 团队表示,DPO在仅基于人类喜好训练语言模型之外,还有许多潜在用途。例如,它可以训练各种模态的生成模型。 所提出的模型评估最高达到了60亿个参数,但团队认为进一步的工作应该探索将DPO扩展到具有数量级更大数据的最先进模型。研究人员还发现,提示对GPT-4的计算胜率有影响。未来,他们计划研究从机器中引导专家意见的最有效手段。

Leave a Comment

加州大学伯克利分校的研究人员推出了Gorilla:一个基于Finetuned LLaMA的模型,在编写API调用方面超越了GPT-4

人工智能领域最新的突破是大型语言模型(LLM)的引入。这些模型使我们能够更简洁地理解语言,从而更好地利用自然语言处理(NLP)和自然语言理解(NLU)。这些模型在包括文本摘要、问答、内容生成、语言翻译等各种任务上表现良好。它们能够理解复杂的文本提示,甚至能够理解带有推理和逻辑的文本,并识别数据之间的模式和关系。 尽管语言模型在各种任务中表现出色,并且在最近的发展中取得了显著进展,但它们仍然难以高效地通过API调用使用工具。即使是像GPT-4这样有名的LLM也难以生成精确的输入参数,并经常推荐不合适的API调用。为了解决这个问题,伯克利和微软研究人员提出了Gorilla,这是一个基于细调的LLaMA模型,它在生成API调用方面击败了GPT-4。Gorilla有助于选择合适的API,提高LLM与外部工具合作执行特定活动的能力。 研究团队还创建了一个名为APIBench的数据集,其中包含了大量重叠功能的API。该数据集是通过收集TorchHub、TensorHub和HuggingFace等公共模型库的ML API创建的。每个API都包含来自TorchHub和TensorHub的每个API请求,并选择HuggingFace每个任务类别的前20个模型。此外,他们使用自我指导方法为每个API生成了十个虚构的用户查询提示。 使用这个APIBench数据集和文档检索,研究人员对Gorilla进行了细调。这个70亿参数的模型在API功能的正确性和减少产生幻觉错误方面优于GPT-4。文档检索器与Gorilla的有效集成展示了LLM更精确使用工具的可能性。Gorilla的改进的API调用生成能力以及根据需要修改文档的能力提高了模型结果的适用性和可靠性。这一发展非常重要,因为它使LLM能够跟上定期更新的文档,为用户提供更准确和最新的信息。 研究人员分享的一个例子显示了Gorilla如何正确识别任务并提供经过充分确认的API结果。模型生成的API调用显示GPT-4为假想模型生成API请求,这表明它对任务的理解不足。Claude选择了错误的库,显示了无法识别正确资源的能力不足。相比之下,Gorilla正确识别了任务。因此,Gorilla与GPT-4和Claude不同,其API调用生成准确,既展示了其增强的性能,又展示了其任务理解能力。 总之,Gorilla是语言模型列表中的重要增加,因为它甚至解决了编写API调用的问题。它的能力能够减少与产生幻觉和可靠性相关的问题。

Leave a Comment

每个数据科学家都必须阅读的前7本自然语言处理书籍

介绍 自然语言处理(NLP)的最新进展对于数据科学家来说至关重要。NLP相关书籍是提供深入知识、实用指导和前沿技术的宝贵资源。本文将介绍8本最佳的NLP书籍,这些书对于数据科学家来说是必读的。这些作品涵盖了从NLP的基本原理到尖端的深度学习技术。无论你是初学者还是经验丰富的从业者,这些书籍都将提高你在NLP方面的理解和能力。 什么是NLP? 自然语言处理是人工智能领域的一个研究方向,专注于计算机与人类语言之间的交互。它涉及开发算法和技术,使计算机能够理解、解释和生成人类语言,以便实现诸如语言翻译、情感分析、聊天机器人和信息检索等任务。 请查看我们关于自然语言处理入门的免费课程。 1. 语音和语言处理 作者:Daniel Jurafsky和James H. Martin 《语音和语言处理》被认为是关于NLP最全面的手册,包括语音和语言处理方法。这本书介绍了基本概念、前沿的研究主题和算法。它提供了针对各种能力水平读者的练习和实际例子,对建立NLP的坚实基础非常有帮助。 书籍链接:语音和语言处理 2. 使用Python进行自然语言处理 作者:Steven Bird, Ewan Klein和Edward Loper 如果你想通过实践来学习新知识,那么《使用Python进行自然语言处理》是一个不错的选择。这本书演示了如何使用Python和NLTK(自然语言工具包)等知名模块开发NLP算法。重要的NLP过程包括情感分析、命名实体识别、词性标注、分词和命名实体识别。这本NLP书籍通过提供有用的例子和代码片段,让你能够在实际环境中运用NLP思想。 书籍链接:使用Python进行自然语言处理 3. 统计自然语言处理基础 作者:Christopher…

Leave a Comment