Press "Enter" to skip to content

四海吧 Posts

愉快的一周年纪念日🤗,扩散器!

🤗 Diffusers很高兴庆祝其成立一周年!这是一个令人兴奋的一年,我们为自己取得的成就感到自豪和感激,这离不开我们的社区和开源贡献者们。去年,像DALL-E 2、Imagen和Stable Diffusion这样的文本到图像模型以其生成惊人逼真的图像能力吸引了世界的注意,引发了对生成式人工智能的巨大兴趣和发展。但是,使用这些强大模型的权限是有限的。 在Hugging Face,我们的使命是通过合作和互相帮助打造一个开放和道德的人工智能未来,以实现机器学习的民主化。这一使命激励我们创建了🤗 Diffusers库,以便每个人都可以通过它来进行实验、研究或者简单地玩转文本到图像模型。这就是为什么我们将该库设计为一个模块化的工具箱,让您可以自定义扩散模型的组件,或者直接使用它。 随着🤗 Diffusers迈入一岁,以下是我们与社区的帮助下为该库增加的一些最显著特性的概述。我们为能够成为一个积极参与、推动扩散模型超越仅文本到图像生成的可访问使用,并且在各方面都是一个灵感的社区而感到自豪和无比感激。 目录 追求逼真度 视频流程 文本到3D模型 图像编辑流程 更快的扩散模型 伦理和安全 对LoRA的支持 Torch 2.0优化 社区亮点 使用🤗 Diffusers构建产品 展望未来 追求逼真度 生成式人工智能模型以创建逼真的图像而闻名,但如果您仔细观察,您可能会注意到某些看起来不对劲的事情,比如在手上生成多余的手指。今年,DeepFloyd…

Leave a Comment

如何在2023年打破数据科学FAANG职位的难题?

数据科学已经成为一个备受追捧的领域,而在FAANG(Facebook,Amazon,Apple,Netflix,Google)公司获得一份工作被认为是一个重大的成就。FAANG公司以其创新的方法、尖端的技术和有吸引力的薪酬待遇而闻名。本文将讨论15个可以帮助您在2023年获得数据科学FAANG工作的技巧。 FAANG工作有什么特别之处? FAANG公司以其影响力、市场支配地位和颠覆整个经济部门的能力而闻名。在FAANG组织工作有许多优势,包括访问大量数据集、尖端技术、合作工作环境以及参与开创性项目的机会。此外,FAANG企业经常吸引来自全球各地的顶尖人才,创造出一个竞争激烈的劳动市场。 FAANG数据科学家的工作内容是什么? 在FAANG公司,数据科学家在利用数据推动业务决策、提升用户体验和开发尖端技术方面起着关键作用。他们的职责可能包括: 对大型数据集进行深入分析,以发现能够为战略决策和产品改进提供见解的模式、趋势和洞察。 开发和实施机器学习模型和算法,解决复杂问题,如推荐系统、欺诈检测和自然语言处理。 创建可视化和仪表板,以清晰、可操作的方式呈现基于数据的见解。 设计和分析A/B测试,评估新功能或产品变更的有效性。 构建预测模型,预测用户行为、客户流失或产品和服务的需求。 应用自然语言处理技术处理和理解非结构化文本数据,用于情感分析和聊天机器人等应用。 与数据工程师合作开发和维护数据管道,确保高效可靠的数据流动。 及时了解数据科学的最新进展,探索新的方法来改进现有流程。 与产品经理、工程师、设计师和其他团队合作,了解业务需求并提供基于数据的解决方案。 在处理敏感用户数据时确保数据隐私和维护道德标准。 获得FAANG工作的15个技巧 遵循以下技巧来获得FAANG工作: #1. 在数据科学和相关概念上建立坚实的基础 要在数据科学领域取得成功,必须牢固掌握统计学、线性代数、概率论和微积分等基本概念。在这些领域建立坚实的基础,以有效解决复杂的数据问题。 #2. 掌握数据科学常用的Python / R编程语言 在数据科学家社区中,最流行的两种编程语言是Python和R。掌握其中一种或两种语言将极大地增加您在获得FAANG工作方面的机会。…

Leave a Comment

SQL中的SUBSTRING函数是什么?【通过示例进行解释】

你是否曾经遇到在SQL中提取字符串的特定部分的需求?你可以检索列的前几个字符,或者根据特定的位置或长度来隔离一个子字符串。在这种情况下,SUBSTRING SQL函数就可以派上用场。你可以使用这个有效的工具快速地修改字符串,使得你的数据库查询更具灵活性。这个全面的教程将涵盖SUBSTRING SQL的所有方面,并提供其语法、应用、性能建议和实际示例的全面概述。 什么是SQL中的SUBSTRING函数? SUBSTRING函数是SQL中一种强大的工具,它允许我们根据指定的条件从字符串中提取部分内容。它允许我们高效地操作和分析文本数据,无论是需要提取特定数量的字符,还是根据特定位置提取子字符串,或者根据模式提取子字符串。在本文中,我们将探讨SUBSTRING函数在SQL中的各种应用和语法。 SQL中SUBSTRING的语法 SQL中SUBSTRING函数的语法略有不同,具体取决于你使用的数据库管理系统(DBMS)。然而,一般的语法如下: 对于大多数DBMS SUBSTRING(string_expression, start_position, length) 对于某些DBMS(例如Oracle) SUBSTR(string_expression, start_position, length) string_expression:要从中提取子字符串的输入字符串。 start_position:子字符串在输入字符串中的起始位置。通常是一个整数值。 length:(可选)要提取的子字符串的长度。如果省略,将从start_position位置提取到输入字符串的末尾。 需要注意的是,start_position参数通常是基于1的,也就是说输入字符串的第一个字符位于位置1。 还要阅读:初学者、中级学习者和有经验的学习者的前10个SQL项目 SUBSTRING SQL查询和示例 为了进一步巩固你对SQL中SUBSTRING的理解,让我们深入到SUBSTRING查询的实际示例中,展示它的多功能性和在各种场景中的应用。这些示例将涵盖从简单的提取到更高级的查询的各种用例。 示例1:提取名字 假设你有一个名为full_name的列,其中存储了个人的全名。你想从这个列中提取出只有名字。可以使用如下的Substring实现:…

Leave a Comment

在医学论文上微调LLaMA 认识PMC-LLaMA-A模型,它在生物医学问答基准测试中取得了高性能

大型语言模型(LLM)的发展,例如OpenAI的ChatGPT和GPT-4,在自然语言处理、计算机视觉和生物医学等许多领域中重塑了人工智能。不幸的是,ChatGPT的训练细节和其变体的模型架构仍然未知。虽然LLaMA是一个开源的基础语言模型,但据推测,它在需要广泛领域知识的应用中表现不佳,是由于在模型预训练阶段缺乏领域特定数据引起的。 许多研究一直在讨论修改和使用开源LLM来实现专门目的。例如,Alpaca和Vicuna专注于通过训练模型以遵守自动创建的指令示例来扩展模型的交互能力。 上海交通大学和上海人工智能实验室最近的一项工作采用了一种不同的方法,将领域知识注入到单个预训练的LLaMA中,以将基础语言模型引导到医学专用语料库。他们介绍了PMC-LLaMA,这是一个公开可用的语言模型,通过在480万篇医学学术论文上对LLaMA-7B进行改进开发而成。团队认为,在医学讨论和咨询中,一个以医学为重点的基础语言模型会有更多的益处。 团队从S2ORC数据集开始,该数据集包含81.1M篇英文学术论文,并根据其PubMed Central(PMC)ID对其进行了排序。因此,约有490万篇论文,总计超过750亿个标记与医学知识高度相关。通过优化GPT2中首次提出的自回归生成目标,他们在这些免费的PMC论文上对LLaMA-7B模型进行了微调。他们采用bf16(脑浮点)数据格式和完全分片数据并行(FSDP)加速方法来加快学习过程。 团队通过对上述相关的医学问答数据集进行三种不同类型的微调来测试PMC-LLaMA:完全微调、参数高效微调和数据高效微调。实验结果表明,当微调指令调整时,PMC-LLaMA在医学领域中优于LLaMA和其他使用LLaMA微调指令训练的模型。 PMC-LLaMA的一个缺点是,这480万篇论文中并不包含每个标记,因为迄今为止他们只进行了五个时期的训练。在未来,他们计划逐步训练具有更多参数的PMC-LLaMA模型,持续训练PMC-LLaMA,并更新hugging face页面上的基础模型。

Leave a Comment

学习机器学习需要多长时间?

简介 机器学习是一个快速发展的领域,吸引了无数有抱负的个人的兴趣。然而,学习机器学习需要多长时间的问题是常见且重要的。在本文中,我们将深入探讨影响学习时间的因素,提供推荐的学习路径,估计各个学习阶段所需的时间,探索优化学习过程的策略,并展示有价值的学习资源和平台。无论你是初学者还是想提升技能,本指南将帮助你清晰而自信地进行机器学习之旅。 什么是机器学习? 机器学习是一门人工智能学科,使计算机能够在没有显式编程的情况下从经验中学习和改进。它涉及分析数据的算法,识别模式,并进行预测或决策。通过迭代学习,机器可以适应和优化其性能,从而能够高效地处理复杂任务。 查看我们的机器学习初级认证课程,快速提升你的技能! 影响学习时间的因素 掌握机器学习所需的时间取决于几个因素。以下是影响学习时间长短的几个重要因素: 先前知识:在数学、统计学和编程方面具有扎实背景的人可能更容易理解机器学习的基础知识。在这些领域有先前经验可以加快学习过程。 学习投入:投入到学习机器学习的时间和精力直接影响学习速度。坚持不懈的学习实践、对学科的真实兴趣以及定期练习对于加快学习过程至关重要。 机器学习的复杂性:机器学习是一个广泛的领域,涵盖了各种子领域、技术和策略。所选择的主题或知识领域的复杂性可能影响学习所需的时间。有些概念可能比其他概念更难理解。 学习风格:每个人都有独特的学习风格。有些人更喜欢动手项目和实际应用,而其他人更倾向于理论理解。学习机器学习所需的时间可能因个人偏好和学习方法而异。 不同学习阶段的时间估计 一个明确的学习路径对于踏上机器学习成功之路至关重要。对于那些有兴趣探索机器学习世界的人,以下是一个推荐的学习路径: 数学和统计基础 预计时间:1-2个月 描述:现在理解微积分、概率论和线性代数等基本数学概念至关重要。要理解机器学习算法,必须首先理解这些关键概念。 在线资源: 19门数据科学和机器学习的数学和统计学MOOC课程 完整数据科学初学者统计学指南 数据科学的免费必读统计学和数学书籍 编程技能 预计时间:2-3个月 描述:学习Python等编程语言以及相关库(如NumPy和Pandas)对于实现机器学习算法至关重要。学习时间可能会因先前的编程经验和投入到实践的时间而有所不同。 在线资源: Python在线认证课程和项目培训…

Leave a Comment

苹果发布了名为‘AppleGPT’的生成式AI聊天机器人,加入了生成式AI竞赛

科技巨头苹果正在推进备受期待的AI聊天机器人项目,暂定名为“AppleGPT”。这个革命性项目采用了由Google JAX提供支持的“Ajax”大型语言模型(LLM)框架,一直是公司内部严格保密的秘密。然而,消息人士透露,苹果正在努力开发这项尖端技术,并准备在不久的将来宣布重大的与AI相关的消息。让我们更多地了解苹果进军生成式AI的重要步骤。 还阅读:WWDC亮点:苹果实用的AI解决方案揭示 AppleGPT的崛起:一款正在崛起的AI奇迹 苹果一直在将AI技术融入其软件中取得进展。然而,它还未涉足生成式AI领域。代号为“AppleGPT”的聊天机器人将以其先进的语言模型和令人印象深刻的能力改变游戏规则。 还阅读:埃隆·马斯克的xAI挑战OpenAI的ChatGPT Ajax:AppleGPT智能背后的强大引擎 AppleGPT的核心是“Ajax”框架,这是一个强大的语言模型,使用Google JAX构建,旨在加快机器学习研究。这个尖端框架运行在Google Cloud上,并被苹果的多个团队利用。尽管公司对于隐私影响持谨慎态度,工程师们一直在内部探索这项技术,以优化其性能。 苹果的悄然追求:在众多竞争对手中脱颖而出 与Meta、微软和谷歌等其他科技巨头迅速向公众发布生成式AI产品不同,苹果在这一领域一直保持着一定的神秘感。有趣的是,苹果禁止员工使用ChatGPT,表明了对其自己的AI努力的高度保密。 还阅读:苹果的矛盾之举:在担心隐私问题后推广ChatGPT Siri的遗产与更远的未来:苹果的AI之旅 苹果进入AI领域的旅程始于其标志性语音助手Siri。尽管Siri在推广AI语音技术方面起到了重要作用,但批评人士认为它仍有改进的空间。鉴于此,苹果聘请了谷歌前高管John Giannandrea领导其AI和机器学习团队,表明了公司对推进其AI能力的坚定承诺。 蒂姆·库克的愿景:苹果对AI的看法 苹果首席执行官蒂姆·库克对AI技术的潜力表达了浓厚的兴趣。在最近的采访和财报电话会议中,库克强调AI是公司未来发展的重点。然而,他也承认需要解决与AI产品相关的一些挑战和关切。 还阅读:苹果CEO蒂姆·库克支持ChatGPT并讨论AI的未来 协作努力:面向所有人的LLM 为了提升对AI进展的可访问性,Meta和微软等公司已经合作,将他们的LLM提供给初创公司和研究人员。例如,Meta的LLM LLaMA 2将在微软的Azure平台上提供,而微软已将OpenAI GPT模型集成到其Bing搜索产品中。 还阅读:微软通过对Bing…

Leave a Comment

来自KAIST和Google的研究人员介绍了协作评分蒸馏(CSD):这是一种人工智能方法,扩展了文本到图像扩散模型的单一性,以实现一致的视觉合成

文本到图像扩散模型通过使用数十亿个图像-文本对和有效的拓扑结构进行构建,展示了在以输入提供的文本合成高质量、逼真和多样化图片方面的惊人能力。它们还扩展到了几个应用领域,包括图像到图像的翻译、可控的创建和定制。这个领域最近的一个应用是能够通过使用模态特定的训练数据将其扩展到2D图片以外的其他复杂模态,而不改变扩散模型。本研究旨在解决使用预训练的文本到图像扩散模型的知识来挑战超出2D图片的高维视觉生成任务的挑战,同时利用模态特定的训练数据而不改变扩散模型。 他们从这样一个直觉开始,即许多复杂的视觉数据,包括电影和3D环境,可以被表示为具有特定模态一致性的图片集合。例如,一个3D场景是一组具有视图一致性的多视图帧,而电影是一组具有时间一致性的帧。不幸的是,因为他们的生成采样方法在利用图像扩散模型时没有考虑一致性,图像扩散模型没有能力保证合成或编辑一组图片的一致性。结果,当将图片扩散模型应用于这些复杂数据时,不考虑一致性,结果可能更连贯,如图1(分块裁剪)所示,可以清楚地看出照片被拼接在一起的地方。 图1:全景图片修改:上右侧的裁剪补丁上,Instruct-Pix2Pix会产生不规则的图片编辑。(第三行)即使有很高的引导比例y,带有多扩散的Instruct-Pix2Pix也会编辑出一张一致的图片,但对指令的忠实度稍低。第三行通过选择适当的引导比例,CSD-Edit提供了具有更高指令忠实度的一致图片编辑。 类似的行为也在视频编辑中被观察到。因此,随后的研究提出了采用图片扩散模型来解决视频特定的时间一致性问题。在这里,他们引起了一个名为评分蒸馏采样(SDS)的新策略的注意,该策略利用文本到图像扩散模型的丰富生成先验来优化任何可微分的算子。通过压缩学习到的扩散密度评分,SDS将生成采样的挑战框架为一个优化问题。虽然其他研究人员已经证明了SDS在使用神经辐射场先验从文本生成3D对象方面的有效性,该先验通过密度建模假设在3D空间中具有一致的几何结构,但尚未研究它在一致合成其他模态的视觉方面。 在这项研究中,来自KAIST和Google Research的作者提出了一种简单而高效的技术,称为协同评分蒸馏(CSD),该技术扩展了文本到图像扩散模型在可靠的视觉合成方面的潜力。他们方法的关键有两个方面:首先,他们使用斯坦变分梯度下降(SVGD)通过让多个样本共享从扩散模型中获得的信息来推广SDS,以实现样本间的一致性。其次,他们提供了CSD-Edit,一种将CSD与最近开发的指令引导图片扩散模型Instruct-Pix2Pix结合起来的强大技术,用于一致的视觉编辑。 他们使用各种应用程序,包括全景图片编辑、视频编辑和3D场景重建,来展示他们的方法的适应性。他们展示了CSD-alter如何通过最大化多个图片补丁来改变具有空间一致性的全景图像。此外,与之前的方法相比,他们的方法在指令准确性和源-目标图像一致性之间取得了更好的平衡。在视频编辑的实验中,CSD-Edit通过优化多个帧达到时间一致性,从而实现了时间帧一致的视频编辑。他们还使用CSD-Edit生成和编辑3D场景,促进了各种视点的统一性。

Leave a Comment

认识 Chapyter:一款新的 Jupyter 扩展,让 ChatGPT 在编写 Python 笔记本时帮助你

Chapyter由一群语言模型师开发,是一个新的Jupyter插件,可以集成ChatGPT,让用户创建Python笔记本。该系统还可以读取先前执行的单元格的结果。 Chapyter是JupyterLab的一个附加组件,可以无缝地将GPT-4集成到开发环境中。它有一个解释器,可以将自然语言编写的描述转换为可以自动执行的Python代码。Chapyter可以提高生产力,通过在首选的IDE中启用“自然语言编程”,让用户尝试新事物。 主要特点 从自然语言自动生成代码并执行。 基于过去的代码和之前执行的结果生成新代码。 实时代码纠正和错误修复。 自定义选项和完全可见的AI设置提示。 在使用尖端AI技术时注重隐私。 该库的提示和设置是公开的,研究人员正在努力简化这些问题和设置的自定义。Chapyter/programs.py是可以查看这些内容的位置。 请查看他们的API数据使用政策,以了解OpenAI如何处理训练数据。相比之下,每当使用Copilot或ChatGPT时,部分数据将被缓存并用于这些服务的训练和分析。Chapyter由两个主要部分组成:使用ipython魔法命令管理提示和使用该命令调用GPT-X模型。监视Chapyter单元格执行的用户界面将运行新创建的单元格并自动更新单元格样式。 许多程序员更喜欢以“碎片化”的方式在笔记本中工作,一次只写几行代码,然后转到下一个单元格。每个单元格的任务或目的相对较小,与相邻单元格的任务相互独立。后续工作可能与之前的工作没有太多共同之处。例如,在创建神经网络时添加数据集加载器需要不同的思考和编写代码的方式。不断在任务之间切换不仅效率低下,而且可能会令人精疲力尽。当用户想要键入“请以某种方式加载数据集以测试神经网络”时,可以使用该命令,让机器完成剩下的工作。 Chapyter的单元格级代码开发和自动执行可以解决这个问题。当用户创建一个新的单元格时,Chapyter会自动调用GPT-X模型根据他们编写的文本构建代码并运行。与像Copilot这样专注于支持仅涉及几行代码但与正在进行的工作高度相关的微任务(如完成函数调用)的系统不同,Chapyter旨在接管整个任务,其中一些可能与现有代码不同。 Chapyter是一个轻量级的Python工具,在本地安装后可以与JupyterLab完美集成。默认情况下,OpenAI API设置为在调用GPT-X模型后丢弃交互数据和代码。该库包含所有标准提示、“程序”和加载个性化提示的选项。通过分析以前的编码决策和运行时数据,Chapyter可以提供智能建议。如果需要,可以加载文件,并提供额外处理和分析的建议。 鉴于当今AI的局限性,Chapyter的生成代码易于调试和改进。 安装过程分为三个简单的步骤,可以在GitHub的https://github.com/chapyter/chapyter上找到更多信息。 不久之后,研究人员将发布对Chapyter的重大改进,使其在代码生成和执行方面更加灵活和安全。他们迫不及待地想要在一些最苛刻和复杂的实际编码任务上测试它,比如确保一个有300个单元格执行的Jupyter笔记本有所有所需的帮助。请尝试我们的工具,敬请期待进一步的改进,我们重视您的想法和意见。

Leave a Comment

‘ChatGPT的发布是否影响了开放数据的产出?研究人员调查了LLM的流行如何导致StackOverflow上的内容大幅减少’

大型语言模型(LLMs)在每次更新和发布新版本时都越来越受欢迎。像BERT、GPT和PaLM这样的LLMs在自然语言处理和自然语言理解领域展示了巨大的能力。由OpenAI开发的著名聊天机器人ChatGPT基于GPT 3.5和GPT 4的变压器架构,并被超过一百万用户使用。由于它具有模仿人类特性,它引起了从研究人员和开发人员到学生的所有人的注意。它可以高效地生成独特的内容,像人类一样回答问题,总结长篇文字段落,完成代码示例,翻译语言等等。 ChatGPT已经证明在各种主题上向用户提供信息非常出色,使它们成为传统网页搜索和在线寻求他人帮助的潜在替代品。但是也存在一种限制,即如果用户继续私下与大规模语言模型进行互动,公开可访问的人类生成数据和知识资源的数量可能会大幅减少。这种开放数据的减少可能会使未来模型的训练数据变得困难,因为可能会有较少的免费可用信息。 为了进一步研究这个问题,一组研究人员对Stack Overflow上的活动进行了调查,以确定ChatGPT的发布如何影响开放数据的产生。Stack Overflow是一个著名的面向计算机程序员的问答网站,它是一个很好的案例研究,可以研究当存在多个语言模型时用户行为和贡献。该团队对如何随着ChatGPT等LLMs的普及而导致类似StackOverflow等网站上的内容大幅减少进行了深入研究。 经过评估,该团队得出了一些有趣的结论。与ChatGPT访问受限的中国和俄罗斯竞争对手以及类似的数学论坛相比,Stack Overflow的活动明显减少。团队预测,在OpenAI的ChatGPT发布后,Stack Overflow每周帖子数量将下降16%。同时,ChatGPT对减少Stack Overflow活动的影响随着时间的推移而增加,这表明随着用户对该模型的特性越来越熟悉,他们开始越来越多地依赖它获取信息,进一步限制了对该网站的贡献。 该团队得出了三个关键发现,具体如下。 减少的发布活动:ChatGPT发布后,Stack Overflow的帖子数量,即问题和答案的数量,减少了。使用差异法计算了活动减少并与其他四个问答平台进行了比较。ChatGPT发布后的六个月内,Stack Overflow的帖子活动量最初下降了约16%,然后增长到约25%。 帖子投票数没有改变 – 自ChatGPT发布以来,Stack Overflow上的帖子收到的投票数(包括赞成和反对)没有显着变化,尽管帖子活动有所下降,这表明ChatGPT不仅替代了低质量的帖子,还替代了高质量的文章。 对不同编程语言的影响:ChatGPT对Stack Overflow上讨论的各种编程语言产生了不同的影响。与全球网站平均水平相比,一些语言(如Python和JavaScript)的帖子活动减少得更为明显。帖子活动的相对下降也受到GitHub上编程语言的普及程度的影响。 作者总结了广泛使用LLMs和随之而来的远离Stack Overflow等网站可能会限制用户和未来模型从中学习的开放数据的数量的影响,并且尽管在解决某些编程问题方面可能会提高效率,但对于互联网上的知识的可访问性和共享以及AI生态系统的长期可持续性都会产生影响。

Leave a Comment

航行在数据的海洋中:初创公司绘制自主海洋监测图谱

Saildrone正在自主监测海洋中取得突破性进展。 这家初创公司的航海数据采集技术曾近距离追踪北大西洋的飓风,发现了太平洋中的一个3200英尺的水下山脉,并开始帮助绘制全球海洋底部的地图。 该公司总部位于旧金山湾区,开发了搭载各种传感器的自主无人船(USV)。其数据流经NVIDIA Jetson模块进行边缘AI处理,并在NVIDIA DeepStream软件开发工具包的原型中进行优化,用于智能视频分析。 Saildrone致力于使海洋情报收集成本效益高,为科学、渔业、天气预报、海洋绘图和海上安全提供数据收集系统。 它拥有三种不同的USV,并使用Mission Portal控制中心服务来监视定制任务并实时可视化数据。此外,Saildrone的一些历史数据可供公众免费使用。 “我们曾驶入三次大型飓风,甚至穿越了“飓风山姆”的风眼,所有的船只都安然度过——它们是非常坚固的平台,” Saildrone软件工程副总裁布莱思·托瓦尔(Blythe Towal)说道,她指的是2021年威胁百慕大的一次强热带气旋。 成立于2012年的Saildrone已获得1.9亿美元的资金支持。该初创公司是NVIDIA Inception计划的成员,该计划为公司提供技术支持和人工智能平台指导。 保持AI在地球水域中的活动 Saildrone在无人船的数据收集任务在海洋和湖泊的环境研究中引起了广泛关注。 夏威夷大学马诺阿分校已经借助三艘23英尺的Saildrone Explorer USV来研究海洋酸化对气候变化的影响。这个为期六个月的任务将围绕夏威夷、毛伊岛、瓦胡岛和考艾岛进行,用于评估该州周围海洋的健康状况。 海洋酸化是指pH值的降低,其影响因素包括化石燃料的燃烧和农业。这些因素可能对珊瑚、牡蛎、蛤蜊、海胆和钙质浮游生物等造成影响,威胁到海洋生态系统。 Saildrone最近与Seabed 2030合作,共同绘制全球海洋的完整地图。Seabed 2030是日本基金会和大洋一般海图局(GEBCO)之间的合作项目,旨在到2030年绘制全球海洋地形图。 “Saildrone的愿景是一个健康的海洋和一个可持续的星球,” Saildrone创始人兼首席执行官理查德·詹金斯(Richard Jenkins)说道。“完整的海洋底部地图对实现这一愿景至关重要。”…

Leave a Comment

人工智能在云迁移中的前景

在迅速发展的商业技术领域中,人工智能和云迁移已经成为颠覆和新可能性的同义词更令人印象深刻的是,越来越明显地,它们可以同时利用,以实现令人印象深刻的结果为此,让我们来看看人工智能如何革新云迁移的各个方面,… 人工智能在云迁移中的前景 阅读更多 »

Leave a Comment

这篇AI论文展示了当ChatGPT被赋予一个角色时,其毒性可以增加高达六倍

随着最近技术的进步,像GPT-3和PaLM这样的大型语言模型在教育、内容创作、医疗保健、研究等领域展现出了非凡的生成能力。例如,这些大型语言模型对于作家来说尤其有用,可以帮助他们提升写作风格,对于初学者开发者来说,可以帮助他们生成样板代码等。此外,结合多个第三方API的可用性,大型语言模型在学生和医疗系统等多个面向消费者的系统中的广泛应用只增加了。然而,在这种情况下,系统的安全性成为一个基本问题,因为人们信任这些系统来处理敏感的个人信息。这就需要更清楚地了解大型语言模型的不同能力和限制。 然而,大多数以前的研究都集中在通过采用更先进和复杂的架构使大型语言模型更强大。尽管这项研究在很大程度上超越了自然语言处理社区,但也导致了对这些系统安全性的忽视。在这方面,普林斯顿大学和佐治亚理工学院的博士后学生与艾伦人工智能研究所(A2I)的研究人员合作,对OpenAI的革命性AI聊天机器人ChatGPT进行了毒性分析。研究人员评估了ChatGPT的超过50万次生成过程中的毒性,并发现当ChatGPT的系统参数设置为分配一个人物角色时,其毒性在各种话题上增加了数倍。例如,当ChatGPT的人物角色设置为拳击手“穆罕默德·阿里”时,其毒性几乎比默认设置增加了3倍。这特别令人担忧,因为ChatGPT目前被用作构建其他几种技术的基础,这些技术在进行系统级修改后可能会生成相同水平的毒性。因此,A2I研究人员和大学生所做的工作侧重于在分配不同角色时,对ChatGPT生成的毒性有更深入的了解。 ChatGPT API提供了一种功能,允许用户通过设置其系统参数来分配一个人物角色,从而通过影响ChatGPT的对话方式来设定对话的基调。对于他们的用例,研究人员精心挑选了来自不同背景和国家的90个人物角色,如企业家、政治家、记者等。这些人物角色被分配给ChatGPT,以分析其对大约128个关键实体(如性别、宗教、职业等)的回应。团队还要求ChatGPT继续完成关于这些实体的某些不完整的短语,以收集更多见解。最终的研究结果显示,给ChatGPT分配一个人物角色可能会使其毒性增加多达六倍,ChatGPT经常产生严厉的输出,并沉溺于负面刻板印象和信念。 团队的研究发现,ChatGPT输出的毒性根据所给予的人物角色而有显著差异,研究人员认为这是因为ChatGPT根据其训练数据对人物的理解。例如,一个发现表明,记者的毒性是商人的两倍,即使在实践中可能并非如此。研究还显示,特定的人群和实体比其他人更频繁地成为目标(几乎是三倍),这显示了该模型固有的歧视行为。例如,毒性根据人的性别而有所不同,比基于种族的毒性大约高出50%。这种波动趋势可能对用户造成损害,并对相关个体进行贬低。此外,恶意用户可以在ChatGPT上构建技术,生成可能伤害无辜观众的内容。 这项研究对ChatGPT的毒性进行的分析主要揭示了三个问题:当分配人物角色时,模型的毒性可以显著增加(比默认设置高出多达六倍);模型的毒性根据人物角色的身份而有很大差异,ChatGPT对人物角色的观点起着重要作用;ChatGPT可以通过对特定实体进行更具毒性的内容创作来歧视性地针对特定实体。研究人员还指出,尽管ChatGPT是他们实验中使用的大型语言模型,但他们的方法可以扩展到任何其他大型语言模型。团队希望他们的工作能激励人工智能社区开发出提供道德、安全和可靠的人工智能系统的技术。

Leave a Comment

认识DreamTeacher:一种利用生成网络为下游图像骨干预训练的自监督特征表示学习AI框架

自监督表示学习是发展视觉基础技能的成功方法。这一研究方向的基础是利用大型未标记数据集作为补充的训练数据源,以提高下游网络性能并减少对大型标记目标数据集的需求。最近的研究表明,自监督在ImageNet上的预训练现在可以与或超过在多个下游数据集和任务上的有监督预训练,包括像素级语义和实例分割。 对比学习的变种是最受欢迎的自监督表示学习方法之一,其中目标骨干网络被训练为将图像的修改视图在潜在空间中映射得比从数据集中随机选择的图片更接近。这种范式可以通过添加空间损失并使用更少或没有负实例来改进。另一个研究领域专注于重建损失进行监督,或者称为遮蔽图模型(MIM),其中涉及对输入图像的某些区域进行遮蔽,并训练骨干网络重建这些部分。这项工作通常被认为是确定性的,这意味着它忽略了隐藏区域的多种可能性。 通常,这个研究领域探讨了架构设计、训练方法和遮蔽策略,以训练更好的骨干网络。当与基于Vision Transformer的骨干网络一起使用时,这些技术已经达到了最先进的性能;然而,最近还展示了稀疏CNN-based图像骨干的同样有效性。在这项研究中,作者提出了一种以生成模型作为表示学习器的方法,他们认为这个目标的简单性——生成数据——和直观的表征能力——生成高质量的样本——都表明学习到了语义上足够准确的内部表示。 使用生成网络作为表示学习器的想法并不陌生。在DatasetGAN及其派生工作中,建议使用StyleGAN或扩散模型的特征来补充与任务相关的头部,然后使用这些增强网络作为标记数据的源来训练后续网络。SemanticGAN则使用了带有额外任务解码器的StyleGAN作为任务网络本身,通过将图片编码成生成模型的潜在空间,并使用任务头部创建感知输出。在这项研究中,来自NVIDIA、多伦多大学、Vector研究所和麻省理工学院的研究人员引入了DreamTeacher,这是一个使用生成模型预训练基于蒸馏的下游感知模型的表示学习框架。 他们研究了两种不同的蒸馏过程:1)作为一种通用的无标签预训练过程,他们提供了特征蒸馏的技术,即将生成的特征降低到目标骨干。2)标签蒸馏:在半监督环境中,使用生成网络上的任务头将标记数据集中的知识蒸馏到目标骨干上。他们的工作选择了扩散模型和GAN作为生成模型。 他们集中研究了CNN作为目标骨干的原因有两个主要原因:1)已经证明基于CNN的骨干可以进行对比和MIM技术的最先进表示学习;2)最先进的生成模型(如GAN和扩散模型)仍然严重依赖CNN。他们还在早期试验中调查了Vision Transformer的骨干,但发现很难将基于CNN的生成模型的特征提取到Vision Transformer中。由于使用Vision Transformer架构创建的生成模型仍处于初级阶段,因此仍需要进一步研究使用这些设计的DreamTeacher。 他们通过实验证明,DreamTeacher在许多基准测试和条件下优于当前可用的自监督学习系统。当在没有任何标签的ImageNet上进行预训练时,他们的方法在包括ADE20K的语义分割、MSCOCO上的实例分割和自动驾驶数据集BDD100K上的任务上明显优于在ImageNet上进行完全监督的预训练方法。当仅在目标领域上进行训练时,他们的技术明显优于在带有标签监督的ImageNet上进行预训练的变种。它在数百万张无标签图片的以对象为重点的数据集上达到了新的最先进性能。这些发现证明了生成模型的潜力,特别是基于扩散的生成模型,作为能够高效利用各种无标签信息的表示学习器。

Leave a Comment

“见面吧,RoboPianist:一个用模拟机器人手进行高维控制的钢琴技艺基准测试套件”

在控制和增强学习领域中,测量过程非常具有挑战性。一个特别不足的领域是关注高维控制的鲁棒基准,特别是高维机器人技术的“挑战问题”:掌握双手多指控制。与此同时,控制和增强学习方面的一些基准努力已经开始聚合和探索不同的深度方面。尽管对模仿人手的灵巧性进行了数十年的研究,但机器人中的高维控制仍然是一个主要难题。 加州大学伯克利分校、谷歌、DeepMind、斯坦福大学和西蒙弗雷泽大学的一组研究人员提出了一个名为ROBOPIANIST的高维控制基准套件。在他们的工作中,双手模拟的人形机器人手被要求根据音乐谱面演奏各种歌曲,这些歌曲以音乐器件数字接口(MIDI)转录为条件。机器人手总共有44个执行器,每只手有22个执行器,类似于人手的轻度欠驱动。 演奏一首好歌需要能够以展示高维控制策略的许多特质的方式对动作进行排序。这些特质包括: 空间和时间的精确性。 两只手和十个手指的协调。 关键按键的战略计划,以使其他按键更容易。 原始ROBOPIANIST-repertoire-150基准包括150首歌曲,每首歌曲都是独立的虚拟作品。研究人员通过模型自由(RL)和模型基于(MPC)方法的全面实验来研究无模型和模型方法的性能范围。结果表明,尽管还有很大的改进空间,但提出的策略可以产生出色的表现。 策略学习一首歌曲的能力可以用来按难度对歌曲(即任务)进行排序。研究人员认为,根据这种标准对任务进行分组的能力可以鼓励在与机器人学习相关的各个领域进一步研究,例如课程和迁移学习。RoboPianist为各种学习方法提供了有趣的机会,例如模仿学习、多任务学习、零样本泛化和多模态(声音、视觉和触觉)学习。总的来说,ROBOPIANIST提供了一个简单的目标,一个易于复制的环境,清晰的评估标准,并且在未来有各种扩展潜力。

Leave a Comment

这篇AI论文提出了COLT5:一种新的模型,用于处理长距离输入,采用条件计算以提高质量和速度

机器学习模型需要对长篇文本进行编码,以用于各种自然语言处理任务,包括总结或回答关于长篇文档的问题。由于注意力成本随输入长度的增加呈二次增长,并且必须对每个输入标记应用前馈和投影层,使用Transformer模型处理长文本在计算上是昂贵的。近年来出现了几种“高效Transformer”策略,降低了对长输入的注意机制的开销。然而,前馈和投影层,尤其是对于更大的模型,承载着大部分的计算负载,并且可能使分析长输入变得不可能。本研究介绍了COLT5,这是一种新的模型系列,通过同时改进注意力和前馈层的架构,构建在LONGT5的基础上,实现对长输入的快速处理。 COLT5的基础是某些标记比其他标记更重要,并且通过为重要标记分配更多的计算资源,可以以较低的成本获得更高的质量。例如,COLT5将每个前馈层和每个注意力层分为轻量级分支和重量级分支,轻量级分支应用于所有标记,重量级分支用于选择特定输入和组件的重要标记。与常规的LONGT5相比,轻量级前馈分支的隐藏维度小于重量级前馈分支的隐藏维度。此外,随着文档长度的增加,重要标记的百分比会减少,从而实现对长文本的可管理处理。 图1:有条件计算的COLT5 Transformer层概述。 图1显示了COLT5条件机制的概述。由于COLT5的存在,LONGT5架构经历了两个进一步的变化。重量级注意力分支在一组精心选择的重要标记上执行完全的注意力,而轻量级注意力分支具有较少的头部并应用局部注意力。COLT5引入的多查询交叉注意力大大加速了推理。此外,COLT5使用UL2预训练目标,他们表明这可以实现对长输入的上下文学习。 来自Google Research的研究人员建议COLT5,这是一种用于处理远程输入的新型模型,利用有条件的计算来获得更好的性能和更快的处理速度。他们证明COLT5在arXiv摘要和TriviaQA问答数据集上优于LONGT5,在SCROLLS基准测试上达到了SOTA水平。COLT5针对“关注”标记的缩放不是线性的,大大提高了长输入任务的质量和性能。COLT5在相同或更好的模型质量下,进行微调和推理速度明显更快。COLT5中的轻量级前馈和注意力层适用于所有输入,而重量级分支只影响由学习路由器选择的一部分重要标记。他们证明COLT5在各种长输入数据集上优于LONGT5,并且能够成功高效地处理长达64k个标记的输入。

Leave a Comment