Press "Enter" to skip to content

四海吧 Posts

卡尔斯鲁厄理工学院(KIT)的研究人员利用深度学习提高了降水映射的空间和时间分辨率

由于气候变化,极端天气,特别是暴雨事件预计会更频繁。许多自然灾害,如洪水或山体滑坡,直接由极端降水引起。基于气候预测的模型经常被使用。现有的气候模型必须提高准确代表高度变化的大气现象的能力。研究人员预计,不断增长的平均温度将导致极端降水事件进一步增加。 卡尔斯鲁厄理工学院(KIT)的研究人员利用人工智能(AI)的力量来提高全球气候模型生成的粗糙降水图的精确性。 研究人员强调,该模型将降水场的时间分辨率从一小时缩短到十分钟,并将空间分辨率从32提高到两千米。他们表示,更高的分辨率对于预测未来发生的局部暴雨事件和随之而来的自然灾害至关重要。 该方法涉及应用生成式神经网络,具体而言就是生成对抗网络(GAN),这是一种AI形式。这个GAN使用高分辨率雷达降水数据进行训练,使其能够以显著更高的空间和时间分辨率学习和模仿逼真的降水场。 现有的全球气候模型使用的网格缺乏捕捉降水变异性所需的细节。而且,传统上生成高分辨率的降水图需要计算上昂贵的模型,导致了空间或时间上的限制。 根据研究人员的说法,这就是开发基于高分辨率雷达降水场进行训练的GAN的原因。通过这种方式,GAN从粗略解决的数据中学习如何生成逼真的降水场并确定其时间序列。 与三线性插值和经典卷积神经网络相比,生成模型以高技巧重建分辨率相关的极值分布。在15 mm h−1降雨强度上表现出0.6的高分数技巧得分和3.35%的低相对偏差。 根据研究人员的解释,他们的方法产生了多种可能的降水场解集合。这一点很重要,因为对于每个粗糙解决的降水场,存在许多在物理上可能的高分辨率解。 他们解释说,使用这种方法模拟的降水事件更高的分辨率将有助于更好地估计2021年阿尔河洪水天气条件在2度更温暖的世界中所造成的影响。 总之,该模型提供了一种增强全球气候模型预测降水精度的解决方案。这一进展有助于更准确的气候预测。它有潜力在变化的气候下更好地理解和应对极端天气事件的后果。

Leave a Comment

OpenAI的迷你AI指令的巨人:解析超对齐!

在解决超人工智能(AI)即将面临的挑战方面迈出了重要的一步,OpenAI推出了一项新的研究方向——弱到强的泛化。这一创新性的方法旨在探索较小的AI模型是否能够有效地监督和控制更大、更复杂的模型,这在他们最近的研究论文《从弱到强的泛化》中有所描述。 超对齐问题 随着人工智能的迅速发展,未来十年内开发超级智能系统的前景引起了重要关切。OpenAI的超对齐团队认识到需要解决将超人工智能与人类价值对齐的挑战的紧迫性,这一点在他们全面的研究论文中有所讨论。 目前的对齐方法 现有的对齐方法,如强化学习反馈(RLHF),严重依赖于人类监督。然而,随着超人工智能模型的出现,“弱监督者”人类的不足变得更加明显。AI系统产生大量新颖而复杂的代码的潜力对传统的对齐方法构成了重大挑战,这在OpenAI的研究中得到了强调。 实证设置 OpenAI提出了一个有说服力的比喻来解决对齐挑战:一个较小、能力较弱的模型是否能够有效地监督一个较大、能力更强的模型?这个目标是要确定一种强大的AI模型是否可以根据弱监督者的意图进行泛化,即使面对不完整或有缺陷的训练标签,这个目标在他们最近的研究论文中有详细描述。 令人印象深刻的结果和局限性 OpenAI在他们的研究论文中概述了实验结果,展示了泛化方面的显著改进。通过使用一种鼓励较大模型更加自信、在必要时与弱监督者存在分歧的方法,OpenAI使用一个GPT-2级模型实现了接近GPT-3.5的性能水平。尽管这只是一个概念验证,但这种方法展示了弱到强的泛化的潜力,这在他们的研究结果中被详细讨论。 我们的观点 OpenAI的这一创新方向为机器学习研究社区打开了解决对齐挑战的大门。尽管所提出的方法存在局限性,但它标志着在将超人工智能系统对齐方面取得实证进展的关键一步,这一点在OpenAI的研究论文中得到了强调。OpenAI致力于开源代码并提供进一步研究的资助,强调了解决对齐问题的紧迫性和重要性,而人工智能的发展不断推进。 解码AI对齐的未来是研究人员为确保先进的人工智能技术安全发展做出贡献的令人兴奋的机会,正如OpenAI在他们最近的研究论文中所探讨的。他们的方法鼓励合作和探索,促进了团体努力,以确保高级AI技术在我们社会中的负责任和有益整合。

Leave a Comment

微软人工智能团队推出Phi-2:一个具有杰出推理和语言理解能力的2.7B参数小语言模型

语言模型的发展一直以来都是在大模型能够拥有更高性能的前提下进行的。然而,打破这一既定信念,微软研究院的机器学习基础团队的研究人员推出了参数为27亿的全新语言模型Phi-2,这一模型正颠覆着长期主导这一领域的传统扩展规则,挑战了“模型大小决定语言处理能力”的普遍观念。 这项研究打破了关于超卓性能必须依赖更大模型的普遍假设。研究人员将Phi-2引入视为范式转变,超越常规。文章揭示了Phi-2的独特特点以及其开发中采用的创新方法。Phi-2摒弃常规方法,依赖精心策划的高质量训练数据,并利用较小模型的知识传递,对语言模型扩展的既定规则构成了巨大挑战。 Phi-2方法的核心在于两项关键性发现。首先,研究人员强调了训练数据质量的重要作用,使用“教科书级”数据精心设计,使模型获得推理、知识和常识的能力。其次,采用创新技术实现了模型洞察力的高效扩展,从13亿参数的Phi-1.5开始。文章深入探讨了Phi-2的架构,这是一个基于Transformer的模型,以下一个单词预测为目标,在合成和网络数据集上进行训练。令人惊讶的是,尽管规模较小,Phi-2在各种基准测试中超越了更大的模型,突显了其高效性和出色能力。 总之,来自微软研究院的研究人员将Phi-2推崇为语言模型发展中的一股变革力量。这一模型不仅挑战了,而且成功推翻了业界对模型能力与大小本质相关的长期信念。这种范式转变鼓励了新的视角和研究方向,强调了不完全遵循常规扩展规则时所能实现的高效性。Phi-2独特的高质量训练数据和创新的扩展技术,标志着自然语言处理迈向前沿,并为未来带来了新的可能性和更安全的语言模型。 本文首发于Microsoft AI团队推出Phi-2:一个参数为27亿的小型语言模型,展示出卓越的推理和语言理解能力,转载请注明出处。

Leave a Comment

如何使用开源工具像专业人士一样克隆声音和视频口型同步

介绍 AI语音克隆风靡社交媒体。它开启了创造性的无限可能。你肯定在社交媒体上看过名人梗或AI语音配音。你想知道它是如何完成的吗?当然,许多平台提供像Eleven Labs这样的API,但我们能否免费使用开源软件来实现呢?答案是肯定的。开源界有TTS模型和嘴唇同步工具,用于实现语音合成。因此,在本文中,我们将探索用于语音克隆和嘴唇同步的开源工具和模型。 学习目标 探索用于AI语音克隆和嘴唇同步的开源工具。 使用FFmpeg和Whisper转录视频。 使用Coqui-AI的xTTS模型进行语音克隆。 使用Wav2Lip进行视频嘴唇同步。 探索该技术的实际用例。 本文作为 数据科学博客马拉松 中的一部分发表。 开源栈 正如你已经了解的,我们将使用OpenAI的 Whisper,FFmpeg,Coqui-ai的xTTS模型和Wav2lip作为我们的技术栈。但在深入代码之前,让我们简要讨论一下这些工具。同时感谢这些项目的作者。 Whisper:Whisper是OpenAI的自动语音识别(ASR)模型。它是一个使用超过650k小时的各种音频数据和相应转录进行训练的编码器-解码器变压器模型。这使其在多语言转录方面非常强大。 编码器接收音频段的对数梅尔频谱图,每个编码器块使用自注意力机制来理解音频信号的不同部分。解码器然后接收编码器的隐藏状态信息和学习的位置编码。解码器使用自注意力机制和跨注意力机制预测下一个标记。最终,它输出代表识别文本的一系列标记。有关Whisper的更多信息,请参考官方存储库。 Coqui TTS:TTS是Coqui-ai的开源库。它包含多个文本到语音模型。它具有端到端模型,如Bark、Tortoise和xTTS,频谱图模型如Glow-TTS、FastSpeech等,以及声码器如Hifi-GAN、MelGAN等。此外,它提供了一个统一的API用于推断、微调和训练文本到语音模型。在这个项目中,我们将使用xTTS,一个端到端的多语言语音克隆模型。它支持16种语言,包括英语、日语、印地语、普通话等。有关TTS的更多信息,请参考官方TTS存储库。 Wav2Lip:Wav2Lip是一个用于“A Lip Sync Expert Is All You Need for…

Leave a Comment

Spotify的秘密武器:AI生成的播放列表

揭開AI播放清單功能的面紗 今秋,敏銳的用戶發現了Spotify流媒體應用程序上的一個新功能,允許通過提示創建AI驅動的播放清單。雖然Spotify向TechCrunch確認了此測試,但有關該技術及其運作方式的詳細信息仍未公開,讓用戶感到好奇。這一功能是通過用戶@robdad_在TikTok視頻中展示出來的,他意外發現了他稱之為“Spotify的ChatGPT”的東西。 導航AI播放清單界面 從Spotify應用程序的“您的音樂庫”選項卡中可以輕鬆訪問AI播放清單功能。用戶可以通過點擊屏幕右上角的加號(+)按鈕啟動播放清單創建過程。彈出菜單出現,除了現有的“播放清單”和“合併”選項外,還提供了AI播放清單選項。在選擇後,用戶將遇到一個屏幕,可以在AI聊天機器人風格的框中輸入提示,或從提供的提示列表中選擇,例如“用器樂電子音樂集中注意力工作”或“探索像女巫之屋這樣的小眾音樂類型”。 AI播放清單生成的幕後 @robdad_分享的屏幕截圖展示了提示選擇過程,顯示選項包括“用背景咖啡館音樂填充沉默”或“用有趣、快樂和積極的歌曲來提振士氣”。AI聊天機器人然後回答“正在處理您的請求…”並呈現一個範例播放清單。用戶可以通過向左滑動進一步完善播放列表,刪除不想包含的任何歌曲。 Spotify的AI探索繼續 這不是Spotify首次嘗試AI驅動的功能。今年早些時候,這家流媒體巨頭推出了一個AI驅動的DJ,以推薦歌曲和俏皮的評論顛覆了音樂聆聽體驗。產品設計師Chris Messina最近發現的代碼暗示AI在播放清單創建方面具有更廣泛的應用,可能還涉及Spotify Blend。然而,Spotify對具體細節保持緘默,稱“在Spotify,我們不斷改進和構思我們的產品,為用戶提供價值。” 我們的說法 Spotify對AI生成的播放清單的實驗反映出該公司致力於在音樂流媒體領域的技術創新前沿。儘管詳細信息有限,但通過AI提示的用戶自主創建個性化播放清單的前景為Spotify體驗增添了激動人心的維度。隨著Spotify在AI方面不斷突破界限,這一功能如何發展和融入該平台的更廣泛生態系統將是一個有趣的觀察。 由於AI播放清單功能的持續測試,Spotify用戶可以預期在播放清單創建方面出現一個可能改變遊戲規則的功能。隨著技術的不斷發展,我們與喜愛的音樂互動的方式也在不斷變化,而Spotify似乎決心引領這個以AI為驅動的未來。

Leave a Comment

CMU研究人员揭示了RoboTool:一种能够接受自然语言指令并输出可用于控制模拟和真实环境中机器人的可执行代码的AI系统

来自卡内基梅隆大学和Google DeepMind的研究人员合作开发了RoboTool,这是一个利用大型语言模型(LLM)的系统,赋予机器人在涉及隐性物理约束和长期规划的任务中创造性地使用工具的能力。该系统包括四个关键组成部分: 用于解释自然语言的分析器 用于生成策略的规划器 用于计算参数的计算器 用于将计划转化为可执行的Python代码的编码器 使用GPT-4,RoboTool旨在为复杂的机器人任务提供比传统的任务与动作规划方法更灵活、高效和用户友好的解决方案。 该研究解决了机器人创造性使用工具的挑战,类似于动物在使用工具方面展示智能的方式。它强调机器人不仅要为其预定目的使用工具,还要以创造性和非常规的方式使用工具,以提供灵活的解决方案。传统的任务与动作规划(TAMP)方法需要在处理具有隐性约束的任务时进行修订,并且往往计算代价高昂。大型语言模型(LLM)在编码有益于机器人任务的知识方面显示出潜力。 该研究引入了一个用于评估创造性工具使用能力的基准,包括工具选择、顺序工具使用和制造。所提出的RoboTool在模拟和真实环境中进行评估,展示了在没有创造性工具使用的情况下将会具有挑战性的任务处理能力。该系统的成功率超过了基准方法,展示了其在解决具有隐性约束的复杂、长期规划任务方面的效果。 通过计算3种类型的错误进行评估: 工具使用错误,指示是否使用了正确的工具 逻辑错误,关注规划错误,如按错误的顺序使用工具或忽略提供的约束 数值错误,包括计算错误的目标位置或添加错误的偏移量 没有分析器的RoboTool显示出使用分析器的工具使用错误较大,没有计算器的RoboTool在与RoboTool相比的情况下有较大的数值错误,展示了它们在模型中的作用。 该研究展示了RoboTool在各种任务中的成就,例如在沙发之间穿越间隙、到达放置在机器人工作区域外的物体以及创造性地使用工具超出其传统功能。该系统利用LLMs对对象属性和人类常识的知识来识别关键概念和推理三维物理世界。在与机械臂和四足机器人的实验中,RoboTool展示了创造性的工具使用行为,包括即兴创作、顺序工具使用和工具制造。尽管在模拟中实现了与或超过基准方法相当的成功率,但其在真实环境中的表现受到感知错误和执行错误的轻微影响。 总之,由LLMs驱动的RoboTool是一个具有创造性的机器人工具用户,能够解决长期规划问题并具有隐性物理约束。该系统能够识别关键概念、生成创造性计划、计算参数和生成可执行代码,有助于其在处理需要创造性工具使用的复杂机器人任务方面取得成功。

Leave a Comment

CMU和马克斯普朗克研究所的研究人员揭示了WHAM:一种突破性的人工智能方法,可以从视频中精确高效地估计3D人体动作

三维人体动作重建是一个复杂的过程,涉及准确捕捉和建模人体主体在三维空间中的动作。当处理由移动相机在现实世界环境中捕获的视频时,这项工作变得更加具有挑战性,因为它们经常出现脚滑等问题。然而,来自卡内基梅隆大学和马克斯普朗克智能系统研究所的研究人员开发了一种名为WHAM(基于世界的具有准确运动的人体)的方法来解决这些挑战,并实现精确的三维人体动作重建。 该研究审查了从图像中恢复三维人体姿态和形状的两种方法:无模型和基于模型。它强调了在模型化方法中使用深度学习技术来估计统计身体模型参数的重要性。现有基于视频的三维人体姿态估计方法通过各种神经网络架构引入时间信息。某些方法使用附加传感器(如惯性传感器),但它们可能会对使用者造成干扰。WHAM通过有效地结合三维人体运动和视频上下文、利用先验知识并在全局坐标中准确重建三维人体活动而脱颖而出。 该研究解决了从单目视频准确估计三维人体姿态和形状的挑战,强调全局坐标一致性、计算效率和真实脚地接触。利用AMASS动作捕捉和视频数据集,WHAM结合运动编码器-解码器网络将2D关键点提升到3D姿态,利用特征集成器处理时间线索,并利用考虑脚接触的全局运动估计的轨迹细化网络,提高在非平面表面上的准确性。 WHAM采用单向RNN进行在线推理和精确的三维动作重建,其中运动编码器用于上下文提取,运动解码器用于SMPL参数、相机平移和脚接触概率。利用包围盒标准化技术有助于提取运动上下文。图像编码器在预训练的人类网格恢复时捕捉和整合图像特征与运动特征。轨迹解码器预测全局方向,细化过程减小脚滑动。在合成的AMASS数据上进行训练,WHAM在评估中优于现有方法。 https://arxiv.org/abs/2312.07531 WHAM超越了当前最先进的方法,展现出在单帧和基于视频的三维人体姿态和形状估计方面的卓越准确性。WHAM通过利用运动上下文和脚接触信息实现精确的全局轨迹估计,减小脚滑动,增强国际协调性。该方法通过整合2D关键点和像素特征,提高了三维人体运动重建的准确性。对野外基准数据集的评估证明了WHAM在MPJPE、PA-MPJPE和PVE等指标上的卓越表现。轨迹细化技术进一步提升了全局轨迹估计的精度,减小了脚滑动,通过改进的错误指标得到了证明。 总之,该研究的要点可以总结为: WHAM引入了一种结合三维人体运动和视频上下文的先导性方法。 该技术提升了三维人体姿态和形状回归。 该过程使用了全局轨迹估计框架,包括运动上下文和脚接触。 该方法解决了脚滑动问题,确保在非平面表面上的准确三维跟踪。 WHAM的方法在多个基准数据集上表现出色,包括3DPW、RICH和EMDB。 该方法在全局坐标中优秀地完成了高效的人体姿态和形状估计。 该方法的特征集成和轨迹细化显著提高了运动和全局轨迹的准确性。 该方法的准确性通过深入的消融研究得到了验证。

Leave a Comment

提高在Amazon SageMaker Studio上的生产力:介绍JupyterLab Spaces和生成AI工具

亚马逊SageMaker Studio为机器学习开发提供了一系列完全托管的集成开发环境(IDE),包括JupyterLab、基于Code-OSS(Visual Studio Code开源版)的代码编辑器和RStudio它为每个ML开发步骤提供了最全面的工具集,从数据准备到建立、训练[…]

Leave a Comment

使用LangChain表达语言和LLM的验证实现链 (shǐyòng LangChain biǎodá yǔyán hé LLM de yànzhèng shíxiàn liàn)

介绍 在人工智能(AI)领域中,对精准度和可靠性的不断追求带来了突破性的创新。这些策略对于引领生成模型提供相关答案至关重要。生成AI在不同复杂应用中的使用的最大障碍之一就是幻觉。Meta AI研究发布的最新论文《链式验证减少大型语言模型中的幻觉》介绍了一种简单的技术,可以直接减少文本生成时的幻觉。 本文将探讨幻觉问题,并介绍论文中提到的CoVe概念,以及如何使用LLMs、LangChain框架和LangChain表达语言(LCEL)来实现它以创建自定义链。 学习目标 了解LLMs中的幻觉问题。 了解缓解幻觉的链式验证(CoVe)机制。 了解CoVe的优点和缺点。 学习使用LangChain来实现CoVe,并理解LangChain表达语言。 本文是作为数据科学博文马拉松的一部分发表的。 LLMs中的幻觉问题是什么? 让我们首先尝试了解LLM中的幻觉问题。使用自回归生成方法,LLM模型根据之前的上下文来预测下一个单词。对于频繁主题,模型已经看过足够多的示例,可以自信地为正确的标记分配高概率。然而,由于模型没有接受过关于异常或陌生主题的训练,它可能会以高置信度提供不准确的标记。这导致了看似合理但错误的幻觉信息。 下面是Open AI的ChatGPT中出现幻觉的一个例子,我询问了一本由印度作者于2020年出版的书籍《Small Things的经济学》,但模型却带着充分的自信回答错误,并将其与另一位诺贝尔奖获得者阿比吉特·巴纳吉的书《Poor Economics》混淆。 链式验证(CoVe)技术 CoVe机制结合了提示和一致性检查,为LLMs创建了一个自我验证系统。下面是论文中列出的主要步骤。我们将逐一详细了解每个步骤。 链式过程概述 生成基线响应:给定查询,使用LLM生成响应。 计划验证:给定查询和基线响应,生成一系列验证问题的列表,这些问题可以帮助自我分析是否存在原始响应中的任何错误。 执行验证:依次回答每个验证问题,因此检查答案与原始响应之间的一致性或错误。 生成最终经过验证的响应:根据发现的不一致性(如果有的话),生成一个经过修订的响应,并纳入验证结果。 使用详细示例理解链式过程 生成初始响应…

Leave a Comment

纽约大学和谷歌AI研究员探索机器学习在高级演绎推理方面的前沿

使用大量推理规则和构建子证明的就业使得证明的复杂性在许多演绎推理任务中无限发展,例如医学诊断或定理证明。由于巨大的证明空间,不可能找到覆盖所有大小保证的数据。因此,从基本证明开始,通用推理模型应能够推广到更复杂的证明。 纽约大学和谷歌AI研究人员的一个团队证明,LLMs在接受上下文学习(ICL)和思维链(CoT)提示的训练后可以进行演绎推理。一些演绎规则,例如假言附加式,是早期研究的主要重点。评估也是在演示中进行的,这意味着测试用例与上下文演示的分布相同。 纽约大学、谷歌和波士顿大学的研究人员进行的一项新研究探讨了LLMs能否推广到比演示更复杂的证明。学术界根据三个维度对证明进行分类: 在演示的每个阶段使用的前提数量。 构成证明的顺序步骤的长度。 所使用的演绎规则。 总大小是这三个维度的函数。 该团队在两个重要方面对之前的研究进行了扩展,以评估LLMs的一般演绎推理能力。除了假言附加式外,他们测试LLMs是否掌握了所有演绎规则。他们的推理能力通过以下两种方式进行测试: 深度和宽度的推广涉及对比上下文示例提供的较长证明进行推理。 组合推广涉及在单个证明中使用大量的演绎规则。 根据他们的研究,推理任务在接受展示各种演绎规则的基本示例时最受益于上下文学习。为了防止模型过拟合,这些上下文示例必须包含它不熟悉的推导原则,例如分情况证明和反证法。此外,这些示例应该伴随有干扰项。 根据他们的发现,CoT可以使LLMs进行超领域推理,推广到组合证明。这些LLMs包括GPT-3.5 175B、PaLM 540B、LLaMA 65B和FLAN-T511B,其规模和训练目标各异。这一发现令人惊讶,考虑到大量文献主张LLMs缺乏组合泛化能力。ICL的泛化方式与监督学习不同,特别是在上下文样本上进行的梯度下降。明显地,使用与测试示例相同分布的上下文样本是更差的,因为它们在多个实例中被发现。例如,当上下文示例中包含特定演绎规则时,研究人员有时看到了更好的组合证明泛化效果。 似乎预训练并不能教育模型创建假设的子证明。没有明确的示例,LLMs无法推广到某些演绎规则(例如分情况证明和矛盾证明)。模型规模与性能之间的关系较弱。通过定制指导和更多的预训练,较小的模型(不是最小的,但可比较)可以与较大的模型竞争。 为了进一步了解ICL和CoT触发过程,研究人员指出了一个关键的领域需要今后进行研究。他们发现,最好的上下文示例通常来自于与测试示例本身不同的分布,即使是对于特定的测试示例。贝叶斯推理和梯度下降并不能解释这一点。他们有兴趣研究是否简单的示例效果更好,即使测试案例稍微复杂。需要进一步研究来了解如何更进一步地表征从特定实例进行推广。

Leave a Comment

通过检索增强生成,提升您的稳定扩散提示

文字到图像生成是一门快速发展的人工智能领域,应用广泛,包括媒体与娱乐、游戏、电子商务产品可视化、广告与营销、建筑设计与可视化、艺术创作和医学影像等各个领域稳定扩散是一种文字到图像模型,让您能够在几秒钟内创建高品质的图片在十一月份[…]

Leave a Comment

如何使用AWS原型实现ICL-Group在Amazon SageMaker上构建计算机视觉模型

这是由ICL和AWS员工共同撰写的客户帖子ICL是一家总部位于以色列的跨国制造和采矿公司,以独特矿物为基础生产产品,并满足人类的基本需求,主要涉及农业、食品和工程材料三个市场他们的采矿场地使用必须进行监控的工业设备

Leave a Comment

六种巧妙运用人工智能工具来管理你忙碌的生活方式

在一个几乎完全由不断进化的技术驱动的时代,很容易觉得自己难以跟上然而,人工智能工具有潜力为您分担些许负担想象一下,利用聪明的技术,可以帮助您管理日程,筛选电子邮件,通过混乱6种巧妙使用人工智能工具来管理您繁忙的生活的方法阅读更多 »

Leave a Comment

2024年您必须探索的10款最佳GPU

简介 在人工智能(AI)、机器学习(ML)和深度学习(DL)的时代,对强大计算资源的需求已经达到了一个高潮。这场数字革命将我们推进到了未知的领域,在这里,数据驱动的洞察力是创新的关键。但要打开这些领域,我们需要与我们的壮志相匹配的工具。 这就是神奇的云GPU世界,我们数字时代的无名英雄。这些通用计算单元,通常简称为GPU,不仅仅是计算资源,它们更是无限动力的引擎。云GPU为用户提供了使用超级计算能力的非凡能力,而无需承担沉重的前期硬件投资负担。 本指南将带你踏上一段激动人心的旅程,探索主要云供应商,揭示它们的优势和隐藏的亮点,让你在AI/ML/DL的道路上变得更强大。 最佳GPU概览 供应商 GPU选项 定价 免费层 独特功能 最佳用途 亚马逊网络服务(AWS) T4,G4ad(Radeon Pro V520) 按需与竞价实例 是(有限制) 多样的GPU选择,广泛的生态系统 大型企业,对工作负载要求高的场景 微软Azure T4,A100,V620,M60,MI25 按使用量付费与预留实例 是(有限制) 高性能N系列GPU AI,机器学习,科学计算…

Leave a Comment

音乐产业中的人工智能:它将如何塑造音乐元宇宙和未来的声音?

人工智能已经彻底改变了音乐行业利用AI创作工具,创作者们可以生成免版税音乐,而生成式AI流媒体产品则提供了永不停止的情绪分类播放列表供用户欣赏AI生成的歌曲,利用“模仿音乐”和以另一种AI声音演唱著名艺术家的歌曲,已成为新闻中的热门话题

Leave a Comment

本AI论文介绍了BioCLIP:利用TreeOfLife-10M数据集来改变生物学和保护中的计算机视觉

许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。 然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。 来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。 当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。 考虑到这些目标和实现障碍,团队提出了以下内容: TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集 BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。 TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。 BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。 团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。 尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。

Leave a Comment

这篇人工智能论文探讨了利用深度学习解决神经运算中的自回归错误,以实现高级时空预测

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-14-at-1.29.58-AM-1024×635.png”/> <img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-14-at-1.29.58-AM-150×150.png”/> <p>本研究探讨了自回归神经算子领域中一个艰巨的挑战:延长预测时间范围的能力受限。虽然自回归模型有着很大的潜力,但其不稳定性问题严重影响了其在时空预测中的有效性。这个普遍存在的问题涉及从相对平滑的领域到以ERA5等数据集为代表的复杂的大规模系统的各种情况。 <p>当前的方法在试图延长自回归神经算子的时间预测范围时面临着严峻的障碍。鉴于这些局限性,研究团队提出了一种革命性的解决方案来增强可预测性。该方法通过对频谱神经算子进行根本性的架构转变,以缓解不稳定性问题。与现有方法形成鲜明对比的创新方法赋予这些算子无限的预测时间范围,标志着一个重大的飞跃。 <p>目前,自回归神经算子在预测能力方面遇到了一个重大障碍,无法超越有限的时间范围。传统方法的不稳定性问题限制了其在复杂的时空预测场景中的有效性。针对这个问题,研究团队提出了一种新颖的解决方案,从根本上重塑了频谱神经算子的架构,开启了预测时间范围的潜力。 <p>提出的方法的核心在于重构神经算子块。为了解决混叠和不连续性等挑战,研究人员引入了一个新颖的框架,其中非线性函数始终紧随可学习的滤波器之后,这些滤波器能够有效处理新生成的高频分量。一个关键的创新是引入动态滤波器,取代静态卷积滤波器,并根据特定的数据进行调整。这种适应性通过频率域中的模式多层感知器(MLP)实现。 <p>提出的方法的精髓在于重新构想神经算子块。为了解决混叠和不连续性等挑战,研究人员引入了一个复杂的框架,其中非线性函数始终紧随可学习的滤波器之后,这些滤波器擅长处理新生成的高频分量。一个开创性的元素是将动态滤波器与传统的静态卷积滤波器替换,以适应特定数据的复杂性。这种适应性通过频率域中的模式多层感知器(MLP)实现。 <figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/pJ92lyIAeUqFKKoR7NqTsQ7V5yn9_1PlJBbl4xX6XG-kBZQWZWFaO0Yja8oPN0xANRMvBMyimdjeKHYFMTWEtItS4KliuxsGGdt_28T045Ildl2zyjCX1XFHx8E2d7xIwczLogd46TPgu5UJnvJV9Tw”/><figcaption>https://openreview.net/forum?id=RFfUUtKYOG</figcaption></figure> <p>实验结果突显了该方法的功效,显示了显著的稳定性改善。当将该方法应用于旋转浅水方程和ERA5数据集等场景时,这一点尤为明显。通过频率自适应MLP生成的动态滤波器对于确保模型对多种数据集的适应性至关重要。通过将静态滤波器替换为动态对应物,该方法能够灵活处理与数据相关的混叠模式,这是固定策略无法实现的。 <figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/ui3wefz0SoNWsJo9njj6tWnCZncx0EtcpS76P1ZRRrFRCk2-wlyfi6sMB9gUo9ks3smjjfdjfJI_3tRbF9uG_vGmh2x6mHpvuY9StcgE2hQQzYzUkaY2Ik9NFgkCO2zE-cgpvLd6_FVKxHrNljpBAkU”/><figcaption>https://openreview.net/forum?id=RFfUUtKYOG</figcaption></figure> <p>总结起来,本研究对于克服自回归神经算子中延长预测时间范围的持久挑战具有开创性的意义。通过重构神经算子块,引入通过频率自适应MLP生成的动态滤波器,是一种高效的策略,可以缓解不稳定性问题,实现无限的预测时间范围。在研究界处理预测的复杂性时,这项工作可以作为一个指南,引领未来努力朝着更健壮和可靠的时空预测模型前进。

Leave a Comment