Press "Enter" to skip to content

7458 search results for "t"

特雷·杜瓦格,Pathlight的首席技术官兼联合创始人–访谈系列

Trey Doig是Pathlight的联合创始人和首席技术官Trey在科技行业拥有超过十年的经验,在IBM、Creative Commons和Yelp公司担任工程师Trey是Yelp预订的首席工程师,负责将SeatMe功能整合到Yelp.com上Trey还领导了SeatMe网页应用程序的开发[…]

Leave a Comment

如何使用Github?逐步指南

在GitHub上注册的六个步骤 步骤 1:注册GitHub账号 访问他们的网站并点击注册按钮。 填写相关信息,包括您的用户名、电子邮件和密码。 完成后,验证您的电子邮件,您将拥有一个免费的GitHub账号,可用于代码存储库和协作。 https://docs.github.com/en/get-started/quickstart/hello-world 步骤 2:在GitHub上创建一个代码库 在GitHub上创建一个代码库 要为您的项目创建GitHub代码库,请按照以下简单的步骤进行: 1. 在任何GitHub页面的右上角点击“+”符号,然后选择“新建代码库”。 2. 在“代码库名称”框中为您的代码库命名。 3. 在“描述”框中添加简短的描述。 4. 选择您的代码库是公开还是私人。 5. 选中“添加README文件”的选项。 6. 点击“创建代码库”按钮。 此代码库可以用于组织和存储文件、与他人进行协作,并在GitHub上展示您的项目。 https://docs.github.com/en/get-started/quickstart/hello-world…

Leave a Comment

NTU研究人员发布尊尚视频:先导性的文本引导潜隐扩散技术,提升视频超分辨率

视频超分辨率旨在将低质量视频提升到高保真度,面临的挑战是解决现实世界场景中常见的多样化且复杂的退化问题。与以前关注合成或特定相机相关退化不同,该复杂性源于多个未知因素,如降采样、噪声、模糊、闪烁和视频压缩。虽然最近的基于CNN的模型在缓解这些问题方面显示出了希望,但由于有限的生成能力,它们在生成逼真纹理方面仍然存在局限性,导致过度平滑。本研究探讨了利用扩散模型来解决这些限制并增强视频超分辨率的方法。 现实世界视频增强的复杂性要求采用超越传统方法的解决方案,以应对多方面的退化问题。尽管基于CNN的模型在缓解多种退化形式方面展示出实力,但它们的局限性在于生成逼真纹理,往往导致过度平滑的输出结果。扩散模型已成为一个希望的象征,在生成高质量图像和视频方面展示出令人印象深刻的能力。然而,将这些模型应用于视频超分辨率仍然是一个艰巨的挑战,原因是扩散采样中存在固有的随机性,导致低级纹理的时间不连续性和闪烁。 为了应对这些挑战,本研究中的NTU研究人员采用了潜在扩散框架内的局部-全局时间一致性策略。在局部层面上,预训练的放大模型通过额外的时间层进行微调,整合了3D卷积和时间注意力层。这种微调显著提高了局部序列的结构稳定性,减少了纹理闪烁等问题。同时,一个新颖的流引导的循环潜在传播模块在全局层面上操作,通过逐帧传播和推断期间的潜在融合,确保了更长视频的整体稳定性。 图1:AI生成和现实世界视频的超分辨率对比。建议的Upscale-A-Video展示了出色的放大性能。通过使用正确的文本提示,它以更多的视觉逼真度和更精细的细节呈现惊人的效果。 本研究探索了创新的方向,通过引入文本提示来指导纹理生成,使模型能够产生更加逼真和高质量的细节。此外,将噪声注入输入可以增强模型对于重度或未知退化的鲁棒性,从而在恢复和生成之间实现控制。较低的噪声水平优先考虑恢复能力,而较高的噪声水平则鼓励更精细的细节生成,实现保真度和质量之间的权衡。 主要贡献在于制定了一种强大的实际视频超分辨率方法,将局部-全局时间策略结合到隐藏扩散框架中。通过整合时间一致性机制和对噪声水平和文本提示的创新控制,模型在基准测试上表现出卓越的视觉逼真度和时间连贯性,展示出了最新技术水平。

Leave a Comment

这篇AI论文通过深度学习探索大脑的蓝图:利用神经科学和snnTorch Python库教程推进神经网络

神经科学和人工智能的交叉点已经取得了非凡的进展,尤其是通过开发一款名为”snnTorch”的开源Python库。这个创新性的代码模拟了受到大脑高效数据处理方法启发的尖峰神经网络,由加州圣克鲁兹大学的团队努力而来。 在过去的四年里,该团队的Python库”snnTorch”取得了显著的发展,拥有超过10万次的下载量。它的应用不仅限于学术界,还广泛用于各种项目,包括NASA的卫星追踪工作和半导体公司的人工智能芯片优化。 IEEE会议的最新出版是对snnTorch编码库的文档化,也是一个为学生和对脑启发式人工智能感兴趣的编程爱好者量身定制的教育资源。这篇论文提供了对神经科学原则和深度学习方法相互融合的坦诚见解。 snnTorch开发团队强调尖峰神经网络的重要性,突出了它们模拟大脑高效信息处理机制的特点。他们的主要目标是将脑部的高效处理能力与人工智能的功能结合起来,从而发挥两个领域的优势。 snnTorch在大流行病期间作为一个激情项目而开始,是由团队对Python编码和优化计算芯片以提高功耗效率的渴望发起的。如今,snnTorch已成为全球许多编程项目中的基本工具,支持卫星追踪到芯片设计等各个领域的项目。 snnTorch的独特之处在于其代码以及与开发相伴的全面教育资源。团队的文档和可交互的编码材料已成为社区中宝贵的资产,为对神经形态工程和尖峰神经网络感兴趣的人提供了一个入门点。 由团队撰写的IEEE论文是snnTorch代码的全面指南。这篇论文以非传统的代码块和有主见的叙述方式,真实地描绘了神经形态计算的未定性。它意在避免学生对编程决策的理论基础不完全理解而感到沮丧。 除了作为教育资源的角色外,该论文还提供了沟通脑启发式学习机制和传统深度学习模型之间鸿沟的视角。研究人员深入探讨了将AI模型与大脑功能对齐的挑战,强调了神经网络中的实时学习和“一起发射、一起连线”这一有趣概念。 此外,团队与加州圣克鲁兹大学的基因组学研究所合作,探索脑器官oid以揭示大脑信息处理的见解。这种合作象征着生物学和计算范式的交汇,有望通过snnTorch对器官oid的仿真能力在理解以脑为灵感的计算中迈出重要一步。 研究人员的工作体现了合作精神,构建了多个领域之间的桥梁,推动脑启发式人工智能走向实际应用。通过繁荣的Discord和Slack频道专门讨论snnTorch,这一倡议继续促进产学合作,甚至影响着寻求精通snnTorch的工作描述。 加州圣克鲁兹大学的团队在脑启发式人工智能方面迈出的开创性步伐预示着一个重塑深度学习、神经科学和计算范式的变革时代。

Leave a Comment

安全转换与ChatGPT插件的互动指南

介绍 曾经是静态内容的领域,现在通过ChatGPT插件的注入,ChatGPT正在经历一场革命性的转变。这些插件就像是虚拟的钥匙,解锁了数字故事讲述的未知领域,重塑了用户参与度。在本指南中,我们将踏上探索ChatGPT插件无缝整合到博客世界的旅程,揭示它们在培养创造力、建立社区和应对不断发展的领域中的潜力。 学习目标 了解启用和安装ChatGPT插件的步骤,增强语言模型的功能。 了解如何验证ChatGPT插件的激活状态,并监控其性能,以实现无缝的用户体验。 探索将ChatGPT插件集成到应用程序中的简化指南,包括获取API密钥和安装必要的软件包。 检查在医疗、金融和制造业等实际应用中,展示ChatGPT插件对效率和决策的影响。 本文作为 数据科学博文马拉松的一部分发表。 <p进入chatgpt插件的世界,就像为你的对话工具箱增加了个人化的触感一样。这些模块化扩展作为伴侣,让用户能够自定义交互并实现特定的博客目标。这不仅仅是关于生成内容,而是为你的受众创造独特而动态的体验。 ChatGPT插件的变革性作用 <p深入探究chatgpt插件的变革性作用揭示了它们对用户参与度的深远影响。尽管chatgpt以其独立形式提供了令人印象深刻的自然语言处理能力,但插件通过引入专门的功能,提升了用户体验。这些功能包括触发式回复、上下文感知的交互和通过外部api实时检索信息。 <p这个变革性动态标志着从静态对话模型到多功能适应性工具的演变,为用户在与chatgpt交互和利用中开启了新的维度。随着我们深入了解这些插件的具体内容,它们重塑对话人工智能领域的潜力变得越来越明显。 插件影响的导航 <p我们的探索密切研究了这些多功能工具的深远意义和稳定性。我们深入探讨了chatgpt插件的重要性,探索其在塑造和丰富用户交互中的关键作用。 <p本节详细研究了chatgpt插件的稳定性,提供了关于它们在chatgpt框架内的可靠性和稳定性的见解。通过导航这些插件的影响,我们旨在全面了解它们的重要性以及在各种对话场景中的稳定性。 了解限制和技术 <p让我们深入了解实际情况。稳定性和限制性是重要的考虑因素。这些插件在更广泛的chatgpt框架内是如何操作的呢?这是关于理解细微差别、优化体验和做出明智决策的问题。你可以同时使用多少个插件?让我们探索有效自定义的实际考虑因素。 <p引人入胜的是gpt-4对chatgpt插件的影响。作为基础模型的下一个迭代版本,gpt-4的进步对插件的能力和性能产生影响。本研究提供了对chatgpt插件不断发展的领域的一瞥,展示了技术发展如何塑造它们的功能。 <p通过全面了解这些限制和技术细节,用户可以在chatgpt插件的领域中做出明智决策并优化使用。 安全和监控 <p安全至关重要。我们深入研究了与chatgpt插件相关的安全考虑,解决了关注点,并制定了安全交互措施。常见的关于安全的问题以直接的faq形式进行了回答,提供了明确的解释,并建立了对安全使用的信心。 <p以chatgpt插件安全为重点的常见问题解答(faqs)。这些常见问题解答涵盖了用户关于在chatgpt体验中整合插件的安全性和可靠性方面的疑问。这些常见问题解答为寻求关于安全方面的澄清的用户提供了宝贵的资源。 <p这个逐步验证指南赋予用户确认插件功能的能力,确保它们积极地参与到对话中。通过强调安全考虑并提供有效监控工具,本节为用户提供了在chatgpt插件世界中安全而自信地导航所需的知识。 费用、访问和安装 提升您的博客体验需要一定的费用支出。用户友好的逐步安装指南确保了较低的技术门槛,使技术水平有限的用户也能轻松使用。了解财务方面和插件集成的实际步骤,使用户能够做出明智的决策。了解使用ChatGPT插件所涉及的成本是至关重要的。当将这些插件整合到ChatGPT体验中时,用户可以清楚地了解潜在费用。这样的理解有助于与个人需求和预算相匹配选择正确的插件。…

Leave a Comment

中国的这篇AI论文介绍了UniRepLKNet:在图像、音频和时序数据分析中开创性地引入大核心ConvNet架构,以提高跨模态性能

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-1024×689.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-150×150.png” /><p>近年来,卷积神经网络(CNNs)在图像识别领域成为了一种流行的技术。它们在目标检测、分类和分割任务中取得了极高的成功。然而,随着这些网络变得更加复杂,也出现了新的挑战。来自腾讯人工智能实验室和香港中文大学的研究人员提出了四条指导方针,以解决大内核CNNs中的架构挑战。这些指导方针旨在通过将大内核的应用扩展到超越视觉任务的领域,如时间序列预测和音频识别,以提高图像识别的效果。</p><p>UniRepLKNet探索了具有非常大内核的ConvNets的功效,将其扩展到点云数据、时间序列预测、音频和视频识别等领域。尽管以前的研究以不同的方式引入了大内核,但UniRepLKNet专注于使用这些内核的ConvNets的架构设计。它在三维模式学习、时间序列预测和音频识别方面优于专门模型。尽管视频识别精度略低于技术模型,但UniRepLKNet是一个从头开始训练的通用模型,提供了在各种领域中的多功能性。</p><p>UniRepLKNet引入了用于具有大内核ConvNets的架构指南,强调宽广的覆盖面而不过度深入细节。这些指导方针解决了Vision Transformers(ViTs)的局限性,专注于高效的结构、重新参数化卷积层、基于任务的内核大小和整合3×3卷积层。UniRepLKNet在图像识别方面优于现有的大内核ConvNets和近期架构,展示了其高效性和准确性。它在超越视觉的任务中展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色。UniRepLKNet展示了在学习点云数据中的三维模式上的多才多艺,超过了专门的ConvNet模型。</p><p>该研究为大内核ConvNets引入了四条架构指南,强调大内核的独特特性。UniRepLKNet遵循这些指南,利用大内核在图像识别中超越竞争对手。它展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色,而无需特定的自定义。UniRepLKNet在学习点云数据中的三维模式方面也显示出多样性,超过了专门的ConvNet模型。引入了膨胀再参数块以增强非膨胀大内核卷积层的性能。UniRepLKNet的架构将大内核与膨胀卷积层相结合,捕捉小尺度和稀疏模式以提高特征质量。</p><p>UniRepLKNet的架构在图像识别任务中取得了一流的性能,具有88.0%的ImageNet准确率,55.6%的ADE20K mIoU和56.4%的COCO box AP。在全球温度和风速预测挑战中,它在时间序列预测和音频识别方面的MSE和MAE方面优于竞争对手,展示了其普遍的感知能力。UniRepLKNet在学习点云数据中的三维模式方面表现出色,超过了专门的ConvNet模型。该模型在语义分割等下游任务中展示出有希望的结果,证实了其在各个领域中的卓越性能和效率。</p><p>总之,研究的要点可以概括如下:</p><ul><li>该研究为大内核ConvNets引入了四条架构指南</li><li>这些指导方针强调了大内核ConvNets的独特特性</li><li>UniRepLKNet是根据这些指导方针设计的ConvNet模型,在图像识别任务中优于竞争对手</li><li>UniRepLKNet展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色,无需定制</li><li>UniRepLKNet在学习点云数据中的三维模式方面具有多样性,超过了专门的模型</li><li>该研究引入了膨胀再参数块,增强大内核卷积层的性能</li><li>该研究提供了宝贵的架构指南,介绍了UniRepLKNet及其能力,并提出了膨胀再参数块的概念</li></ul>

Leave a Comment

使用Amazon DocumentDB在Amazon SageMaker Canvas中构建无代码机器学习解决方案

我们很高兴地宣布亚马逊文档数据库(兼容MongoDB)与亚马逊SageMaker Canvas的集成正式发布,这使得亚马逊文档数据库的客户可以在不编写代码的情况下构建和使用生成型人工智能和机器学习(ML)解决方案亚马逊文档数据库是一个完全托管的本地JSON文档数据库,使操作关键业务变得简单且具有成本效益

Leave a Comment

卡尔斯鲁厄理工学院(KIT)的研究人员利用深度学习提高了降水映射的空间和时间分辨率

由于气候变化,极端天气,特别是暴雨事件预计会更频繁。许多自然灾害,如洪水或山体滑坡,直接由极端降水引起。基于气候预测的模型经常被使用。现有的气候模型必须提高准确代表高度变化的大气现象的能力。研究人员预计,不断增长的平均温度将导致极端降水事件进一步增加。 卡尔斯鲁厄理工学院(KIT)的研究人员利用人工智能(AI)的力量来提高全球气候模型生成的粗糙降水图的精确性。 研究人员强调,该模型将降水场的时间分辨率从一小时缩短到十分钟,并将空间分辨率从32提高到两千米。他们表示,更高的分辨率对于预测未来发生的局部暴雨事件和随之而来的自然灾害至关重要。 该方法涉及应用生成式神经网络,具体而言就是生成对抗网络(GAN),这是一种AI形式。这个GAN使用高分辨率雷达降水数据进行训练,使其能够以显著更高的空间和时间分辨率学习和模仿逼真的降水场。 现有的全球气候模型使用的网格缺乏捕捉降水变异性所需的细节。而且,传统上生成高分辨率的降水图需要计算上昂贵的模型,导致了空间或时间上的限制。 根据研究人员的说法,这就是开发基于高分辨率雷达降水场进行训练的GAN的原因。通过这种方式,GAN从粗略解决的数据中学习如何生成逼真的降水场并确定其时间序列。 与三线性插值和经典卷积神经网络相比,生成模型以高技巧重建分辨率相关的极值分布。在15 mm h−1降雨强度上表现出0.6的高分数技巧得分和3.35%的低相对偏差。 根据研究人员的解释,他们的方法产生了多种可能的降水场解集合。这一点很重要,因为对于每个粗糙解决的降水场,存在许多在物理上可能的高分辨率解。 他们解释说,使用这种方法模拟的降水事件更高的分辨率将有助于更好地估计2021年阿尔河洪水天气条件在2度更温暖的世界中所造成的影响。 总之,该模型提供了一种增强全球气候模型预测降水精度的解决方案。这一进展有助于更准确的气候预测。它有潜力在变化的气候下更好地理解和应对极端天气事件的后果。

Leave a Comment

Spotify的秘密武器:AI生成的播放列表

揭開AI播放清單功能的面紗 今秋,敏銳的用戶發現了Spotify流媒體應用程序上的一個新功能,允許通過提示創建AI驅動的播放清單。雖然Spotify向TechCrunch確認了此測試,但有關該技術及其運作方式的詳細信息仍未公開,讓用戶感到好奇。這一功能是通過用戶@robdad_在TikTok視頻中展示出來的,他意外發現了他稱之為“Spotify的ChatGPT”的東西。 導航AI播放清單界面 從Spotify應用程序的“您的音樂庫”選項卡中可以輕鬆訪問AI播放清單功能。用戶可以通過點擊屏幕右上角的加號(+)按鈕啟動播放清單創建過程。彈出菜單出現,除了現有的“播放清單”和“合併”選項外,還提供了AI播放清單選項。在選擇後,用戶將遇到一個屏幕,可以在AI聊天機器人風格的框中輸入提示,或從提供的提示列表中選擇,例如“用器樂電子音樂集中注意力工作”或“探索像女巫之屋這樣的小眾音樂類型”。 AI播放清單生成的幕後 @robdad_分享的屏幕截圖展示了提示選擇過程,顯示選項包括“用背景咖啡館音樂填充沉默”或“用有趣、快樂和積極的歌曲來提振士氣”。AI聊天機器人然後回答“正在處理您的請求…”並呈現一個範例播放清單。用戶可以通過向左滑動進一步完善播放列表,刪除不想包含的任何歌曲。 Spotify的AI探索繼續 這不是Spotify首次嘗試AI驅動的功能。今年早些時候,這家流媒體巨頭推出了一個AI驅動的DJ,以推薦歌曲和俏皮的評論顛覆了音樂聆聽體驗。產品設計師Chris Messina最近發現的代碼暗示AI在播放清單創建方面具有更廣泛的應用,可能還涉及Spotify Blend。然而,Spotify對具體細節保持緘默,稱“在Spotify,我們不斷改進和構思我們的產品,為用戶提供價值。” 我們的說法 Spotify對AI生成的播放清單的實驗反映出該公司致力於在音樂流媒體領域的技術創新前沿。儘管詳細信息有限,但通過AI提示的用戶自主創建個性化播放清單的前景為Spotify體驗增添了激動人心的維度。隨著Spotify在AI方面不斷突破界限,這一功能如何發展和融入該平台的更廣泛生態系統將是一個有趣的觀察。 由於AI播放清單功能的持續測試,Spotify用戶可以預期在播放清單創建方面出現一個可能改變遊戲規則的功能。隨著技術的不斷發展,我們與喜愛的音樂互動的方式也在不斷變化,而Spotify似乎決心引領這個以AI為驅動的未來。

Leave a Comment

CMU研究人员揭示了RoboTool:一种能够接受自然语言指令并输出可用于控制模拟和真实环境中机器人的可执行代码的AI系统

来自卡内基梅隆大学和Google DeepMind的研究人员合作开发了RoboTool,这是一个利用大型语言模型(LLM)的系统,赋予机器人在涉及隐性物理约束和长期规划的任务中创造性地使用工具的能力。该系统包括四个关键组成部分: 用于解释自然语言的分析器 用于生成策略的规划器 用于计算参数的计算器 用于将计划转化为可执行的Python代码的编码器 使用GPT-4,RoboTool旨在为复杂的机器人任务提供比传统的任务与动作规划方法更灵活、高效和用户友好的解决方案。 该研究解决了机器人创造性使用工具的挑战,类似于动物在使用工具方面展示智能的方式。它强调机器人不仅要为其预定目的使用工具,还要以创造性和非常规的方式使用工具,以提供灵活的解决方案。传统的任务与动作规划(TAMP)方法需要在处理具有隐性约束的任务时进行修订,并且往往计算代价高昂。大型语言模型(LLM)在编码有益于机器人任务的知识方面显示出潜力。 该研究引入了一个用于评估创造性工具使用能力的基准,包括工具选择、顺序工具使用和制造。所提出的RoboTool在模拟和真实环境中进行评估,展示了在没有创造性工具使用的情况下将会具有挑战性的任务处理能力。该系统的成功率超过了基准方法,展示了其在解决具有隐性约束的复杂、长期规划任务方面的效果。 通过计算3种类型的错误进行评估: 工具使用错误,指示是否使用了正确的工具 逻辑错误,关注规划错误,如按错误的顺序使用工具或忽略提供的约束 数值错误,包括计算错误的目标位置或添加错误的偏移量 没有分析器的RoboTool显示出使用分析器的工具使用错误较大,没有计算器的RoboTool在与RoboTool相比的情况下有较大的数值错误,展示了它们在模型中的作用。 该研究展示了RoboTool在各种任务中的成就,例如在沙发之间穿越间隙、到达放置在机器人工作区域外的物体以及创造性地使用工具超出其传统功能。该系统利用LLMs对对象属性和人类常识的知识来识别关键概念和推理三维物理世界。在与机械臂和四足机器人的实验中,RoboTool展示了创造性的工具使用行为,包括即兴创作、顺序工具使用和工具制造。尽管在模拟中实现了与或超过基准方法相当的成功率,但其在真实环境中的表现受到感知错误和执行错误的轻微影响。 总之,由LLMs驱动的RoboTool是一个具有创造性的机器人工具用户,能够解决长期规划问题并具有隐性物理约束。该系统能够识别关键概念、生成创造性计划、计算参数和生成可执行代码,有助于其在处理需要创造性工具使用的复杂机器人任务方面取得成功。

Leave a Comment

提高在Amazon SageMaker Studio上的生产力:介绍JupyterLab Spaces和生成AI工具

亚马逊SageMaker Studio为机器学习开发提供了一系列完全托管的集成开发环境(IDE),包括JupyterLab、基于Code-OSS(Visual Studio Code开源版)的代码编辑器和RStudio它为每个ML开发步骤提供了最全面的工具集,从数据准备到建立、训练[…]

Leave a Comment

本AI论文介绍了BioCLIP:利用TreeOfLife-10M数据集来改变生物学和保护中的计算机视觉

许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。 然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。 来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。 当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。 考虑到这些目标和实现障碍,团队提出了以下内容: TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集 BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。 TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。 BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。 团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。 尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。

Leave a Comment

使用 QLoRA 对 Llama 2 进行微调,并在 Amazon SageMaker 上部署,配备 AWS Inferentia2

在这篇文章中,我们展示了使用参数高效微调 (PEFT) 方法对 Llama 2 模型进行微调,并将微调后的模型部署在 AWS Inferentia2 上我们使用 AWS Neuron 软件开发工具包 (SDK) 来访问 AWS Inferentia2 设备,并从其高性能中受益然后,我们使用一个由 […] 提供支持的大型模型推断容器

Leave a Comment

探索AI的新领域:谷歌DeepMind的研究关于通过ReSTEM自我训练推进机器学习超越人类生成的数据

大型语言模型(LLMs)正在通过展示惊人的文本生成能力和执行各种语言任务而改变深度学习。获得高质量的与人类相关的数据是一个重大障碍,即使使用人类收集的数据进行监督微调(SFT)也能进一步提高它们在感兴趣的任务上的性能。这对需要大量资源和专业知识的复杂问题解决任务尤为困难。为了克服这一障碍,模型生成的合成数据在其质量能够得到保证的情况下被认为是一种可扩展且经济实惠的解决方案。 来自Google Deepmind和Mila的研究人员在这项研究中研究了一个更加简单的场景,其中外部的标量反馈信号作为每个生成样本的质量指标,即使LLMs能够自行评估生成的数据。研究团队提出了一种简单而有效的语言模型自训练技术,只涉及两个技能:1) 使用模型创建样本,2) 使用评分机制评估这些样本。这种方法使我们能够研究在模型创建的数据上进行训练。研究团队使用了加强自训练的命名方式,并将这种技术称为ReST𝐃𝑀,以实现统一性和清晰度。研究团队演示了如何将ReST𝐃𝑀视为使用期望最大化进行强化学习。 具体而言,ReST𝐃𝑀在以下方式上在期望和最大化阶段之间切换:1. 生成 (E-step):对于每个输入背景,语言模型产生多个输出样本。然后,研究团队通过使用二进制奖励来筛选这些样本,以收集训练数据集。2. 改进 (M-step):使用前面生成阶段的训练数据集来对原始语言模型进行监督和微调。然后,下一个生成阶段使用调整后的模型。ReST𝐃𝑀及其变体已经证明在许多领域的语言模型中提高了效能,例如机器翻译、语义解析和偏好对齐。 ReST𝐃𝑀主要在以前关于非常小型语言模型(最多7B参数)的研究中使用,对于更大的模型而言,其可扩展性有限。他们的工作旨在通过比较模型创建的合成数据的可扩展性和有效性与人类提供的数据在两个具有挑战性但研究不足的领域中: 代码生成 (APPS) 和具有竞争水平的数学问题解决 (MATH)。他们的研究结果表明,将ReST𝐃𝑀应用于不同规模的PaLM 2模型可以显著改善数学推理和代码生成能力。 令人惊讶的是,通过模型生成的人工数据进行改进的模型在性能上大幅优于以人类提供的数据训练的模型。此外,经过几个ReST𝐃𝑀周期后,改进效果会减弱,表明可能会过度拟合数量有限的训练案例。此外,使用ReST𝐃𝑀进行优化的模型增强了 pass@k 和多数投票能力。最后,这些改进的模型在类似但不同的基准测试中展现出增强的性能,包括Big-Bench Hard任务、编码(HumanEval)和算术问题(GSM8K和Hungarian HS决赛)。最后,还进行了消融研究,以调查训练问题、迭代次数和模型生成解决方案数量对ReST𝐸𝑀微调的影响。

Leave a Comment

见面Mixtral 8x7b:Mistral推出的革命性语言模型,超越GPT-3.5在开放学术资源的人工智能中

大型语言模型领域迎来了一个重要的跨越,Mixtral 8x7b的到来。Mistral AI开发了这个具有卓越能力和独特架构的新模型。它用稀疏的Expert混合(MoE)层取代了前馈层,这是变换器模型中的一种创新方法。 Mixtral 8x7b 在一个框架内拥有八个专家模型。这个模型是一个专家混合模型(MoE),使Mixtral能够实现卓越的性能。 专家混合技术可以使模型的预训练所需的计算能力大大减少。这意味着可以显著增加模型或数据集的大小而不增加计算预算。 在MoE层中引入了路由器网络,它可以高效选择处理哪些令牌的专家。尽管与含有12B参数的密集模型相比,Mixtral的模型拥有四倍的参数,但由于每个时间步选择了两个专家,因此可以快速解码。 Mixtral 8x7b具有32,000个令牌的上下文长度容量,优于Llama 2 70B,并在各种基准测试中展现出与GPT3.5相媲美或更好的结果。研究人员表示,该模型具有适用于各种应用的多功能性。它可以多语言操作,并展现其在英语、法语、德语、西班牙语和意大利语方面的流利性。其编码能力也非常出色;在HumanEval测试中得分40.2%,巩固了它作为一个全面的自然语言处理工具的地位。 Mixtral Instruct在MT-Bench和AlpacaEval等行业标准上表现出色。它在MT-Bench上的表现超过其他公开模型,并与GPT-3.5相匹配。尽管参数达到70亿,但该模型的性能类似于八个模型的集合。虽然它可能没有达到560亿参数的规模,但总参数数约为450亿。此外,Mixtral Instruct在指导和聊天模型领域表现出色,表达了其优势。 Mixtral Instruct的基本模型没有与其他基本模型对齐的特定提示格式。这种灵活性允许用户顺畅地扩展输入序列,获得合理的延续或将其用于零样本/少样本推理。 然而,有关预训练数据集的维度、组成和预处理方法的完整信息仍需进一步提供。同样,仍不知道对Mixtral instruct模型的DPO(域预提供目标)和SFT(部分微调)使用了哪些微调数据集和相关超参数。 总结一下,Mixtral 8x7b通过结合性能、适应性和创造力改变了语言模型的游戏规则。当AI社区继续研究和评估Mistral的架构时,研究人员迫切希望看到这种先进语言模型的影响和应用。MoE的8x7B能力可能为科学研究和发展、教育、医疗保健和科学开辟新的机遇。 这篇文章Meet Mixtral 8x7b: The…

Leave a Comment

2023年需要重新访问的顶级生成AI GitHub存储库

介绍 随着2023年接近尾声,人工智能领域仍在不断前进。跟上最新进展就像追逐一个移动的目标。幸运的是,在GitHub这个充满活力的生态系统中,有大量宝贵的资源。在这里,我们回顾了一些顶级的AI GitHub仓库,为您2024年及以后的AI学习之旅提供一个跳板。这个精选列表虽然不是详尽无遗,但它突出了因其相关性、影响力和激发您的好奇心而获得其地位的仓库。 Hugging Face / Transformers 117k Stars | 23.3k Forks 这个仓库对任何对自然语言处理(NLP)感兴趣的人来说都是宝藏。它托管了各种预训练的基于Transformer的模型,如BERT、RoBERTa和T5,以及广泛的文档、教程和一个充满活力的社区。 主要特点 广泛的预训练模型,全面的文档,活跃的社区支持,多样化的应用可能性,以及与其他库的轻松集成。 点击这里探索这个生成式AI GitHub仓库。 Significant Gravitas / AutoGPT 155k Stars | 37.8k…

Leave a Comment

Can't find what you're looking for? Try refining your search: