Press "Enter" to skip to content

Tag: Deep Learning

亚马逊研究人员利用深度学习增强用于复杂表格数据分析的神经网络

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-17-at-10.19.56-PM-1024×512.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-17-at-10.19.56-PM-150×150.png”/><p>神经网络,作为现代计算的奇迹,面对包含异质列的表格数据时遇到了重大障碍。这个挑战的实质在于网络无法有效处理表格内的多样化数据结构。为了解决这个问题,该论文探索了创新方法,以增强神经网络在处理这种复杂数据结构时的性能。</p><p>带有行和列的表格数据通常看似简单。然而,当这些列之间在性质和统计特征上有显著差异时,复杂性就出现了。传统神经网络由于对特定类型信息的固有偏向而难以理解和处理这些异质数据集。这种偏见限制了它们对表格数据中的复杂微妙之处的把握和解码能力。网络频谱偏向低频分量而非高频分量,从而进一步加剧了这个挑战。这些异质表格数据内部错综复杂的互联特征对于这些网络的把握和处理构成了一种巨大挑战。</p><p>在这篇<a href=”https://www.xiaozhuai.com/microsoft-introduces-a-new-approach-to-training-language-models-in-ai-research-the-method-mimics.html”>论文</a>中,来自亚马逊的研究人员提出了一种新方法,以克服这个挑战,该方法将表格特征转化为低频表示。这种转变技术旨在减轻神经网络的频谱偏见,使其能够捕捉嵌入在这些异质表格数据中的复杂信息所必需的高频成分。实验中对表格和图像数据集的傅里叶分量进行了严格分析,以提供关于频谱和网络解码能力的见解。所提议的解决方案的一个关键方面是在减少频率以提高网络理解力之间的微妙平衡,以及在改变数据表示时可能丧失重要信息或对优化产生负面影响的潜在风险。</p><p>该论文提供了全面的分析,说明频率减少转换对神经网络解读表格数据的影响。图表和经验数据展示了这些转换如何显著增强网络性能,特别是在解码合成数据中的目标函数方面。探索还扩展到评估常用的数据处理方法及其对频谱和后续网络学习的影响。这种细致的研究揭示了这些方法在不同数据集上的不同影响,强调了所建议的频率减少方法的卓越性能和计算效率。</p><p>论文的关键要点:</p><ul><li>神经网络在理解异质表格数据方面面临的固有挑战,包括偏见和频谱限制。</li><li>所提出的频率减少转换的方法增强了神经网络解码这些数据集内的复杂信息的能力。</li><li>全面的分析和实验验证了所提出方法在增强网络性能和计算效率方面的有效性。</li></ul>

Leave a Comment

斯坦福大学研究人员利用GLOW和IVES进行深度学习,改变了分子对接和配体结合姿势预测的方式

深度学习有潜力通过改进评分函数来增强分子对接。当前的采样协议通常需要先验信息以生成准确的配体结合位姿,这限制了评分函数的准确性。斯坦福大学的研究人员开发的两个新协议,GLOW和IVES,解决了这个挑战,展示了增强位姿采样效果的能力。通过在包括AlphaFold生成的蛋白质结构在内的各种蛋白质结构上进行基准测试,验证了这些方法。 深度学习在分子对接中通常依赖于刚性蛋白质对接数据集,忽视了蛋白质的柔性。虽然柔性对接考虑了蛋白质的柔性,但准确性较低。GLOW和IVES是解决这些局限性的高级采样协议,持续优于基准方法,尤其在动态结合口袋中。这对于提高蛋白质-配体对接中的配体位姿采样至关重要,同时也对于提高基于深度学习的评分函数的准确性至关重要。 分子对接预测在药物发现中至关重要,它可以预测配体在蛋白质结合位点的位置。传统方法在生成准确的配体位姿方面面临挑战。深度学习可以提高准确性,但依赖于有效的位姿采样。GLOW和IVES为挑战性的情景提供了改进的采样协议,提高了准确性。适用于无配体或预测蛋白质结构,包括AlphaFold生成的结构,它们提供了精选的数据集和开源Python代码。 GLOW和IVES是分子对接中的两个配体位姿采样协议。GLOW使用软化的范德华势生成配体位姿,而IVES通过合并多个蛋白质构象来提高准确性。与基准方法的性能比较表明GLOW和IVES的优越性。在交叉对接案例中,通过测试集评估正确位姿的百分比。对于有效的IVES来说,种子位姿质量至关重要,SMINA对接评分和用于选择的评分也很关键。 GLOW和IVES在准确采样配体位姿方面优于基准方法,在具有明显蛋白质构象变化的挑战性情景和AlphaFold基准测试中表现出色。对测试集的评估确认了它们正确采样的姿态的可能性更大。IVES通过生成多个蛋白质构象,在几个构象数上达到了与Schrodinger IFD-MD相媲美的几何深度学习性能。由GLOW和IVES生成的5000个蛋白质-配体对的配体位姿数据集提供了宝贵的资源,有助于开发和评估分子对接中基于深度学习的评分函数。 https://arxiv.org/abs/2312.00191 总之,GLOW和IVES是两种功能强大的位姿采样方法,相比基本技术,特别是在困难情景和AlphaFold基准测试中更加有效。IVES可以生成多个蛋白质构象,这对于几何深度学习非常有优势。此外,GLOW和IVES提供的数据集包含5000个蛋白质-配体对的配体位姿,是分子对接中基于深度学习的评分函数的研究人员的宝贵资源。

Leave a Comment

这篇AI论文介绍了Perseus:一种开创性的框架,可将大规模机器学习和AI模型训练的能源浪费降低多达30%

大型语言模型(例如 GPT-3)由于在训练和推理过程中的计算需求而需要大量能量。能源使用情况根据模型的大小、任务复杂性、硬件规格和操作持续时间等因素而存在显著差异。 训练这些模型需要大量的计算资源,通常涉及高性能 GPU 或 TPU,导致长时间的大量能量消耗。估计训练像 GPT-3 这样的大型语言模型可能使用相当于多个家庭在几天或几周内消耗的电量。 优化能源消耗至关重要,且需要在不降低模型效率的情况下进行。研究人员旨在减少大语言模型训练中没有吞吐量损失可以消除的能量消耗。分布式执行规划中,每个流水线阶段的计算量是一个重要问题。由于深度神经网络(DNN)是粗粒度的张量运算,计算量各不相同,因此平衡每个阶段是不可能的。 密歇根大学和华盛顿大学的研究人员发现,在训练过程中,并非所有能量消耗都直接对整体训练吞吐量有贡献,可以大幅减少能量消耗而不会减缓训练速度。他们发现能量膨胀的内在和外在原因,并提出了一个名为“Perseus”的单一优化框架来最小化它们。 内在能量膨胀的原因是计算不平衡,而外在能量膨胀是多个流水线并行运行,同步扩展到庞大的数据集进行训练。快于行动迟钝算法的流水线是快速的,浪费了不会影响整体训练吞吐量的能量。 Perseus以高效的方式预先表征整个迭代时间的能量,在正常操作条件下最小化内在能量膨胀。通过次优能量减少,它减轻了外在能量膨胀。它通过精确地减慢流水线中的计算来寻找非阻塞流水线的能量最优迭代时间。 研究人员在各种强扩展配置中使用混合并行性来模拟训练大型模型的迟行者。他们测量了能量膨胀的数量和Perseus的外在能量节省。在计算完成后,其他非迟行者等待迟行者完成计算,导致外在能量膨胀。他们减少了微批次的数量和每个流水线迭代的开头和结尾的流水线气泡比例。这消除了内在能量膨胀,从而减少了能量消耗。 将Perseus集成到训练工作流程中对人工智能发展的未来具有重要影响。他们的工作有潜力极大地增强LLM和GenAI的分布式训练的可持续性。

Leave a Comment

这篇AI论文通过深度学习探索大脑的蓝图:利用神经科学和snnTorch Python库教程推进神经网络

神经科学和人工智能的交叉点已经取得了非凡的进展,尤其是通过开发一款名为”snnTorch”的开源Python库。这个创新性的代码模拟了受到大脑高效数据处理方法启发的尖峰神经网络,由加州圣克鲁兹大学的团队努力而来。 在过去的四年里,该团队的Python库”snnTorch”取得了显著的发展,拥有超过10万次的下载量。它的应用不仅限于学术界,还广泛用于各种项目,包括NASA的卫星追踪工作和半导体公司的人工智能芯片优化。 IEEE会议的最新出版是对snnTorch编码库的文档化,也是一个为学生和对脑启发式人工智能感兴趣的编程爱好者量身定制的教育资源。这篇论文提供了对神经科学原则和深度学习方法相互融合的坦诚见解。 snnTorch开发团队强调尖峰神经网络的重要性,突出了它们模拟大脑高效信息处理机制的特点。他们的主要目标是将脑部的高效处理能力与人工智能的功能结合起来,从而发挥两个领域的优势。 snnTorch在大流行病期间作为一个激情项目而开始,是由团队对Python编码和优化计算芯片以提高功耗效率的渴望发起的。如今,snnTorch已成为全球许多编程项目中的基本工具,支持卫星追踪到芯片设计等各个领域的项目。 snnTorch的独特之处在于其代码以及与开发相伴的全面教育资源。团队的文档和可交互的编码材料已成为社区中宝贵的资产,为对神经形态工程和尖峰神经网络感兴趣的人提供了一个入门点。 由团队撰写的IEEE论文是snnTorch代码的全面指南。这篇论文以非传统的代码块和有主见的叙述方式,真实地描绘了神经形态计算的未定性。它意在避免学生对编程决策的理论基础不完全理解而感到沮丧。 除了作为教育资源的角色外,该论文还提供了沟通脑启发式学习机制和传统深度学习模型之间鸿沟的视角。研究人员深入探讨了将AI模型与大脑功能对齐的挑战,强调了神经网络中的实时学习和“一起发射、一起连线”这一有趣概念。 此外,团队与加州圣克鲁兹大学的基因组学研究所合作,探索脑器官oid以揭示大脑信息处理的见解。这种合作象征着生物学和计算范式的交汇,有望通过snnTorch对器官oid的仿真能力在理解以脑为灵感的计算中迈出重要一步。 研究人员的工作体现了合作精神,构建了多个领域之间的桥梁,推动脑启发式人工智能走向实际应用。通过繁荣的Discord和Slack频道专门讨论snnTorch,这一倡议继续促进产学合作,甚至影响着寻求精通snnTorch的工作描述。 加州圣克鲁兹大学的团队在脑启发式人工智能方面迈出的开创性步伐预示着一个重塑深度学习、神经科学和计算范式的变革时代。

Leave a Comment

彻底改变癌症诊断:深度学习如何准确识别和重新分类合并肝癌,以优化治疗决策

原发性肝癌,包括肝细胞癌(HCC)和肝内胆管癌(ICCA),由于其独特的特点而带来了重大挑战。同时存在肝细胞-胆管癌混合型(cHCC-CCA),具有HCC和ICCA两者特征的患者,给临床诊断和管理带来了复杂度。这种罕见情况使得制定精确的治疗策略变得困难,从而导致不良的患者结果。为了解决这一难题,本研究探讨了人工智能(AI)在将cHCC-CCA肿瘤重新分类为纯HCC或ICCA方面的应用,旨在提供改进的预后评估和分子洞察力。 作为肝癌的一种罕见亚型,cHCC-CCA由于其肝细胞和胆管的形态融合而令病理学家困扰。这种复杂的融合常常使得诊断具有挑战性,导致临床管理存在模糊性。此外,缺乏共识指南进一步复杂化了治疗决策。这种复杂性来自于HCC和ICCA之间的模糊界限,cHCC-CCA的遗传特征类似于这两种类型,引发了关于其分子特征的争议。该研究依赖于充分利用AI作为病理图像分析中的有力工具,以区分和潜在地重新分类cHCC-CCA肿瘤为HCC或ICCA。该研究旨在揭示这种分类是否与临床预后和分子遗传模式相一致,帮助更清晰地理解cHCC-CCA。 来自全球各地的研究人员开展的这项研究采用了一个AI流程,该流程基于自监督特征提取器和基于注意力的聚合模型进行训练。这种AI框架旨在识别纯HCC和ICCA,并在发现组中展示了令人印象深刻的交叉验证接收器操作特征曲线下面积(AUROC)达到0.99,展示出两类之间的强大区分能力。随后对独立TCGA队列的验证进一步证实了模型的功效,实现了0.94的AUROC,标志着高度的泛化能力。值得注意的是,AI模型在强调类似ICCA表型的特征方面表现出很强的侧重,表明其能够识别细微的组织学细节。 AI模型在区分纯HCC和ICCA方面的能力促使我们进一步探索其在临床和分子方面的影响。这种区分为cHCC-CCA患者的精确定位和治疗个性化提供了新的可能性,可能弥合对该疾病治疗效果不佳的差距。此外,对ICCA类似特征的关注提示了模型捕捉到了细微的组织结构,与已知的ICCA的病理特征相吻合。这些发现强调了AI在指导更准确的诊断和cHCC-CCA预后标志上的潜力。 论文的关键要点: 诊断潜力:AI在将cHCC-CCA重新分类为HCC或ICCA的过程中表现出了潜在的诊断突破。 临床意义:AI驱动的分类在指导cHCC-CCA患者个性化治疗策略和预测中具有潜力。 分子洞察力:模型对类似ICCA的特征的关注提示其能够捕捉到微妙的组织结构,揭示了cHCC-CCA与已知肝癌类型之间的分子相似性。

Leave a Comment

这篇人工智能论文揭示了DeWave:用一种新的人工智能框架革新了EEG到文本翻译,为开放词汇BCI提供了革命性的方法

悉尼科技大学(UTS)GrapheneX-UTS人本人工智能中心的研究人员已经开发出一种令人瞩目的系统,能够解码无声思维并将其转化为书面文字。这项技术在帮助那些因中风或瘫痪等情况而无法说话的人进行交流,并促进人与机器之间的改进互动方面具有潜在的应用。 在新奥尔良的NeurIPS会议上作为焦点论文展示的研究团队介绍了一种便携式和非侵入性的系统。GrapheneX-UTS HAI中心的团队与悉尼科技大学工程与信息技术学院的成员合作,开发了一种将脑电信号转化为可理解文字内容的方法,而无需进行侵入性手术。 在研究过程中,参与者戴着一顶装有电极的专用帽子,通过脑电图(EEG)记录脑部活动。捕获到的脑电图数据使用名为DeWave的AI模型进行处理,该模型由研究人员开发,将这些脑电信号转化为可理解的单词和句子。 研究人员强调了这种创新在将原始脑电波直接转化为语言上的重要性,突出了离散编码技术在脑到文字翻译过程中的整合。这种方法在神经科学和人工智能领域开辟了新的可能性。 与以往需要侵入性手术如脑植入物或核磁共振成像机使用的技术不同,该团队的系统提供了一种非侵入性和实用的替代方案。重要的是,它不依赖于眼动跟踪,使其在日常使用中更具适应性。 该研究涉及29名参与者,相比过去仅限于一两个个体的研究,确保了更高水平的鲁棒性和适应性。虽然使用帽子收集脑电信号会引入噪声,但研究报告显示在脑电翻译方面表现出色,超过了先前的基准。 团队强调了该模型在匹配动词而非名词方面的熟练程度。然而,在解析名词时,系统显示出倾向于同义词对而不是完全翻译的趋势。研究人员解释说,在处理单词时,语义上相似的词可能会引发类似的脑电波模式。 目前的翻译准确性,以BLEU-1分数衡量,约为40%。研究人员的目标是将这个得分提高到与传统语言翻译或语音识别程序相媲美的水平,这些程序通常可以达到约90%的准确性水平。 这项研究基于UTS在脑机接口技术方面的先前进展,表明它对于改变之前受到身体限制影响的个体的交流途径有着巨大的潜力。 这项研究的发现为将思维无缝转化为文字提供了希望,为面对交流障碍的个体提供了力量,并促进了更好的人机交互。

Leave a Comment

中国的这篇AI论文介绍了UniRepLKNet:在图像、音频和时序数据分析中开创性地引入大核心ConvNet架构,以提高跨模态性能

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-1024×689.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-150×150.png” /><p>近年来,卷积神经网络(CNNs)在图像识别领域成为了一种流行的技术。它们在目标检测、分类和分割任务中取得了极高的成功。然而,随着这些网络变得更加复杂,也出现了新的挑战。来自腾讯人工智能实验室和香港中文大学的研究人员提出了四条指导方针,以解决大内核CNNs中的架构挑战。这些指导方针旨在通过将大内核的应用扩展到超越视觉任务的领域,如时间序列预测和音频识别,以提高图像识别的效果。</p><p>UniRepLKNet探索了具有非常大内核的ConvNets的功效,将其扩展到点云数据、时间序列预测、音频和视频识别等领域。尽管以前的研究以不同的方式引入了大内核,但UniRepLKNet专注于使用这些内核的ConvNets的架构设计。它在三维模式学习、时间序列预测和音频识别方面优于专门模型。尽管视频识别精度略低于技术模型,但UniRepLKNet是一个从头开始训练的通用模型,提供了在各种领域中的多功能性。</p><p>UniRepLKNet引入了用于具有大内核ConvNets的架构指南,强调宽广的覆盖面而不过度深入细节。这些指导方针解决了Vision Transformers(ViTs)的局限性,专注于高效的结构、重新参数化卷积层、基于任务的内核大小和整合3×3卷积层。UniRepLKNet在图像识别方面优于现有的大内核ConvNets和近期架构,展示了其高效性和准确性。它在超越视觉的任务中展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色。UniRepLKNet展示了在学习点云数据中的三维模式上的多才多艺,超过了专门的ConvNet模型。</p><p>该研究为大内核ConvNets引入了四条架构指南,强调大内核的独特特性。UniRepLKNet遵循这些指南,利用大内核在图像识别中超越竞争对手。它展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色,而无需特定的自定义。UniRepLKNet在学习点云数据中的三维模式方面也显示出多样性,超过了专门的ConvNet模型。引入了膨胀再参数块以增强非膨胀大内核卷积层的性能。UniRepLKNet的架构将大内核与膨胀卷积层相结合,捕捉小尺度和稀疏模式以提高特征质量。</p><p>UniRepLKNet的架构在图像识别任务中取得了一流的性能,具有88.0%的ImageNet准确率,55.6%的ADE20K mIoU和56.4%的COCO box AP。在全球温度和风速预测挑战中,它在时间序列预测和音频识别方面的MSE和MAE方面优于竞争对手,展示了其普遍的感知能力。UniRepLKNet在学习点云数据中的三维模式方面表现出色,超过了专门的ConvNet模型。该模型在语义分割等下游任务中展示出有希望的结果,证实了其在各个领域中的卓越性能和效率。</p><p>总之,研究的要点可以概括如下:</p><ul><li>该研究为大内核ConvNets引入了四条架构指南</li><li>这些指导方针强调了大内核ConvNets的独特特性</li><li>UniRepLKNet是根据这些指导方针设计的ConvNet模型,在图像识别任务中优于竞争对手</li><li>UniRepLKNet展示了普遍的感知能力,在时间序列预测和音频识别方面表现出色,无需定制</li><li>UniRepLKNet在学习点云数据中的三维模式方面具有多样性,超过了专门的模型</li><li>该研究引入了膨胀再参数块,增强大内核卷积层的性能</li><li>该研究提供了宝贵的架构指南,介绍了UniRepLKNet及其能力,并提出了膨胀再参数块的概念</li></ul>

Leave a Comment

苹果研究人员揭开了DeepPCR,这是一种创新的机器学习算法,可以并行化通常顺序进行的操作,以加速神经网络的推理和训练

“` 由于人工智能和深度学习在领域的进步,许多新的创新成为可能。借助神经网络的帮助,如文本或图像合成,分割和分类等复杂任务得到了成功处理。然而,由于计算需求的原因,神经网络训练可能需要几天甚至几周来获得充分的结果。预训练模型的推理有时也很慢,特别对于复杂的设计。 并行化技术可以加快深度神经网络的训练和推理。尽管这些方法被广泛使用,但神经网络中的某些操作仍然是按顺序进行的。扩散模型通过一系列去噪阶段生成输出,正向和反向传递逐层进行。随着步骤数的增加,这些过程的顺序执行变得计算代价高昂,可能导致计算瓶颈。 为了解决这个问题,苹果公司的研究人员提出了DeepPCR,一种独特的算法,旨在加快神经网络的训练和推理。DeepPCR通过将一系列L个步骤视为一组方程的答案来执行。该团队采用了并行循环消减(PCR)算法来提取此解决方案。将顺序处理​​的计算成本从O(L)降低到O(log2 L)是DeepPCR的主要优势。减少复杂性后的速度加快,尤其是对于高值的情况。 团队进行了实验,以验证关于DeepPCR降低复杂性的理论断言,并确定加速的条件。通过将DeepPCR应用于多层感知机的前向传递和后向传递并行化,他们实现了前向传递速度提升30倍,后向传递速度提升200倍。 团队还通过使用DeepPCR来训练具有1024层的ResNets展示了DeepPCR的适应性。由于DeepPCR的使用,训练速度可以提高多达7倍。该技术用于扩散模型的生成阶段,相比顺序方法,生成速度提高了11倍。 团队总结了他们的主要贡献如下: 引入了DeepPCR,这是一种创新的方法,用于并行化神经网络的序列处理,其主要特点是能够将计算复杂性从O(L)降低到O(log2 L),其中L是序列长度。 使用DeepPCR并行化多层感知机(MLP)的前向传递和后向传递。对技术性能进行了全面分析,同时考虑了基本设计参数,以确定方法的高性能区域。该研究还调查了速度,解决方案的正确性和内存使用之间的权衡。 使用DeepPCR加速了在MNIST上训练的深度ResNet和在MNIST、CIFAR-10和CelebA数据集上训练的扩散模型的生成。结果表明,尽管DeepPCR显示了显着的加速,对于ResNet的训练速度提高了7倍,对于扩散模型的生成速度提高了11倍,但仍产生与顺序技术相媲美的结果。 “`

Leave a Comment

卡尔斯鲁厄理工学院(KIT)的研究人员利用深度学习提高了降水映射的空间和时间分辨率

由于气候变化,极端天气,特别是暴雨事件预计会更频繁。许多自然灾害,如洪水或山体滑坡,直接由极端降水引起。基于气候预测的模型经常被使用。现有的气候模型必须提高准确代表高度变化的大气现象的能力。研究人员预计,不断增长的平均温度将导致极端降水事件进一步增加。 卡尔斯鲁厄理工学院(KIT)的研究人员利用人工智能(AI)的力量来提高全球气候模型生成的粗糙降水图的精确性。 研究人员强调,该模型将降水场的时间分辨率从一小时缩短到十分钟,并将空间分辨率从32提高到两千米。他们表示,更高的分辨率对于预测未来发生的局部暴雨事件和随之而来的自然灾害至关重要。 该方法涉及应用生成式神经网络,具体而言就是生成对抗网络(GAN),这是一种AI形式。这个GAN使用高分辨率雷达降水数据进行训练,使其能够以显著更高的空间和时间分辨率学习和模仿逼真的降水场。 现有的全球气候模型使用的网格缺乏捕捉降水变异性所需的细节。而且,传统上生成高分辨率的降水图需要计算上昂贵的模型,导致了空间或时间上的限制。 根据研究人员的说法,这就是开发基于高分辨率雷达降水场进行训练的GAN的原因。通过这种方式,GAN从粗略解决的数据中学习如何生成逼真的降水场并确定其时间序列。 与三线性插值和经典卷积神经网络相比,生成模型以高技巧重建分辨率相关的极值分布。在15 mm h−1降雨强度上表现出0.6的高分数技巧得分和3.35%的低相对偏差。 根据研究人员的解释,他们的方法产生了多种可能的降水场解集合。这一点很重要,因为对于每个粗糙解决的降水场,存在许多在物理上可能的高分辨率解。 他们解释说,使用这种方法模拟的降水事件更高的分辨率将有助于更好地估计2021年阿尔河洪水天气条件在2度更温暖的世界中所造成的影响。 总之,该模型提供了一种增强全球气候模型预测降水精度的解决方案。这一进展有助于更准确的气候预测。它有潜力在变化的气候下更好地理解和应对极端天气事件的后果。

Leave a Comment

2024年您必须探索的10款最佳GPU

简介 在人工智能(AI)、机器学习(ML)和深度学习(DL)的时代,对强大计算资源的需求已经达到了一个高潮。这场数字革命将我们推进到了未知的领域,在这里,数据驱动的洞察力是创新的关键。但要打开这些领域,我们需要与我们的壮志相匹配的工具。 这就是神奇的云GPU世界,我们数字时代的无名英雄。这些通用计算单元,通常简称为GPU,不仅仅是计算资源,它们更是无限动力的引擎。云GPU为用户提供了使用超级计算能力的非凡能力,而无需承担沉重的前期硬件投资负担。 本指南将带你踏上一段激动人心的旅程,探索主要云供应商,揭示它们的优势和隐藏的亮点,让你在AI/ML/DL的道路上变得更强大。 最佳GPU概览 供应商 GPU选项 定价 免费层 独特功能 最佳用途 亚马逊网络服务(AWS) T4,G4ad(Radeon Pro V520) 按需与竞价实例 是(有限制) 多样的GPU选择,广泛的生态系统 大型企业,对工作负载要求高的场景 微软Azure T4,A100,V620,M60,MI25 按使用量付费与预留实例 是(有限制) 高性能N系列GPU AI,机器学习,科学计算…

Leave a Comment

这篇人工智能论文探讨了利用深度学习解决神经运算中的自回归错误,以实现高级时空预测

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-14-at-1.29.58-AM-1024×635.png”/> <img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-14-at-1.29.58-AM-150×150.png”/> <p>本研究探讨了自回归神经算子领域中一个艰巨的挑战:延长预测时间范围的能力受限。虽然自回归模型有着很大的潜力,但其不稳定性问题严重影响了其在时空预测中的有效性。这个普遍存在的问题涉及从相对平滑的领域到以ERA5等数据集为代表的复杂的大规模系统的各种情况。 <p>当前的方法在试图延长自回归神经算子的时间预测范围时面临着严峻的障碍。鉴于这些局限性,研究团队提出了一种革命性的解决方案来增强可预测性。该方法通过对频谱神经算子进行根本性的架构转变,以缓解不稳定性问题。与现有方法形成鲜明对比的创新方法赋予这些算子无限的预测时间范围,标志着一个重大的飞跃。 <p>目前,自回归神经算子在预测能力方面遇到了一个重大障碍,无法超越有限的时间范围。传统方法的不稳定性问题限制了其在复杂的时空预测场景中的有效性。针对这个问题,研究团队提出了一种新颖的解决方案,从根本上重塑了频谱神经算子的架构,开启了预测时间范围的潜力。 <p>提出的方法的核心在于重构神经算子块。为了解决混叠和不连续性等挑战,研究人员引入了一个新颖的框架,其中非线性函数始终紧随可学习的滤波器之后,这些滤波器能够有效处理新生成的高频分量。一个关键的创新是引入动态滤波器,取代静态卷积滤波器,并根据特定的数据进行调整。这种适应性通过频率域中的模式多层感知器(MLP)实现。 <p>提出的方法的精髓在于重新构想神经算子块。为了解决混叠和不连续性等挑战,研究人员引入了一个复杂的框架,其中非线性函数始终紧随可学习的滤波器之后,这些滤波器擅长处理新生成的高频分量。一个开创性的元素是将动态滤波器与传统的静态卷积滤波器替换,以适应特定数据的复杂性。这种适应性通过频率域中的模式多层感知器(MLP)实现。 <figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/pJ92lyIAeUqFKKoR7NqTsQ7V5yn9_1PlJBbl4xX6XG-kBZQWZWFaO0Yja8oPN0xANRMvBMyimdjeKHYFMTWEtItS4KliuxsGGdt_28T045Ildl2zyjCX1XFHx8E2d7xIwczLogd46TPgu5UJnvJV9Tw”/><figcaption>https://openreview.net/forum?id=RFfUUtKYOG</figcaption></figure> <p>实验结果突显了该方法的功效,显示了显著的稳定性改善。当将该方法应用于旋转浅水方程和ERA5数据集等场景时,这一点尤为明显。通过频率自适应MLP生成的动态滤波器对于确保模型对多种数据集的适应性至关重要。通过将静态滤波器替换为动态对应物,该方法能够灵活处理与数据相关的混叠模式,这是固定策略无法实现的。 <figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/ui3wefz0SoNWsJo9njj6tWnCZncx0EtcpS76P1ZRRrFRCk2-wlyfi6sMB9gUo9ks3smjjfdjfJI_3tRbF9uG_vGmh2x6mHpvuY9StcgE2hQQzYzUkaY2Ik9NFgkCO2zE-cgpvLd6_FVKxHrNljpBAkU”/><figcaption>https://openreview.net/forum?id=RFfUUtKYOG</figcaption></figure> <p>总结起来,本研究对于克服自回归神经算子中延长预测时间范围的持久挑战具有开创性的意义。通过重构神经算子块,引入通过频率自适应MLP生成的动态滤波器,是一种高效的策略,可以缓解不稳定性问题,实现无限的预测时间范围。在研究界处理预测的复杂性时,这项工作可以作为一个指南,引领未来努力朝着更健壮和可靠的时空预测模型前进。

Leave a Comment

通过扩散实现自适应学习:尖端范式

介绍 在教育和机器学习的不断发展中,适应性学习通过扩散的整合代表了一种范式转变。这种先进的方法利用了扩散的原理来量身定制学习经验,无缝地适应个体学习者的需求和学习节奏。在本文中,我们将深入探讨适应性学习通过扩散的细微差别,探索其潜在概念,应用于不同领域以及对学习者和教育工作者的转变性影响。 学习目标 了解在教育和机器学习背景下,适应性学习通过扩散的核心原理。 探索适应性学习架构的关键组成部分,包括学习者模型、辅导模型和知识领域。 深入了解适应性学习通过扩散在不同领域中的实际应用,如教育科技、企业培训和医疗教育。 获取有关实现动态内容扩散、个性化学习路径和实时反馈扩散的高级代码段的知识。 认识到适应性学习通过扩散对学习者和教育工作者的转变性影响,包括在赋予学习者力量和提高教育效率方面的作用。 本文是作为数据科学博文马拉松的一部分发表的。 理解适应性学习通过扩散 适应性学习通过扩散的核心是在教育模型中思考扩散过程的应用。扩散,作为物理和数学的基本概念,描述了物质或信息通过VoAGI的传播。在教育领域中,这意味着智能地传播和吸收知识,根据每个人独特的学习轨迹进行调整。 适应性学习架构 学习者模型 适应性学习架构的核心是学习者模型。这个动态实体捕捉到学习者的独特属性,包括熟练水平、现有知识、指定的学习目标和偏好的学习风格。学习者模型充当了一个个性化的蓝图,通过每次互动的演变和适应提供一个精心调整的学习体验。 现有知识、指定的目标、学习风格 现有知识:学习者已经掌握的内容被包含在学习者模型中。通过评估先前的知识,系统避免了冗余,并调整内容以弥补现有的差距。 指定的目标:学习者被分配的学习目标是另一个重要方面。这些目标作为标准,指导适应性系统筛选与学习者特定教育目标相符的内容。 学习风格:了解学习者最好吸收信息的方式很重要。学习风格包括视觉、听觉、动觉等偏好。适应性学习架构利用这些信息以优化适合个体学习偏好的内容发送方式。 辅导模型 辅导模型是负责内容适应的智能核心。它利用从学习者模型中得出的见解来动态调整教育内容的难度、节奏和格式。该模型使用复杂的算法确保学习材料与学习者当前的熟练水平和学习风格相契合,促进更有效的学习体验。 知识领域 知识领域涵盖了可供学习的全部主题。它作为Tutoring模型从中提取内容的广泛库存。适应性学习架构确保从知识领域中选取的内容与学习者的目标相符,优化教育过程。 输出给学习者 适应性学习架构的最终输出是为个体学习者量身定制的学习体验。这个输出包括量身定制的课程、评估和反馈,旨在最大限度地提高学习者对材料的理解和保持。适应性系统根据实时交互和学习者不断变化的需求对这个输出进行不断改进。 从本质上讲,适应性学习架构将教育转变为一个动态、个性化和反应灵敏的过程。通过交织学习者模型、现有知识、指定的目标、学习风格、辅导模型、知识领域和输出给学习者,这个架构为更有效和引人入胜的学习旅程铺平了道路。…

Leave a Comment

谷歌AI与中佛罗里达大学的研究人员发布了开源的虚拟化身图库,旨在促进包容和多样性(VALID)

来自Google AR & VR与佛罗里达中央大学的研究团队合作开展了一项全面研究,验证了一个名为VALID的虚拟化身库,其中包含了210个完全装配的化身,代表了七种多样化的种族。七种种族的选择是在美国人口普查局的指导下进行的。他们利用了数据驱动的面部平均值,并与每个种族的志愿代表合作,创建了42个基本化身(7种种族 X 2种性别 X 3个个体)。该研究涉及全球参与者,以获取每个化身被感知的种族和性别的经过验证的标签和元数据。 验证过程采用了主成分分析(PCA)和K均值聚类,以了解参与者如何感知化身的种族。为了确保参与者在种族和性别上的多样性,总共选择了来自全球33个不同国家的132名参与者进行研究。 结果显示,亚洲人、黑人和白人化身在各种族的参与者中被一致认可。然而,代表美洲印第安和阿拉斯加原住民(AIAN)、西班牙裔、中东和北非(MENA)以及夏威夷和太平洋岛民(NHPI)种族的化身显示出更多的模糊性,其感知差异基于参与者的种族。如果某个化身被相应的同类种族参与者认定为其预期种族,则该化身以该种族命名。 在讨论中,研究人员强调了亚洲人、黑人和白人化身的成功识别率超过了95%,挑战了识别与自己不同种族人脸准确度约为65-80%的观念。他们将这归因于知觉专业知识或对多样化种族群体的熟悉程度,可能受全球媒体表现的影响。 观察到自我种族偏见效应,一些化身主要由同类种族的参与者正确识别。例如,西班牙裔化身在参与者中获得了不同的评级,但在仅有西班牙裔参与者中更准确地被感知。该研究强调了在虚拟化身研究中考虑参与者种族的重要性,以确保准确的表现。 由于识别不清晰,某些化身被标记为模糊,像发型这样的因素会影响感知。夏威夷和太平洋岛民化身的验证面临着局限性,突显了表现的挑战和更广泛的招募工作的需求。 研究团队讨论了虚拟化身应用的影响,强调了同组内和异组间的分类和刻板印象及社会判断的潜力。他们建议引入规定,以改善虚拟现实中的跨种族互动。 作为对研究界的贡献,该团队提供了开放访问的VALID化身库,为各种场景提供了多样化的适用化身。该库包括65个面部变形形状的化身,用于动态表情,并与Unity和Unreal等流行游戏引擎兼容。研究人员承认了局限性,例如关注年轻和体格健壮的成年人。他们概述了未来更新中通过引入不同地区分类、身体类型、年龄和性别来扩大多样性的计划。 总结而言,研究团队成功创建和验证了一个多样化的虚拟化身库,挑战了刻板印象并促进了包容。该研究强调了自我种族偏见对化身感知的影响,并为开发和应用虚拟化身在各个领域提供了宝贵的见解。该开放访问的VALID库被定位为研究人员和开发者寻找多样化和包容性化身的宝贵资源。

Leave a Comment

微软AI发布了LLMLingua:一种独特的快速压缩技术,可用于压缩大型语言模型(LLMs)的提示,以加快推理速度

鉴于大型语言模型(LLM)具备较强的概括和推理能力,它们显著地提升了人工智能(AI)社区的水平。这些模型在自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面展示了令人瞩目的能力。然而,包括语境学习(ICL)和思维链(CoT)提示在内的新发展,导致了使用较长提示的部署,有时甚至超过几万个令牌。这在模型推理方面带来了成本效益和计算效率的问题。 为了克服这些挑战,微软公司的研究团队推出了LLMLingua,一种独特的粗粒度快速压缩技术。LLMLingua的主要目标是最小化与处理长提示相关的开销,并加速模型推理。为此,LLMLingua采用了一些重要策略,包括以下几点。 预算控制器:创建了一个动态预算控制器,用于分配压缩比率给原始提示的各个部分。这确保提示的语义完整性在大量压缩比率下仍然保持。 令牌级迭代压缩算法:将令牌级迭代压缩算法集成到LLMLingua中。这种技术通过捕捉压缩元素之间的相互依赖关系,实现了更复杂的压缩,同时保留了提示的关键信息。 基于指令调整的方法:该团队提出了一种基于指令调整的方法,以解决语言模型之间分布不匹配的问题。调整语言模型的分布可以提高用于快速压缩的小语言模型与预期的LLM之间的兼容性。 研究团队使用来自不同情况的四个数据集进行了分析和实验,以验证LLMLingua的实用性。这些数据集包括推理的GSM8K和BBH、对话的ShareGPT以及摘要的Arxiv-March23。结果表明,该方法在每种情况下都取得了最先进的性能。结果甚至显示,LLMLingua可以在牺牲很少性能的情况下,实现高达20倍的显著压缩。 实验中使用的小语言模型是LLaMA-7B,封闭式LLM是GPT-3.5-Turbo-0301。LLMLingua在最大压缩比20倍时超越了以前的压缩技术,在保留推理、摘要和讨论能力方面表现出了韧性、经济性、高效性和可恢复性。 LLMLingua的有效性在多个封闭式LLM和小语言模型中得到证实。在使用GPT-2-small时,LLMLingua展示了出色的性能结果,与更大的模型大致匹配。它还在强大的LLM上表现出色,超过了预期的快速结果。 LLMLingua的可恢复性是一个值得注意的方面,因为当使用它来恢复压缩的提示时,GPT-4能够有效地从完整的9步CoT提示中检索重要的推理信息,并保持原始提示的含义和相似性。这个功能保证了可恢复性,即使在翻译后仍保留了关键信息,增加了LLMLingua的整体印象。 总而言之,LLMLingua为LLM应用中长提示带来的困难提供了全面的解决方案。该方法展现了出色的性能,并提供了提高LLM应用的效果和价格效益的有用途径。

Leave a Comment

Together AI推出了StripedHyena-7B:一种替代性的人工智能模型,与最优秀的开源变压器在短期和长期上下文评估中具有竞争力

AI ​​一起为序列建模架构作出了重大贡献,并引入了StripedHyena模型。它通过为传统的Transformer提供了新的选择,专注于计算效率和增强性能,彻底改变了这一领域。 此发布包括基础模型StripedHyena-Hessian-7B(SH 7B)和聊天模型StripedHyena-Nous-7B(SH-N 7B)。StripedHyena基于去年创建的H3、Hyena、HyenaDNA和Monarch Mixer等有效的序列建模架构的重要经验教训。 研究人员强调,该模型在训练、微调和生成过程中处理长序列时具有更快的速度和更高的内存效率。StripedHyena通过将门控卷积和注意力结合到他们所称的Hyena运算符中的混合技术中。此外,这是与强大的Transformer基础模型竞争的首个替代架构。在包括OpenLLM leaderboard任务的短上下文任务中,StripedHyena优于Llama-2 7B、Yi 7B和最强Transformer替代方案(如RWKV 14B)。 该模型在处理短上下文任务和处理较长提示的过程中通过研究各种基准进行了评估。在Project Gutenberg书籍上进行的困惑度缩放实验表明,困惑度在32k处饱和或在此点之后下降,这意味着模型能够吸收来自较长提示的信息。 StripedHyena通过一种独特的混合结构实现了效率,该结构将注意力和门控卷积组织成Hyena运算符。他们使用创新的嫁接技术优化了这种混合设计,在训练过程中实现了架构修改。 研究人员强调,StripedHyena的主要优势之一是其在训练、微调和生成长序列等各种任务中的速度和内存效率的提升。它在32k、64k和128k上的端到端训练中,分别比使用FlashAttention v2和自定义内核进行优化的Transformer基准性能提高了30%、50%和100%。 未来,研究人员希望在几个领域取得显著进展,其中包括StripedHyena模型。他们希望创建能够处理更长上下文的更大模型,从而扩大信息理解的限制。此外,他们还希望融入多模态支持,通过允许它处理和理解来自不同来源(如文本和图像)的数据,提高模型的适应性。 总之,该模型有望通过引入额外的计算(例如在门控卷积中使用多个头)改进Transformer模型。这种受线性注意力启发的方法,在H3和MultiHyena等架构中已被证明有效,提高了模型在训练过程中的质量,并为推理效率提供了优势。

Leave a Comment

这篇人工智能论文介绍了MVControl:一种革命性的神经网络架构,改变了可控多视角图像生成和3D内容创作的方式

最近,在2D图片制作方面取得了显著的进展。输入文本提示使生成高保真度图形变得简单。因为需要3D训练数据,所以将文本到图像创建的成功很少转移到文本到3D领域。由于扩散模型和可微分3D表示的良好特性,最近基于分数蒸馏优化(SDS)的方法旨在从预训练的大型文本到图像生成模型中蒸馏3D知识,并取得了令人印象深刻的结果,而不是使用大量3D数据从头开始训练大型文本到3D生成模型。DreamFusion是一项引入了新方法的示范性工作,用于3D资产创建。 在过去的一年中,这些方法论已迅速发展,根据2D到3D蒸馏范式。通过应用多个优化阶段,同时优化扩散和3D表示,制定具有更高精度的分数蒸馏算法,或改进整个流程的细节,已提出了许多研究来提高生成质量。虽然上述方法可以产生细腻的纹理,但由于2D扩散先验不是依赖性的,确保生成的3D内容的视图一致性是困难的。因此,已经做出了一些努力,将多视图信息强制加入预训练的扩散模型中。 然后,将基本模型与控制网络集成,以实现受控的文本到多视图图片生成。同样,研究团队仅训练控制网络,MVDream的权重全部冻结。实验表明,相对于绝对世界坐标系中描述的相机姿态条件图片,相对于条件图片的相对姿态条件更好地控制文本到多视图生成,尽管MVDream是在训练时使用绝对世界坐标系中的相机姿态进行训练的。尽管如此,这与预训练的MVDream网络的描述相违背。此外,只有通过直接采用2D ControlNet的控制网络与基本模型交互时,才能轻松实现视图一致性,因为它的条件机制是为单一图像创建而构建的,需要考虑多视图情况。 为了解决这些问题,浙江大学、西湖大学和同济大学的研究团队基于原始的ControlNet架构创建了一种独特的调节技术,简单而成功地实现了受控的文本到多视图生成。他们联合使用了庞大的2D数据集LAION和3D数据集Objaverse来训练MVControl。在这项研究中,研究团队研究了将边缘图作为条件输入。然而,他们的网络在利用不同类型的输入情况(如深度图、草图图像等)方面是无限制的。一旦训练完成,研究团队可以使用MVControl为受控文本到3D资产生成提供3D先验。具体而言,研究团队使用基于MVControl网络和预训练的Stable-Diffusion模型的混合扩散先验。这是一个由粗到细的生成过程。当在粗阶段拥有良好的几何形状时,研究团队仅优化细化步骤中的贴图。他们的全面测试表明,他们提出的方法可以使用输入条件图像和书面描述生成高保真度、细粒度受控的多视图图像和3D内容。 总结起来,以下是他们的主要贡献。 • 在训练完成网络后,可将其用作混合扩散的组成部分,通过SDS优化实现对文本到3D内容合成的受控。 • 研究团队提出了一种独特的网络设计,以实现细粒度受控的文本到多视图图片生成。 • 他们的方法可以生成高保真度的多视图图像和3D资产,在输入条件图像和文本提示的精细控制下,如 extensive experimental results 所示。 • 除了通过 SDS 优化生成 3D 资产外,他们的 MVControl 网络还可以在 3D…

Leave a Comment

元AI宣布紫色羊驼,以协助社区通过开放和生成式AI模型进行道德建设

由于自动回归语言建模的数据增加、模型规模和计算能力的成功,会话式AI代理在过去几年中实现了显著的飞跃。聊天机器人通常使用大型语言模型(LLMs),以其众多有用的技能而闻名,包括自然语言处理、推理和工具熟练度。 这些新应用需要经过全面的测试和谨慎的发布,以减少潜在的危险。因此,建议由生成性AI驱动的产品实施防止生成违反政策的高风险内容的保障措施,以及防止对模型进行敌对输入和越狱的尝试。其中包括资源,如Llama 2负责任使用指南。 在寻找控制在线内容的工具时,Perspective API1、OpenAI内容审查API2和Azure内容安全API3都是很好的起点。然而,当将它们用作输入/输出保障措施时,这些在线审查技术在几个方面存在问题。首先,目前无法区分用户和AI代理在他们所带来的危险方面的区别;毕竟,用户要求信息和帮助,而AI代理更有可能提供。此外,用户无法根据新政策更改工具,因为它们都有固定的政策需要执行。第三,无法将它们调整为特定的使用案例,因为每个工具仅提供API访问。最后,所有现有工具都是基于普通的传统Transformer模型。与更强大的LLMs相比,这严重限制了它们的潜力。 新的Meta研究揭示了一种用于输入输出保护的工具,它将会话式AI代理的提示和响应中的潜在危险进行分类。这填补了该领域中将LLMs用作审查基础的一个需求。 他们使用基于分类学的数据来对Llama Guard进行微调,这是一个基于逻辑回归的输入输出保护模型。Llama Guard将相关分类学作为输入来分类羊驼,并应用指令职责。用户可以使用零样本或少样本提示来个性化模型输入,以适应不同的使用案例相应的分类法。在推断时,可以选择几个微调的分类法,并相应地应用Llama Guard。 他们提出了区分LLM输出(AI模型的响应)和人类请求(对LLM的输入)的独特指南。因此,Llama Guard可以捕捉到用户和代理责任之间的语义差异。利用LLM模型遵循指令的能力,他们只需要一个模型就可以完成这个任务。 他们还推出了Purple Llama。将来,它将成为一个综合资源和评估项目,以帮助社区在以开放、生成的AI模型进行伦理建设方面取得成功。网络安全和输入/输出保护工具和评估将是首次发布的一部分,更多的工具将会陆续推出。 他们为业界提供了首个全面的LLM网络安全评估指南。这些指南是与他们的安全专家一起开发的,并基于行业建议和标准(如CWE和MITRE ATT&CK)。在这个首次发布中,他们希望提供资源,以帮助减轻在白宫创建负责任的人工智能的承诺中提到的一些危险,例如: 量化LLM网络安全威胁的度量标准。 评估不安全代码提案的工具。 评估使LLM编写恶意代码或进行网络攻击更加困难的工具。 他们预计这些工具将通过减少提出不安全的AI生成代码的频率来减少LLM对网络攻击者的效用。他们的研究发现,当LLM建议不安全代码或配合恶意请求时,将会带来严重的网络安全问题。 在应用特定内容限制方面,所有LLM的输入和输出都应根据Llama 2负责任使用指南进行审查和过滤。 该模型使用公开可用数据集的组合进行训练,以检测可能有害或侵权信息的常见类别,这些信息可能与各种开发者使用案例相关。通过公开可用其模型权重,他们消除了实践者和研究人员依赖带宽有限的昂贵API的需求。这为进一步的实验和根据个人需求调整Llama Guard的能力打开了大门。

Leave a Comment

CMU和普林斯顿大学的研究人员揭开了Mamba的面纱:一种突破性的SSM架构,超越变压器的效率,用于多模式深度学习应用

在当代机器学习中,基础模型是成功的典范,它们是在大量数据上进行预训练,然后修改以用于下游任务。序列模型是这些基础模型的基础,它们可以处理来自各个领域的任意序列输入,包括语言、图片、声音、音频、时间序列和基因组等。尽管这个想法与任何特定的模型设计无关,但Transformer及其核心的自注意力层是当代大多数基础模型的基础。自注意力是有效的,因为它可以通过紧密地在一个上下文窗口内传递信息来表示复杂的事实。 然而,这种属性有两个基本缺点。一个是窗口长度的二次缩放,另一个是无法描述有限窗口之外的任何事物。为了解决这些缺点,对更有效的注意力相关策略进行了大量研究,然而往往以注意力成功的相同品质为代价。这些变化尚未在各个领域的大规模实验证明其有效性。结构化状态空间序列模型是一类新颖且令人兴奋的序列建模体系结构。这些模型受传统状态空间模型的影响,可以看作是卷积神经网络和循环神经网络的混合体。 这类模型在序列长度方面具有线性或几乎线性的扩展,并且可以通过递归或卷积计算非常快速。它们还主导了Long Range Arena等基准测试,并为在某些数据模态中建模长程相互依赖性定义了工具。许多SSM(结构化状态空间模型)的变种在需要连续信号数据的音频和视觉等领域显示出了有效性。但在建模离散、信息密集的文本等方面,它们尚未取得如此成功。 卡内基梅隆大学和普林斯顿大学的研究团队提出了一种新颖的选择性状态空间模型的类别,通过在几个维度上增强了早期研究,以获得类似Transformer的建模能力,同时保持与序列长度的线性关系。 选择机制。首先,我们指出早期模型的一个重要缺陷:它们无法以有效的方式根据输入选择数据。研究团队通过根据输入参数化SSM参数来提供一个简单的选择过程,借鉴了从选择性复制和归纳头等重要的合成任务中获得的理解。这使得模型能够永久地保留相关信息,同时消除不必要的数据。 硬件感知代码。这种简单的修改在技术上对模型的计算构成挑战;所有以前的SSM模型在计算上必须是输入和时间不变的,以保证计算效率。为了防止在GPU内存层次结构的不同层之间进行IO访问,我们使用了一种硬件感知方法,使用扫描而非卷积对模型进行递归计算。然而,扩大的状态没有实现。得到的实现在当前硬件上比以前的技术更快,并且在理论建模设计中也更好。 架构:为了提供一种简单和均匀的架构设计,将以前的SSM架构设计与Transformer的MLP块相结合,形成一个单一的块,简化了以前的深度序列模型设计。 选择性SSM和Mamba架构的关键特性使它们成为更广泛的基础模型的基石,这些模型可以处理完全循环的序列,具有以下特点: (i) 高质量:选择性在遗传学和语言等密集模态上表现良好 (ii) 快速推断和训练:在推断过程中,自回归展开模型每一步只需要常数时间,因为它不需要先前组件的缓存,并且计算和内存随序列长度线性扩展 (iii) 长上下文:结合质量和效率,可以在实际数据上获得长达100万长度序列的性能提升 研究团队通过实验证明了Mamba作为通用序列FM骨干模型在各种模态和任务中的潜力: • 人工材料。Mamba不仅可以轻松解决关键的合成任务,如复制和归纳头任务,而且可以无限延伸解决无限长度的问题。 • 基因组和音频。在建模音频波形和DNA序列方面,Mamba要优于以前的最先进模型,如SaShiMi、Hyena和Transformers。其性能在两种情况下都随着更多上下文(长达一百万长度的序列)的增加而改善。 • 建模语言。曼巴(Mamba)代表了第一个能够在下游评估和预训练困惑度中真正达到类Transformer性能的线性时间序列模型。 研究团队证明了曼巴(Mamba)胜过了许多基线,包括基于 LLaMa…

Leave a Comment

微软研究员提出TaskWeaver:一种用于构建具有LLM驱动的自主代理的代码优先机器学习框架

大型语言模型(LLM)展示了令人印象深刻的自然语言创作和解释能力。这些模型的例子包括GPT、Claude、Palm和Llama。许多应用程序,如聊天机器人、虚拟助手和内容生成系统,广泛使用了这些模型。LLM可以通过提供更直观、更自然的体验,完全改变人与技术的互动方式。代理被定义为能够计划任务、监视环境并采取适当行动响应的自主实体。使用大型语言模型(LLM)或其他AI技术的代理属于此类。 许多框架已经尝试使用LLM进行任务导向型对话,包括Langchain、Semantic Kernel、Transformers Agent、Agents、AutoGen和JARVIS。使用这些框架,用户可以通过用简单的语言提问并获取答案的方式与LLM驱动的机器人进行交流。然而,许多框架存在诸多缺点,限制了它们在数据分析活动和特定领域的情况下的性能。大多数当前框架在处理复杂数据结构(如嵌套列表、字典或数据框)方面,没有原生支持是它们的主要缺点之一。 然而,许多当前框架在处理这些结构时需要帮助,尤其是在不同插件或聊天轮之间共享数据时。在这些情况下,这些框架会将复杂的结构编码为字符串或JSON对象,并将数据存储到磁盘上。这些方法是有效的;然而,特别是在处理大型数据集时,它们可能变得复杂并增加错误率。当前方法无法配置以包括领域知识的能力是另一个缺点。虽然这些框架提供了快速的工程工具和示例,但它们必须提供一种将领域特定信息整合到规划和代码生成过程中的系统化方法。 由于约束的存在,很难根据特定领域需求来控制规划和代码生成过程。许多当前框架面临的另一个问题是它们可能缺乏灵活性,很难适应广泛的用户需求。插件可以处理常见需求,但可能需要帮助来处理临时需求。为每个临时查询编写不同的插件是不可行的。在这些情况下,代理根据用户查询开发独特的代码执行能力变得至关重要。为解决这个问题,需要一种能够平稳地将定制代码执行与插件执行相结合的解决方案。 为了克服这些缺点,微软的研究团队提出了TaskWeaver,这是一个用于创建LLM驱动的自主代理的面向代码的框架。TaskWeaver的独特特性是它能够将用户定义的插件视为可调用的函数,将每个用户请求转换为可执行的代码。TaskWeaver支持复杂的数据结构、灵活的插件使用和动态插件选择,帮助克服其他框架的缺点。它通过利用LLM的编码能力实现复杂逻辑,并通过示例集成领域特定知识。 此外,TaskWeaver为开发人员提供直观的界面,并显著提高了所创建代码的安全执行。研究团队在本文中描述了TaskWeaver的体系结构和实现,并展示了它在不同任务处理方面的出色表现。TaskWeaver为创建具有智能能力的对话代理提供了一个强大而灵活的框架,能够处理具有挑战性的任务并根据特定领域条件进行调整。

Leave a Comment

中国最大、最繁忙的机场迎来视觉人工智能时代的腾飞

加拿大安大略省的多伦多皮尔逊国际机场是该国最大、最繁忙的机场,每年为约5000万名乘客提供服务。 为了提升旅客体验,机场于6月份部署了Zensors AI平台,该平台利用现有安全摄像头的匿名化镜头内容生成空间数据,以实时优化运营。 Zensors是NVIDIA Metropolis视觉AI合作伙伴生态系统的成员之一,帮助多伦多皮尔逊机场的运营团队大幅减少海关排队时间,将乘客在2022年高峰期从估计的30分钟减少到去年夏天不到6分钟。 公司联合创始人兼产品和技术负责人Anuraag Jain表示:“Zensors让所有人都能轻松使用视觉AI。” 对于大多数组织来说,扩展多模态、基于转换器的AI并不容易,Jain补充道,因此机场通常会按照传统的、效果较差的解决方案进行选择,基于硬件传感器、激光雷达、3D立体摄像头进行改进,或者通过翻新或建设新的航站楼来改善运营,这可能是耗资数十亿美元的项目。 Jain表示:“我们提供一个平台,让机场更像软件公司,利用现有摄像头和最新的AI技术,快速、廉价、准确地部署解决方案。” 加速机场运营 为了满足不断增长的旅行需求,多伦多皮尔逊需要一种方法,能在几周内改善运营,而不是通常需要数月或数年的时间来升级或建设新的航站楼基础设施。 Zensors AI平台在机场的两个航站楼监测了20多条海关通道,提供了这样一个解决方案。它将机场现有摄像系统的视频转换为结构化数据。 利用匿名化的镜头内容,该平台计算排队人数、识别拥堵区域、预测乘客等待时间等任务,并实时提醒员工以加快操作。 该平台还提供分析报告,帮助运营团队评估绩效、更有效地规划并重新部署人员以实现最佳效率。 除了为机场运营商提供数据驱动的见解外,Zensors AI的实时等待时间统计数据还会发布在多伦多皮尔逊的在线仪表板上,以及航站楼的电子显示屏上。这让乘客可以轻松获取有关海关或安检流程所需时间的准确信息,全面提升客户满意度,并减少对于能否及时乘上联程航班的担忧。 “我们从Zensors平台获得的分析结果证明非常准确,”多伦多皮尔逊机场的管理公司,大多伦多机场管理局的机场IT规划和发展主管Zeljko Cakic表示。“我们的目标是提高整体客户体验和减少等待时间,而通过Zensors平台收集的数据是推动这些结果的重要因素之一。” NVIDIA驱动的准确AI Zensor AI使用视觉转换器模型来提供准确的见解,其准确度与人工手动验证信息相比约为96%。这一切都由NVIDIA技术驱动。 Jain表示:“Zensors模型开发和推断运行时堆栈实际上就是NVIDIA AI堆栈。” 该公司使用NVIDIA的GPU和CUDA并行计算平台来训练其AI模型,还使用基于深度神经网络的加速库cuDNN和用于解码和增强图像和视频的NVIDIA…

Leave a Comment

2024年的17个预测:从贫穷到财富,从披头士狂热到国家宝藏

向一边去,韦伯斯特:今年企业发现了许多候选词来评选年度词汇。紧随其后的是诸如“生成式人工智能”和“生成式预训练变压器”之类的术语,整个行业都将注意力转向变革性的新技术,如“大型语言模型”和“检索增强生成”(RAG)。 一开始,“生成式人工智能”只是一个较小的关注点,但最后却以耀眼姿态收场。许多公司正在迅速利用其能够处理文本、语音和视频的能力,产生革新性的内容,从而彻底改变生产力、创新力和创造力。 企业正在顺应这一趋势。根据麦肯锡公司的数据,像OpenAI的ChatGPT这样的深度学习算法,再加上企业数据的进一步训练,每年可以为63个商业用例带来相当于2.6万亿至4.4万亿美元的价值。 然而,管理大量的内部数据往往被认为是扩展人工智能的最大障碍。一些AI领域的NVIDIA专家预测,2024年将成为联络朋友的一年——与云服务提供商、数据存储和分析公司以及其他掌握处理、优化和高效部署大数据的技能的公司建立伙伴关系和合作。 大语言模型是这一切的核心。NVIDIA专家表示,LLM研究的进展将越来越多地应用于商业和企业应用领域。通过几乎任何平台,诸如RAG、自主智能代理和多模态互动等AI功能将变得更加易于获取和部署。 听取NVIDIA专家对未来一年的预测: MANUVIR DAS企业计算副总裁 一刀切不适用于所有情况:定制化即将进入企业。企业将不会只有一两个生成式人工智能应用,它们会有数百个定制应用,使用适合于业务不同部分的专有数据。 一旦投入生产,这些定制化的LLM将具备RAG功能,将数据源与生成式人工智能模型连接起来,以获得更准确、更明智的响应。像Amdocs、Dropbox、Genentech、SAP、ServiceNow和Snowflake这样的领先公司已经在构建使用RAG和LLM的全新生成式人工智能服务。 开源软件引领潮流:得益于开源预训练模型,解决特定领域挑战的生成式人工智能应用将成为企业运营策略的一部分。 一旦公司将这些先导模型与私有或实时数据结合起来,他们就可以开始在整个组织中看到加速的生产力和成本效益。从基于云计算和人工智能模型铸造服务到数据中心、边缘和桌面,AI计算和软件将在几乎任何平台上变得更加易于获取。 现成的人工智能和微服务:生成式人工智能促使应用程序编程接口(API)端点的采用增加,这使得开发人员能够构建复杂的应用程序更加容易。 到2024年,软件开发工具包和API将升级,开发人员将使用生成式人工智能微服务(例如RAG作为服务)来定制现成的AI模型。这将帮助企业充分发挥以智能助手和摘要工具为代表的以AI驱动的生产力的潜力,这些工具可以获取最新的业务信息。 开发人员将能够直接将这些API端点嵌入到他们的应用程序中,而无需担心维护支持这些模型和框架所需的基础设施。最终用户将能够体验到更直观、更具响应性和更符合需求的应用程序。 IAN BUCK超大规模和高性能计算副总裁 国家财富:人工智能将成为新的太空竞赛,每个国家都希望建立自己的卓越中心,推动研究和科学的重大进展,提高国内生产总值。 只需要几百个加速计算节点,各国就能迅速构建高效、高性能、百亿亿次量级的AI超级计算机。政府资助的生成式AI卓越中心将通过创造新的工作岗位和建设更强大的大学项目推动国家经济增长,培养下一代科学家、研究人员和工程师。 量子飞跃:企业领导者将以两个关键驱动因素启动量子计算研究项目:利用传统AI超级计算机模拟量子处理器的能力以及混合经典量子计算的开放统一开发平台的可用性。这使得开发人员可以使用标准编程语言而不需要定制的、专门的知识来构建量子算法。 曾经在计算机科学中被认为是一个隐晦的领域,随着企业加入学术界和国家实验室追求材料科学、制药研究、亚原子物理和物流的快速进展,量子计算探索将变得更加主流。 KARI BRISKI副总裁,AI软件 从试错到致富:随着企业采用这些AI框架,对试错增强生成技术(RAG)将会有更多的讨论。 当企业培训LLM来构建生成式AI应用程序和服务时,当模型在某种用例下没有足够准确、相关的信息时,RAG被广泛视为解决不准确或荒谬回答的方法。…

Leave a Comment

日内瓦大学的研究人员调查了一种基于图形的机器学习模型,用于预测多重耐药(MDR)肠道杆菌感染住院风险

机器学习在医疗保健领域已经成为一种非常重要的工具,革新了该行业的各个方面。其中之一的主要应用是诊断,机器学习算法分析包括医学图像、基因信息和患者记录在内的大量数据集,以识别模式并进行准确预测。 以前,机器学习模型被用于检测易感染患者并支持感染预防和控制(IPC)计划。这些模型使用了定期收集的大量医学数据,包括电子健康记录(EHR)。虽然经典的机器学习模型在有限的使用案例中可能会显示出有效的结果,但它们无法推广到大规模和长期的EHR数据。 日内瓦大学的研究人员在医疗技术方面取得了突破性进展。他们在医疗保健领域使用了图神经网络(GNN)来检测抗菌药物耐药性(AMR)和多药耐药性(MDR)的肠道杆菌感染。 肠道杆菌通常存在于健康人的肠道中,但如果它们在其他部位定殖并引起感染,对健康非常危险。许多因素导致了医疗环境中这些病原体的增多。 研究人员通过使用图结构对患者和医务人员之间的相互作用进行建模,其中节点及其相互作用形成了描述患者的边。然后,使用图神经网络(GNN)模型对富含临床和时空特征的患者网络进行训练,以学习定植模式。 来自日内瓦大学的教授道格拉斯·特奥多罗表示,核心目标是对医疗环境中的复杂相互作用进行建模,以预测医疗相关感染(HAIs)的传播。该预测结合了关于患者和医务人员的网络信息。他还表示,该研究最重要的信息是分析医疗网络相互作用以提高对HAIs的预测的潜力。该方法可能显著推动医疗环境中的感染预防和控制技术。 特奥多罗还表示,鉴于该方法的基于数据驱动的方法,他们预计其适用性可扩展到具有类似传播动态的其他病原体和各种医疗环境。 该研究包括一个名为基于图的医院感染预测的图片,展示了团队如何应用图神经网络来模拟传播多药耐药性肠道杆菌的复杂模式。该研究旨在改变医院预测和处理感染风险的方式。 这些模型使用了用于重症监护中心的医学信息市场(MIMIC-III)数据集进行训练和评估,并与传统的机器学习基准进行比较。值得注意的是,与基准模型相比,GNN模型在对抗菌敏感(AMS)、AMR和MDR肠道杆菌的早期检测方面表现更好。 研究人员测试了该模型,并发现在使用时空特征识别出由耐万古霉素的肠球菌定植的患者时,接收器操作特性曲线下方的面积(AUROC)性能超过88%。研究人员发现,GNN模型在接收器操作特性曲线下方的面积(AUROC)方面的表现范围为0.91到0.96。这种性能比逻辑回归基准高8%,基准得分为0.88。

Leave a Comment

人类活动识别中的深度学习:这项AI研究利用树莓派和LSTM引入了自适应方法,以提高地点无关的准确性

Translate this HTML (keep the HTML code in the result) to Chinese: 人体行为识别(HAR)是一项研究领域,专注于开发基于来自各种传感器收集的数据自动识别和分类人类活动的方法和技术。HAR旨在使智能手机、可穿戴设备或智能环境等机器能够实时理解和解读人类活动。 传统上,使用可穿戴传感器和基于摄像头的方法。可穿戴传感器对用户来说不舒适且不方便。基于摄像头的方法需要侵入性安装,引发隐私问题。现有的HAR技术面临位置依赖性、对噪声敏感性以及在各种应用中识别多样化活动时需要更多灵活性等挑战,从智能家居到医疗保健和物联网(IoT)等应用。UTeM采用的方法提供了精确、适应性强且与位置无关的解决方案。 马来西亚梅尔卡大学(UTeM)的研究人员制定了一种人体活动识别(HAR)方法,以应对传统限制。他们引入了一种利用信道状态信息(CSI)和先进深度学习技术的系统。 该系统结合了信道状态信息(CSI)和长短时记忆(LSTM)网络。该系统提取无线通信信道状态的重要指标,实现实时分类和绝对位置无关的感知。LSTM网络通过对活动特征进行顺序学习,简化识别过程并适应不同人和环境中的活动变化。 研究人员强调,首先使用树莓派4和专用固件进行数据收集和预处理,以获取原始信道状态信息(CSI)数据,然后使用MATLAB进行优化,以提高质量和应用。 长短时记忆(LSTM)网络被用于从CSI数据中提取关键特征,从而实现对复杂人类活动的准确识别。他们对LSTM模型和分类流程进行了严格的训练,其中包括用于模式识别的在线阶段和用于增强性能的离线阶段。 该系统引入了使用LSTM算法的信号分割方法,以准确确定人类活动的起点和终点。 研究人员测试了该系统,并发现它在人类活动识别方面达到了令人印象深刻的97%的准确率。它展示了在适应新环境方面的能力,标志着HAR技术的重大进步。 研究人员强调了他们系统的卓越适应性。它可以轻松融入不同的环境,而无需进行大量的重新训练或主要更改。这种灵活性使其成为各个领域的实用解决方案,有效应对各种实际需求。这种方法代表了HAR技术的重大进步,具有在智能家居、医疗保健和物联网等多个行业产生重大影响的潜力。

Leave a Comment

为何GPU在人工智能领域表现出色

GPU被称为人工智能的稀土金属,甚至是黄金,因为它们是当今生成式人工智能时代的基石。 三个技术原因以及许多故事解释了为什么会这样。每个原因都有多个值得探索的方面,但总体上有: GPU采用并行处理。 GPU系统可扩展到超级计算高度。 用于人工智能的GPU软件堆栈既广泛又深入。 总的结果是,GPU比CPU以更高的能效计算技术,并且更快地执行计算。这意味着它们在人工智能训练和推理方面提供领先的性能,并且在使用加速计算的各种应用中都能获得收益。 在斯坦福大学的人工智能人本中心发布的最新报告中提供了一些背景信息。报告中指出,GPU性能“自2003年以来增加了约7000倍”,每单位性能的价格“增加了5600倍”。 2023年的报告展示了GPU性能和价格/性能的急剧上升。 报告还引用了独立研究团体Epoch的分析和预测人工智能进展的数据。 Epoch在其网站上表示:“GPU是加速机器学习工作负载的主要计算平台,在过去五年中,几乎所有最大的模型都是在GPU上训练的… 从而对AI的最新进展做出了重要贡献。” 一份为美国政府评估人工智能技术的2020年研究得出了类似的结论。 “当计算生产和运营成本计算在内时,我们预计[前沿]人工智能芯片的成本效益比领先节点的CPU高出一个到三个量级,”研究报告中说。 在Hot Chips,一年一度的半导体和系统工程师聚会上,NVIDIA公司的首席科学家比尔·达利在一个主题演讲中表示,NVIDIA GPU在过去十年中在AI推理方面的性能提升了1000倍。 ChatGPT传播新闻 ChatGPT为GPU在人工智能方面的优势提供了一个强有力的例子。这个大型语言模型(LLM)是在数千个NVIDIA GPU上训练和运行的,用于服务超过1亿人使用的生成式AI。 自2018年推出以来,作为人工智能的行业标准基准,MLPerf详细记录了NVIDIA GPU在人工智能训练和推理中的领先性能。 例如,NVIDIA Grace Hopper超级芯片在最新一轮推理测试中表现优异。自那次测试以来,推出的推理软件NVIDIA TensorRT-LLM性能提升了8倍以上,能源使用和总拥有成本降低了5倍以上。事实上,自2019年基准测试发布以来,NVIDIA…

Leave a Comment

这项深度学习研究揭示了注意力缺陷多动症青少年大脑变化的独特特征:磁共振扫描分析的突破

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/3811637-1024×1024.jpg”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/3811637-150×150.jpg”/><p>在一项具有突破意义的研究中,研究人员利用人工智能(AI)的力量来解决青少年注意力缺陷多动障碍(ADHD)诊断中固有的挑战。长期以来,依赖于主观自我报告调查的常规诊断方式一直受到批评,因为它缺乏客观性。现在,一个研究团队引入了一种创新的深度学习模型,利用青少年大脑认知发展(ABCD)研究的脑成像数据,旨在革新ADHD的诊断方法。</p><p>目前的ADHD诊断方法由于其主观性和对行为调查的依赖而不足。为此,研究团队设计了一个基于AI的深度学习模型,研究了超过11,000名青少年的脑成像数据。该方法包括使用由扩散加权成像得出的关键指标——散度加权成像的分数各向异性(FA)测量训练模型。这种方法旨在发现与ADHD相关的独特脑模式,为诊断提供更客观和量化的框架。</p><p>这个深度学习模型旨在识别FA值的统计显著差异,结果显示在患有ADHD的青少年中,与执行功能、注意力和语言理解相关的九个白质束的测量值升高。这些研究结果在北美放射学会年会上发表,标志着一项重要的进步:</p><ul><li>与非ADHD个体相比,ADHD患者的FA值在30个白质束中有九个显著升高。</li><li>预测FA值与实际FA值之间的平均绝对误差(MAE)为0.041,与有无ADHD的受试者之间有显著差异(0.042对0.038,p=0.041)。</li></ul><p>这些量化结果凸显了深度学习模型的有效性,并突出了FA测量作为ADHD诊断的客观标志物的潜力。</p><p>研究团队的方法解决了当前主观诊断的局限性,并为发展脑成像生物标志物提供了一条更客观、可靠的诊断途径。白质束中的差异代表了在ADHD诊断中迈出的有希望的一步。随着研究人员继续通过更广泛的研究数据完善他们的发现,AI在未来几年内革新ADHD诊断的潜力似乎越来越大。</p><p>总之,这项开创性的研究不仅挑战了ADHD诊断的现状,还为利用AI进行客观评估开辟了新的可能性。神经科学和技术的交叉带来了希望,未来ADHD诊断不仅更准确,而且根植于脑成像的细微差别,提供了对这种普遍青少年障碍的全面理解。</p><p>本文发表在《这项深度学习研究揭示了青少年ADHD的独特脑变化:MRI扫描分析的突破性进展》上,首发于MarkTechPost。</p>

Leave a Comment

谷歌DeepMind推出GNoME:一种新的深度学习工具,通过预测新材料的稳定性,大大提高了发现的速度和效率

无机晶体对于许多当代技术至关重要,包括计算机芯片、电池和太阳能电池板。每一个新的、稳定的晶体都是经过数月的细致实验得到的,稳定的晶体对于推动新技术具有重要意义,因为它们不会溶解。 研究人员进行了昂贵的试错实验,但只取得了有限的结果。他们通过修改现有的晶体或尝试其他不同的元素组合来寻找新的晶体结构。在过去的十年中,多亏了Materials Project和其他组织推动的计算方法,已经找到了28,000种新材料。到目前为止,新材料在实验上可行性可靠预测的能力一直是一个重大限制。 劳伦斯伯克利国家实验室和Google DeepMind的研究人员在《自然》杂志上发表了两篇论文,展示了我们AI预测用于自主材料合成的潜力。该研究展示了2.2百万颗更多的晶体,相当于大约800年的信息。他们的新型深度学习工具,被称为Graph Networks for Materials Exploration(GNoME),可以预测新材料的稳定性,大大提高了发现速度和效率。GNoME展示了AI在大规模发现和开发新材料方面的潜力。全球各地不同实验室的科学家们同时进行了独立的努力,已经找到了736种这些新颖结构。 得益于GNoME,技术可行材料的数量增加了两倍。在它的2.2百万个预测中,有380,000个由于稳定性而最有希望进行实验合成。其中一些有能力创造下一代电池,提高电动车的效率,以及用于强大超级计算机的超导体。 GNoME是一种先进的图神经网络模型示例。由于GNN的输入数据类似于原子之间的连接关系,因此GNN非常适合找到新的晶体材料。 最初用于训练GNoME的晶体结构及其稳定性的数据可通过Materials Project公开获取。使用“主动学习”作为训练方法显著提高了GNoME的效率。研究人员使用GNoME生成新的晶体候选,并预测它们的稳定性。他们使用密度泛函理论(Density Functional Theory,DFT),这是物理学、化学和材料科学中广为接受的计算方法,用于理解原子结构——这对于评估晶体稳定性至关重要——以在不断进行的训练周期中反复检查模型的表现,以评估其预测能力。高质量的训练数据又回到了这个过程中。 研究结果显示,这项研究将材料稳定性预测的发现率从50%左右提高到了80%,参考以前最先进模型设定的外部基准。对该模型效率的改进使发现率从不到10%提升到了80%以上;这些效率的提升可能对每一次发现所需的计算功率有重大影响。 自主实验室使用Materials Project的成分和GNoME的稳定性信息,已经创造出了超过41种新的材料,为人工智能驱动的材料合成的进一步发展铺平了道路。 GNoME的预测结果已经向科学界发布。研究人员将这些化合物的分析结果和稳定性信息添加到Materials Project的在线数据库中,共计380,000种材料。借助这些资源,他们希望科学界能够进一步研究无机晶体,并认识到机器学习技术作为实验指南的潜力。

Leave a Comment

这项AI研究提出了一种基于物理的深度学习技术,用于预测IFP和脂质体积累

在癌症疗法的优化过程中,研究人员提出了一项划时代的解决方案,显著提升了我们对肿瘤动力学的理解。该研究聚焦于精确预测肿瘤内液流压力(IFP)和脂质体积累,揭示了一种开创性的物理信息深度学习模型。这种创新方法有望优化癌症治疗策略,准确揭示治疗药物在肿瘤内的分布情况。 许多纳米治疗的基石在于增强的渗透性和滞留效应(EPR效应),利用肿瘤的特性,如增强的血管渗透性和经血管压力梯度。尽管其关键作用,EPR效应对治疗结果的影响表现不一致。这种不一致性促使对影响实体肿瘤内药物输送的因素进行更深入的探索。在这些因素中,间质流体压力(IFP)已经成为一个关键决定因素,严重限制脂质体药物输送到肿瘤中心区域。此外,升高的IFP是一个独立的预后标记物,显著影响特定实体癌症的放射治疗和化疗的疗效。 针对这些挑战,研究人员提出了一个先进的模型,使用术前和术后的图像数据来预测体素级别的肿瘤内脂质体积累和IFP。他们的方法独特之处在于将物理信息机器学习与偏微分方程相结合的创新技术。通过将这种创新技术应用于来自合成肿瘤的数据集,研究人员展示了该模型在输入数据最小的情况下能够做出高度准确的预测的能力。 现有的方法往往需要在肿瘤内提供一致且准确的脂质体分布和IFP的预测。这项研究通过引入一种前所未有的方法,将机器学习与基于物理的原则相结合,从而在研究中有所突破。这种创新模型不仅能够提供准确的预测,还对癌症治疗的设计具有直接的影响。预测脂质体和IFP在肿瘤内的空间分布能够为更深入地了解肿瘤动力学打开新的途径,为更有效和个性化的治疗干预铺平道路。 该研究由滑铁卢大学和华盛顿大学的研究团队详细介绍了他们提出的方法。他们利用了物理信息深度学习以实现体素级别的预测。该模型依赖于合成肿瘤数据,凸显了其稳健性和高效性,并为应对癌症治疗中提出的IFP升高问题提供了潜在解决方案。通过展示该方法的可扩展性和适用性,研究人员强调了其在预测肿瘤进展和促进治疗计划方面的潜力。 总之,这项开创性的研究为解决基于脂质体的癌症疗法所涉及的复杂问题提供了一种转变性的方法。他们的模型结合了物理信息机器学习,可以提供精确的体素级别的肿瘤内脂质体积累和间质流体压力预测。这种创新推进了我们对肿瘤动力学的理解,并对治疗设计有直接的影响。更有效和个性化的干预潜力凸显了这项工作的重要性,为优化癌症治疗策略提供了关键的进展,以提高可预测性和治疗成功率。

Leave a Comment