Press "Enter" to skip to content

1632 search results for "机器学习"

这篇AI论文介绍了Perseus:一种开创性的框架,可将大规模机器学习和AI模型训练的能源浪费降低多达30%

大型语言模型(例如 GPT-3)由于在训练和推理过程中的计算需求而需要大量能量。能源使用情况根据模型的大小、任务复杂性、硬件规格和操作持续时间等因素而存在显著差异。 训练这些模型需要大量的计算资源,通常涉及高性能 GPU 或 TPU,导致长时间的大量能量消耗。估计训练像 GPT-3 这样的大型语言模型可能使用相当于多个家庭在几天或几周内消耗的电量。 优化能源消耗至关重要,且需要在不降低模型效率的情况下进行。研究人员旨在减少大语言模型训练中没有吞吐量损失可以消除的能量消耗。分布式执行规划中,每个流水线阶段的计算量是一个重要问题。由于深度神经网络(DNN)是粗粒度的张量运算,计算量各不相同,因此平衡每个阶段是不可能的。 密歇根大学和华盛顿大学的研究人员发现,在训练过程中,并非所有能量消耗都直接对整体训练吞吐量有贡献,可以大幅减少能量消耗而不会减缓训练速度。他们发现能量膨胀的内在和外在原因,并提出了一个名为“Perseus”的单一优化框架来最小化它们。 内在能量膨胀的原因是计算不平衡,而外在能量膨胀是多个流水线并行运行,同步扩展到庞大的数据集进行训练。快于行动迟钝算法的流水线是快速的,浪费了不会影响整体训练吞吐量的能量。 Perseus以高效的方式预先表征整个迭代时间的能量,在正常操作条件下最小化内在能量膨胀。通过次优能量减少,它减轻了外在能量膨胀。它通过精确地减慢流水线中的计算来寻找非阻塞流水线的能量最优迭代时间。 研究人员在各种强扩展配置中使用混合并行性来模拟训练大型模型的迟行者。他们测量了能量膨胀的数量和Perseus的外在能量节省。在计算完成后,其他非迟行者等待迟行者完成计算,导致外在能量膨胀。他们减少了微批次的数量和每个流水线迭代的开头和结尾的流水线气泡比例。这消除了内在能量膨胀,从而减少了能量消耗。 将Perseus集成到训练工作流程中对人工智能发展的未来具有重要影响。他们的工作有潜力极大地增强LLM和GenAI的分布式训练的可持续性。

Leave a Comment

苹果研究人员揭开了DeepPCR,这是一种创新的机器学习算法,可以并行化通常顺序进行的操作,以加速神经网络的推理和训练

“` 由于人工智能和深度学习在领域的进步,许多新的创新成为可能。借助神经网络的帮助,如文本或图像合成,分割和分类等复杂任务得到了成功处理。然而,由于计算需求的原因,神经网络训练可能需要几天甚至几周来获得充分的结果。预训练模型的推理有时也很慢,特别对于复杂的设计。 并行化技术可以加快深度神经网络的训练和推理。尽管这些方法被广泛使用,但神经网络中的某些操作仍然是按顺序进行的。扩散模型通过一系列去噪阶段生成输出,正向和反向传递逐层进行。随着步骤数的增加,这些过程的顺序执行变得计算代价高昂,可能导致计算瓶颈。 为了解决这个问题,苹果公司的研究人员提出了DeepPCR,一种独特的算法,旨在加快神经网络的训练和推理。DeepPCR通过将一系列L个步骤视为一组方程的答案来执行。该团队采用了并行循环消减(PCR)算法来提取此解决方案。将顺序处理​​的计算成本从O(L)降低到O(log2 L)是DeepPCR的主要优势。减少复杂性后的速度加快,尤其是对于高值的情况。 团队进行了实验,以验证关于DeepPCR降低复杂性的理论断言,并确定加速的条件。通过将DeepPCR应用于多层感知机的前向传递和后向传递并行化,他们实现了前向传递速度提升30倍,后向传递速度提升200倍。 团队还通过使用DeepPCR来训练具有1024层的ResNets展示了DeepPCR的适应性。由于DeepPCR的使用,训练速度可以提高多达7倍。该技术用于扩散模型的生成阶段,相比顺序方法,生成速度提高了11倍。 团队总结了他们的主要贡献如下: 引入了DeepPCR,这是一种创新的方法,用于并行化神经网络的序列处理,其主要特点是能够将计算复杂性从O(L)降低到O(log2 L),其中L是序列长度。 使用DeepPCR并行化多层感知机(MLP)的前向传递和后向传递。对技术性能进行了全面分析,同时考虑了基本设计参数,以确定方法的高性能区域。该研究还调查了速度,解决方案的正确性和内存使用之间的权衡。 使用DeepPCR加速了在MNIST上训练的深度ResNet和在MNIST、CIFAR-10和CelebA数据集上训练的扩散模型的生成。结果表明,尽管DeepPCR显示了显着的加速,对于ResNet的训练速度提高了7倍,对于扩散模型的生成速度提高了11倍,但仍产生与顺序技术相媲美的结果。 “`

Leave a Comment

使用Amazon DocumentDB在Amazon SageMaker Canvas中构建无代码机器学习解决方案

我们很高兴地宣布亚马逊文档数据库(兼容MongoDB)与亚马逊SageMaker Canvas的集成正式发布,这使得亚马逊文档数据库的客户可以在不编写代码的情况下构建和使用生成型人工智能和机器学习(ML)解决方案亚马逊文档数据库是一个完全托管的本地JSON文档数据库,使操作关键业务变得简单且具有成本效益

Leave a Comment

纽约大学和谷歌AI研究员探索机器学习在高级演绎推理方面的前沿

使用大量推理规则和构建子证明的就业使得证明的复杂性在许多演绎推理任务中无限发展,例如医学诊断或定理证明。由于巨大的证明空间,不可能找到覆盖所有大小保证的数据。因此,从基本证明开始,通用推理模型应能够推广到更复杂的证明。 纽约大学和谷歌AI研究人员的一个团队证明,LLMs在接受上下文学习(ICL)和思维链(CoT)提示的训练后可以进行演绎推理。一些演绎规则,例如假言附加式,是早期研究的主要重点。评估也是在演示中进行的,这意味着测试用例与上下文演示的分布相同。 纽约大学、谷歌和波士顿大学的研究人员进行的一项新研究探讨了LLMs能否推广到比演示更复杂的证明。学术界根据三个维度对证明进行分类: 在演示的每个阶段使用的前提数量。 构成证明的顺序步骤的长度。 所使用的演绎规则。 总大小是这三个维度的函数。 该团队在两个重要方面对之前的研究进行了扩展,以评估LLMs的一般演绎推理能力。除了假言附加式外,他们测试LLMs是否掌握了所有演绎规则。他们的推理能力通过以下两种方式进行测试: 深度和宽度的推广涉及对比上下文示例提供的较长证明进行推理。 组合推广涉及在单个证明中使用大量的演绎规则。 根据他们的研究,推理任务在接受展示各种演绎规则的基本示例时最受益于上下文学习。为了防止模型过拟合,这些上下文示例必须包含它不熟悉的推导原则,例如分情况证明和反证法。此外,这些示例应该伴随有干扰项。 根据他们的发现,CoT可以使LLMs进行超领域推理,推广到组合证明。这些LLMs包括GPT-3.5 175B、PaLM 540B、LLaMA 65B和FLAN-T511B,其规模和训练目标各异。这一发现令人惊讶,考虑到大量文献主张LLMs缺乏组合泛化能力。ICL的泛化方式与监督学习不同,特别是在上下文样本上进行的梯度下降。明显地,使用与测试示例相同分布的上下文样本是更差的,因为它们在多个实例中被发现。例如,当上下文示例中包含特定演绎规则时,研究人员有时看到了更好的组合证明泛化效果。 似乎预训练并不能教育模型创建假设的子证明。没有明确的示例,LLMs无法推广到某些演绎规则(例如分情况证明和矛盾证明)。模型规模与性能之间的关系较弱。通过定制指导和更多的预训练,较小的模型(不是最小的,但可比较)可以与较大的模型竞争。 为了进一步了解ICL和CoT触发过程,研究人员指出了一个关键的领域需要今后进行研究。他们发现,最好的上下文示例通常来自于与测试示例本身不同的分布,即使是对于特定的测试示例。贝叶斯推理和梯度下降并不能解释这一点。他们有兴趣研究是否简单的示例效果更好,即使测试案例稍微复杂。需要进一步研究来了解如何更进一步地表征从特定实例进行推广。

Leave a Comment

探索AI的新领域:谷歌DeepMind的研究关于通过ReSTEM自我训练推进机器学习超越人类生成的数据

大型语言模型(LLMs)正在通过展示惊人的文本生成能力和执行各种语言任务而改变深度学习。获得高质量的与人类相关的数据是一个重大障碍,即使使用人类收集的数据进行监督微调(SFT)也能进一步提高它们在感兴趣的任务上的性能。这对需要大量资源和专业知识的复杂问题解决任务尤为困难。为了克服这一障碍,模型生成的合成数据在其质量能够得到保证的情况下被认为是一种可扩展且经济实惠的解决方案。 来自Google Deepmind和Mila的研究人员在这项研究中研究了一个更加简单的场景,其中外部的标量反馈信号作为每个生成样本的质量指标,即使LLMs能够自行评估生成的数据。研究团队提出了一种简单而有效的语言模型自训练技术,只涉及两个技能:1) 使用模型创建样本,2) 使用评分机制评估这些样本。这种方法使我们能够研究在模型创建的数据上进行训练。研究团队使用了加强自训练的命名方式,并将这种技术称为ReST𝐃𝑀,以实现统一性和清晰度。研究团队演示了如何将ReST𝐃𝑀视为使用期望最大化进行强化学习。 具体而言,ReST𝐃𝑀在以下方式上在期望和最大化阶段之间切换:1. 生成 (E-step):对于每个输入背景,语言模型产生多个输出样本。然后,研究团队通过使用二进制奖励来筛选这些样本,以收集训练数据集。2. 改进 (M-step):使用前面生成阶段的训练数据集来对原始语言模型进行监督和微调。然后,下一个生成阶段使用调整后的模型。ReST𝐃𝑀及其变体已经证明在许多领域的语言模型中提高了效能,例如机器翻译、语义解析和偏好对齐。 ReST𝐃𝑀主要在以前关于非常小型语言模型(最多7B参数)的研究中使用,对于更大的模型而言,其可扩展性有限。他们的工作旨在通过比较模型创建的合成数据的可扩展性和有效性与人类提供的数据在两个具有挑战性但研究不足的领域中: 代码生成 (APPS) 和具有竞争水平的数学问题解决 (MATH)。他们的研究结果表明,将ReST𝐃𝑀应用于不同规模的PaLM 2模型可以显著改善数学推理和代码生成能力。 令人惊讶的是,通过模型生成的人工数据进行改进的模型在性能上大幅优于以人类提供的数据训练的模型。此外,经过几个ReST𝐃𝑀周期后,改进效果会减弱,表明可能会过度拟合数量有限的训练案例。此外,使用ReST𝐃𝑀进行优化的模型增强了 pass@k 和多数投票能力。最后,这些改进的模型在类似但不同的基准测试中展现出增强的性能,包括Big-Bench Hard任务、编码(HumanEval)和算术问题(GSM8K和Hungarian HS决赛)。最后,还进行了消融研究,以调查训练问题、迭代次数和模型生成解决方案数量对ReST𝐸𝑀微调的影响。

Leave a Comment

迎接EAGLE:基于压缩的快速LLM解码的新机器学习方法

大型语言模型(LLMs)如ChatGPT在自然语言处理领域取得了巨大的革命性进展,展示了他们在各种语言相关任务中的能力。然而,这些模型面临着一个关键问题——自回归解码过程,其中每个标记都需要进行完整的前向通行。这种计算瓶颈在拥有庞大参数集的LLMs中尤为明显,在实时应用中产生了障碍,并给具有受限GPU能力的用户带来了挑战。 来自Vector Institute、滑铁卢大学和北京大学的研究人员介绍了EAGLE(Extrapolation Algorithm for Greater Language-Model Efficiency),以应对LLM解码中固有的挑战。与Medusa和Lookahead等传统方法有所不同,EAGLE采取了一种独特的方法,专注于对第二层顶层上下文特征向量的外推。与前辈们不同,EAGLE努力高效地预测后续特征向量,为文本生成提供了显著加速的突破。 EAGLE方法的核心是部署了一种轻量级插件——FeatExtrapolator。这个插件与原始LLM的冻结嵌入层一起进行训练,根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础建立在特征向量随时间的可压缩性上,为加快标记生成铺平了道路。值得注意的是,EAGLE具有出色的性能指标;与普通解码相比,它的速度提高了三倍,比Lookahead快了一倍,并且相对于Medusa加速了1.6倍。最为关键的是,它保持了与普通解码一致性,确保了生成文本分布的保持。 https://sites.google.com/view/eagle-llm EAGLE的能力远不止于加速。它可以在标准GPU上进行训练和测试,使更广泛的用户群体能够使用。它与各种并行技术的无缝集成增加了其应用的灵活性,进一步巩固了它作为高效语言模型解码工具包中宝贵的补充的地位。 考虑到该方法对FeatExtrapolator的依赖,这是一个轻量级但功能强大的工具,与原始LLM的冻结嵌入层合作。这种合作根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础根植于特征向量随时间的可压缩性,为更流畅的标记生成过程提供了途径。 https://sites.google.com/view/eagle-llm 传统的解码方法需要对每个标记进行完整的前向通行,而EAGLE的特征级外推提供了一个新的解决方案。研究团队的理论探索最终形成了一种方法,不仅显著加速了文本生成,而且保持了生成文本的分布的完整性——这是维护语言模型输出质量和连贯性的关键因素。 https://sites.google.com/view/eagle-llm 总结起来,EAGLE在解决LLM解码长期存在的低效问题上脱颖而出。通过巧妙地解决自回归生成的核心问题,EAGLE的研究团队提出了一种不仅能大幅加速文本生成,而且能保持分布一致性的方法。在实时自然语言处理需求激增的时代,EAGLE的创新方法使其成为前沿技术的领跑者,填补了尖端技术能力与实际应用之间的鸿沟。

Leave a Comment

使用机器学习创建多视角光学幻觉:探索零样本方法用于动态图像转换

变换图是当你以不同角度观察或翻转它们时会改变外观的图像。创造这样的视觉错觉通常需要理解并欺骗我们的视觉感知。然而,一种新的方法出现了,提供了一种简单有效的方式来生成这些有吸引力的多角度视觉错觉。 有许多方法可以创建视觉错觉,但大多数依赖于对人类感知图像方式的特定假设。这些假设往往导致复杂的模型,只有在某些情况下才能捕捉到我们视觉体验的本质。密歇根大学的研究人员提出了一种新的解决方案。它不是基于人类的视觉方式建立模型,而是使用了一种文本到图像扩散模型。该模型不对人类的感知做任何假设,只是从数据中学习。 该方法引入了一种新的方式来生成经典的错觉,如当图像翻转或旋转时发生变化的图像。此外,它还涉及到一种称为“视觉变换”的新型错觉,当您重新排列像素时,图像的外观也会改变。这包括翻转、旋转和更复杂的排列,如创建具有多个解决方案的拼图,称为“多态拼图”。这种方法甚至扩展到三个和四个视图,扩大了这些引人注目的视觉变换的范围。 使这种方法起作用的关键是仔细选择视图。应用于图像的变换必须保持噪声的统计特性。这是因为该模型是在随机、独立和同分布的高斯噪声的假设下进行训练的。 该方法利用扩散模型从各个视图去噪,生成多个噪声估计。然后将这些估计组合成一个单一的噪声估计,促进逆向扩散过程中的一步。 该论文提供了支持这些视图有效性的实证证据,展示了所生成的错觉的质量和灵活性。 总之,这种简单而强大的方法为创建引人注目的多角度视觉错觉开辟了新的可能性。通过避免对人类感知的假设,并利用扩散模型的能力,它提供了一种新鲜而易于理解的方法来探索迷人的视觉变换世界。无论是翻转、旋转还是多态拼图,这种方法都为制作引人入胜并挑战我们视觉理解的错觉提供了一种多功能工具。

Leave a Comment

揭示机器学习中随机性的本质 (Jiēshì jīqì xuéxí zhōng suíjīxìng de běnzhì)

介绍 机器学习是一门让计算机能够从数据中学习并做出智能决策的领域。它涵盖了各种概念和技巧。其中一个概念是“随机”,在许多机器学习算法和模型中扮演着关键角色。在本文中,我们将深入探讨机器学习中随机的意义,探索其应用,并了解其在优化学习过程中的重要性。 了解机器学习中的随机 在机器学习的背景下,随机指的是将随机性或概率引入算法和模型中。它允许引入不确定性,使算法能够有效处理嘈杂或不完整的数据。通过接受随机性,机器学习算法能够适应不断变化的环境并进行强大的预测。 机器学习中的随机过程 随机过程是描述随机变量随时间演变的数学模型。它们被广泛应用于机器学习中的建模和分析各种现象。这些过程具有独特的特征,使它们适合捕捉数据中固有的随机性。 随机过程的定义和特征 随机过程是按时间或另一个参数索引的随机变量的集合。它提供了描述系统随时间演变的概率行为的数学框架。随机过程具有稳定性、独立性和马尔可夫性等特性,使其能够捕捉数据中的复杂依赖关系。 随机过程在机器学习中的应用 随机过程在机器学习的各个领域中都有应用。它们在时间序列分析中很有帮助,该领域的目标是基于过去观察值预测未来值。它们还在建模和模拟复杂系统中起着关键作用,例如金融市场、生物过程和自然语言处理。 随机梯度下降(SGD) 随机梯度下降(SGD)是机器学习中流行的优化算法。它是传统梯度下降算法的一种变体,引入了参数更新的随机性。在处理大型数据集时,SGD特别有用,因为它可以实现高效可扩展的优化。 SGD概述 在SGD中,不是使用整个数据集计算梯度,而是使用随机选择的数据子集(称为 mini-batch)估计梯度。这种随机抽样在优化过程中引入了随机性,使其更适应嘈杂或动态的数据。通过根据这些 mini-batch 梯度迭代更新模型参数,SGD收敛到最优解。 SGD的优势和缺点 相比传统的梯度下降,SGD具有几个优势。它收敛更快,需要更少的内存,并且在处理大规模数据集时计算效率高。然而,SGD的随机性也带来了一些缺点。由于梯度估计中的噪声,它可能收敛到次优解,并且学习率需要仔细调整以确保收敛。 在机器学习算法中实现SGD SGD可以在各种机器学习算法中实现,例如线性回归、逻辑回归和神经网络。在每种情况下,算法会根据从 mini-batch 计算的梯度更新模型参数。这种随机优化技术使模型能够高效地从大规模数据集中学习。 机器学习中的随机模型 随机模型是捕捉数据不确定性并基于概率分布进行预测的概率模型。它们被广泛用于机器学习中的复杂系统建模和生成逼真样本。…

Leave a Comment

麻省理工学院(MIT)和苏黎世联邦理工学院(ETH Zurich)的研究人员开发了一种机器学习技术,通过动态分离器选择来增强混合整数线性规划(MILP)求解能力

高效地应对复杂的优化问题,从全球包裹路由到电力网管理,一直是一个持久的挑战。传统方法,特别是混合整数线性规划(MILP)求解器,一直是破解复杂问题的首选工具。然而,它们的缺点在于计算强度,往往导致次优解或长时间的求解。为了解决这些限制,麻省理工学院和苏黎世联邦理工学院的研究人员开创了一种数据驱动的机器学习技术,承诺彻底改变我们解决复杂物流挑战的方式。 在物流领域,优化是关键,挑战是令人生畏的。尽管圣诞老人可能有他神奇的雪橇和驯鹿,但联邦快递等公司需要处理迷宫般的节假日包裹路线。公司使用的软件骨干是MILP求解器,它采用分而治之的方法来解决庞大的优化问题。然而,这些问题的复杂性往往导致求解时间长达数小时甚至数天。由于时间限制,公司经常被迫中断求解器的中间过程,接受亚优解。 研究团队确定了导致求解时间延长的一个关键中间步骤,即分隔管理。分隔管理是每个求解器的核心方面,但往往被忽视。分隔管理负责识别理想的分隔算法组合,这是一个具有指数数量潜在解决方案的问题。研究人员认识到这一点,试图用数据驱动的方法重新激活MILP求解器。 现有的MILP求解器采用通用算法和技术来导航广阔的解决方案空间。然而,麻省理工学院和苏黎世联邦理工学院的团队引入了一个过滤机制,以简化分隔搜索空间。他们将庞大的13万个潜在组合减少到了约20个可管理的选项。这个过滤机制依赖于递减边际效益的原理,即最大的效益来自一小组算法。 创新之处在于将机器学习融入MILP求解器框架。研究人员利用一个在问题特定数据集上训练的机器学习模型,从缩小的选项中选择最佳算法组合。与具有预定义配置的传统求解器不同,这种数据驱动的方法允许公司通过利用自己的数据来针对特定问题定制通用的MILP求解器。例如,像联邦快递这样经常解决路由问题的公司可以使用过去的实际数据来优化和增强他们的解决方案。 这个机器学习模型基于上下文情境强化学习的形式。这个迭代学习过程包括选择一个潜在解决方案,获得有关其有效性的反馈,并在随后的迭代中对其进行优化。结果是将MILP求解器的求解时间大幅加快,从30%到令人瞩目的70%,而不影响准确性。 总之,麻省理工学院和苏黎世联邦理工学院之间的合作努力在优化领域取得了重大突破。通过将经典的MILP求解器与机器学习相结合,研究团队为解决复杂的物流挑战开辟了新的途径。加快求解时间并保持准确性为MILP求解器带来了实际优势,使其更适用于实际场景。这项研究对优化领域做出了贡献,并为在解决复杂实际问题中广泛整合机器学习铺平了道路。

Leave a Comment

微软研究员提出TaskWeaver:一种用于构建具有LLM驱动的自主代理的代码优先机器学习框架

大型语言模型(LLM)展示了令人印象深刻的自然语言创作和解释能力。这些模型的例子包括GPT、Claude、Palm和Llama。许多应用程序,如聊天机器人、虚拟助手和内容生成系统,广泛使用了这些模型。LLM可以通过提供更直观、更自然的体验,完全改变人与技术的互动方式。代理被定义为能够计划任务、监视环境并采取适当行动响应的自主实体。使用大型语言模型(LLM)或其他AI技术的代理属于此类。 许多框架已经尝试使用LLM进行任务导向型对话,包括Langchain、Semantic Kernel、Transformers Agent、Agents、AutoGen和JARVIS。使用这些框架,用户可以通过用简单的语言提问并获取答案的方式与LLM驱动的机器人进行交流。然而,许多框架存在诸多缺点,限制了它们在数据分析活动和特定领域的情况下的性能。大多数当前框架在处理复杂数据结构(如嵌套列表、字典或数据框)方面,没有原生支持是它们的主要缺点之一。 然而,许多当前框架在处理这些结构时需要帮助,尤其是在不同插件或聊天轮之间共享数据时。在这些情况下,这些框架会将复杂的结构编码为字符串或JSON对象,并将数据存储到磁盘上。这些方法是有效的;然而,特别是在处理大型数据集时,它们可能变得复杂并增加错误率。当前方法无法配置以包括领域知识的能力是另一个缺点。虽然这些框架提供了快速的工程工具和示例,但它们必须提供一种将领域特定信息整合到规划和代码生成过程中的系统化方法。 由于约束的存在,很难根据特定领域需求来控制规划和代码生成过程。许多当前框架面临的另一个问题是它们可能缺乏灵活性,很难适应广泛的用户需求。插件可以处理常见需求,但可能需要帮助来处理临时需求。为每个临时查询编写不同的插件是不可行的。在这些情况下,代理根据用户查询开发独特的代码执行能力变得至关重要。为解决这个问题,需要一种能够平稳地将定制代码执行与插件执行相结合的解决方案。 为了克服这些缺点,微软的研究团队提出了TaskWeaver,这是一个用于创建LLM驱动的自主代理的面向代码的框架。TaskWeaver的独特特性是它能够将用户定义的插件视为可调用的函数,将每个用户请求转换为可执行的代码。TaskWeaver支持复杂的数据结构、灵活的插件使用和动态插件选择,帮助克服其他框架的缺点。它通过利用LLM的编码能力实现复杂逻辑,并通过示例集成领域特定知识。 此外,TaskWeaver为开发人员提供直观的界面,并显著提高了所创建代码的安全执行。研究团队在本文中描述了TaskWeaver的体系结构和实现,并展示了它在不同任务处理方面的出色表现。TaskWeaver为创建具有智能能力的对话代理提供了一个强大而灵活的框架,能够处理具有挑战性的任务并根据特定领域条件进行调整。

Leave a Comment

提升数据安全性与协作能力:AWS Clean Rooms引入机器学习和差分隐私功能

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.49.22-AM-1024×573.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.49.22-AM-150×150.png” /><p>亚马逊网络服务(AWS)推出了安全数据共享服务Clean Rooms的新更新,通过创新的机器学习(ML)和差分隐私功能增强了其功能。这些进步使企业能够安全地协作,利用机器学习模型的能力,并在进行准确的数据分析的同时保护敏感数据隐私。</p><p>Clean Rooms的最新版本引入了一套强大的功能,旨在加强数据隐私和促进安全协作。机器学习支持的添加使用户能够利用ML模型而不暴露原始数据。这一创新功能使得协作数据分析成为可能,而不会危及数据隐私,对于希望获取洞察力而不泄露敏感信息的企业来说,这是一个福音。</p><p>一个重要的新增功能是将差分隐私功能集成到Clean Rooms中。这个新颖的功能将精心校准的错误或“噪音”引入到查询结果中,确保分析准确性同时使个人数据贡献难以理解。通过将隐私视为有限资源,并通过隐私预算组件对其进行处理,这个功能防止了数据泄露,避免了隐私资源的耗尽和潜在违规行为。</p><p>差分隐私是一种在数据共享期间增强隐私保护的技术,它可以揭示统计模式而不泄露具体个人细节的能力。AWS Clean Rooms简化了这项技术的应用,使其易于实施。通过启用差分隐私功能并在协作环境中配置隐私策略,用户可以轻松地使用这种增强隐私保护技术。</p><p>在此更新中的一个开创性功能是Clean Rooms ML,它允许用户在保护敏感数据的同时使用机器学习模型进行预测分析。它的应用涵盖了各个行业,促进了有针对性的营销工作,确定潜在客户,并加速了临床研究,同时不暴露关键信息。</p><p>Clean Rooms ML的实施涉及在组织数据共享协作中训练AWS管理的模型,从而消除了用户构建和部署自己的模型的需求。这种无缝整合的ML功能使用户具备灵活的控制能力,可以调整模型的预测结果,确保分析的适应性和精确性。</p><p>此外,Clean Rooms还引入了一系列隐私控制功能,授权用户管理具有适当权限的Clean Rooms成员执行的查询和输出。这个额外的控制层进一步加强了协作生态系统中的数据安全和隐私保护措施。</p><p>在本质上,改进后的AWS Clean Rooms标志着安全数据协作的范式转变,是在保护敏感信息的同时释放全面数据分析潜力的重要步伐。AWS通过融合最先进的机器学习和差分隐私功能,优先考虑了数据安全,而不会牺牲分析效率,为更安全、更有洞察力的协作未来铺平了道路。</p><p>本文首发于<a href=”https://guoyuhan.love/5g-robots-clean-singapores-rivers.html”>Enhancing Data Security and Collaboration:…

Leave a Comment

VoAGI新闻,12月6日:GitHub存储库用于掌握机器学习• 5个免费课程,掌握数据工程

本周在VoAGI上:发现来自机器学习课程、训练营、书籍、工具、面试题、备忘单、MLOps平台等的GitHub代码库,以掌握机器学习,保障你梦寐以求的工作 • 数据工程师必须准备和管理数据驱动的整个数据工作流所需的基础设施和工具…

Leave a Comment

日内瓦大学的研究人员调查了一种基于图形的机器学习模型,用于预测多重耐药(MDR)肠道杆菌感染住院风险

机器学习在医疗保健领域已经成为一种非常重要的工具,革新了该行业的各个方面。其中之一的主要应用是诊断,机器学习算法分析包括医学图像、基因信息和患者记录在内的大量数据集,以识别模式并进行准确预测。 以前,机器学习模型被用于检测易感染患者并支持感染预防和控制(IPC)计划。这些模型使用了定期收集的大量医学数据,包括电子健康记录(EHR)。虽然经典的机器学习模型在有限的使用案例中可能会显示出有效的结果,但它们无法推广到大规模和长期的EHR数据。 日内瓦大学的研究人员在医疗技术方面取得了突破性进展。他们在医疗保健领域使用了图神经网络(GNN)来检测抗菌药物耐药性(AMR)和多药耐药性(MDR)的肠道杆菌感染。 肠道杆菌通常存在于健康人的肠道中,但如果它们在其他部位定殖并引起感染,对健康非常危险。许多因素导致了医疗环境中这些病原体的增多。 研究人员通过使用图结构对患者和医务人员之间的相互作用进行建模,其中节点及其相互作用形成了描述患者的边。然后,使用图神经网络(GNN)模型对富含临床和时空特征的患者网络进行训练,以学习定植模式。 来自日内瓦大学的教授道格拉斯·特奥多罗表示,核心目标是对医疗环境中的复杂相互作用进行建模,以预测医疗相关感染(HAIs)的传播。该预测结合了关于患者和医务人员的网络信息。他还表示,该研究最重要的信息是分析医疗网络相互作用以提高对HAIs的预测的潜力。该方法可能显著推动医疗环境中的感染预防和控制技术。 特奥多罗还表示,鉴于该方法的基于数据驱动的方法,他们预计其适用性可扩展到具有类似传播动态的其他病原体和各种医疗环境。 该研究包括一个名为基于图的医院感染预测的图片,展示了团队如何应用图神经网络来模拟传播多药耐药性肠道杆菌的复杂模式。该研究旨在改变医院预测和处理感染风险的方式。 这些模型使用了用于重症监护中心的医学信息市场(MIMIC-III)数据集进行训练和评估,并与传统的机器学习基准进行比较。值得注意的是,与基准模型相比,GNN模型在对抗菌敏感(AMS)、AMR和MDR肠道杆菌的早期检测方面表现更好。 研究人员测试了该模型,并发现在使用时空特征识别出由耐万古霉素的肠球菌定植的患者时,接收器操作特性曲线下方的面积(AUROC)性能超过88%。研究人员发现,GNN模型在接收器操作特性曲线下方的面积(AUROC)方面的表现范围为0.91到0.96。这种性能比逻辑回归基准高8%,基准得分为0.88。

Leave a Comment

德克萨斯大学的研究人员展示了使用机器学习预测植入物基重建并发症的研究结果

人工智能(AI)已经在今天几乎每个领域都发挥了作用,有潜力通过自动化、预测和优化决策来改善现有系统。乳房重建是一种非常常见的手术过程,大多数情况下采用基于植入物的重建(IBR)。然而,这个过程往往伴随着周围假体感染,给患者带来重大痛苦并增加医疗保健成本。德克萨斯大学的这项研究探讨了人工智能特别是机器学习(ML)及其能力如何应用于预测IBR的并发症,从而最终改善生活质量。 与乳房重建相关的风险和并发症取决于许多非线性因素,传统方法无法捕捉。因此,本文的作者们开发和评估了九种不同的ML算法,以更好地预测IBR的并发症,并将其性能与传统模型进行了比较。 该数据集收集了约两年的患者数据,数据来自德克萨斯大学MD安德森癌症中心。研究人员使用的一些不同模型包括人工神经网络、支持向量机、随机森林等。此外,研究人员还使用了投票模型来进行最终预测,以获得更好的结果。在性能指标方面,研究人员使用曲线下面积(AUC)在三轮10折交叉验证后选择最佳模型。 在这九种算法中,预测周围假体感染的准确率在67%至83%之间,随机森林算法表现最佳,投票模型具有最佳整体性能(AUC 0.73)。关于预测解释性,准确率在64%至84%之间,极端梯度提升算法表现最佳(AUC 0.78)。 额外的分析还确定了周围假体感染和解释的重要预测因素,从而更加深入地了解导致IBR并发症的因素。例如,高体重指数(BMI)、年龄等因素会增加感染的风险。研究人员观察到BMI与感染风险之间存在线性关系,尽管其他研究报告称年龄不会影响IBR感染,但作者发现两者之间存在线性关系。 作者还指出了模型的一些局限性。由于数据只来自一家机构,因此他们的结果不能泛化到其他机构。此外,额外的验证将使这些模型得以临床应用,并有助于减少可怕并发症的风险。此外,临床相关变量和人口统计学因素可以融入模型中以进一步提高性能和准确性。 总之,本研究论文的作者们训练了九种不同的ML算法,以准确预测IBR并发症的发生。他们还分析了各种因素对IBR感染的影响,其中一些因素被以前的模型所忽视。然而,这些算法也存在一些限制,如数据仅来自一家机构、缺乏额外验证等。使用来自不同机构的更多数据来训练模型并添加其他因素(临床和人口统计学)将改善模型的性能,帮助医务人员更好地解决IBR感染问题。 本文的文章首次出现在MarkTechPost上,信息来源于德克萨斯大学研究人员展示利用机器学习预测基于植入物的重建并发症。

Leave a Comment

研究人员研究张量网络以解释性和高效的量子启发机器学习

计算机视觉、自然语言处理和其他领域在深度机器学习(ML)方法方面取得了显著的成功,这些方法基于深度神经网络(NNs)。然而,解释性与效率之间长期存在的问题带来了一些难以克服的障碍。对深度ML方法的质疑、理解和信任能力取决于它们的可解释性,通常被描述为一个人能够理解结论来源的程度。 贝叶斯网络、Boltzmann机器和其他概率ML模型被认为是“白箱”,因为它们本质上是可解释的。这些模型宣称的一种解释方式是通过使用概率推理来揭示隐藏的因果联系;这与人类思维在统计上的方式一致。遗憾的是,最先进的深度NNs在效率上超过了这些概率模型相当大的幅度。目前的ML模型似乎无法同时实现高效性和可解释性。 由于量子计算和传统计算的指数增长,解决效率与可解释性困境的新工具出现了:张量网络(TN)。多个张量的收缩被称为TN。张量的收缩方式由其网络结构定义。 中国首都师范大学和中国科学院大学的一篇新论文调查了TN在高效和可解释的量子启发式ML方面的有益发展。”TN ML butterfly”列举了TN对ML的好处。对于具有量子扭曲的ML的TN的好处可以归结为两个主要领域:量子理论的可解释性和量子过程的高效性。使用TN与如纠缠理论和统计学等量子理论构建超越描述经典信息或统计方法的可解释性的概率框架。 相反,量子启发的TN ML方法将能够通过强大的量子力学TN算法和大幅改进的量子计算技术在经典和量子计算平台上高效运行。特别是,最近产生了具有开发潜力和挑战的生成预训练变换器,导致了前所未有的计算能力和模型复杂性的激增,这对TN ML而言既具有潜力又具有挑战。面对产生预训练变换器的新人工智能(AI),解读结果的能力比以往任何时候都更为重要,从而实现更有效的调查、更安全的控制和更好的利用。 研究人员认为,随着我们进入真正的量子计算和当前的NISQ时代,TN迅速成为从各个角度研究量子人工智能的领先数学工具,包括理论、模型、算法、软件、硬件和应用。 研究人员研究了张量网络用于可解释和高效的量子启发式机器学习文章首次出现于MarkTechPost。

Leave a Comment

见证关系深度学习基准(RelBench):一系列逼真、大规模且多样化的关系数据库机器学习基准数据集

在人工智能(AI)和机器学习(ML)这两个快速发展的领域中,寻找有效的、自动化的和适应性强的方法变得极其重要。AI和ML方法的不断提升已经改变了机器可以完成的事情以及人类如何与机器交互的可能性。 包括深度学习在内的AI领域完全依赖于数据,重要的数据存储在数据仓库中,通过主外键关系链接在多个表中分散存储。使用这样的数据开发ML模型存在许多困难,需要大量的时间和工作,因为现有的ML方法并不适合直接从跨越多个关系表的数据中学习。目前的方法要求将数据通过一种称为特征工程的过程转换成单个表。 为了克服这一挑战,斯坦福大学、Kumo AI、耶鲁大学、马克斯普朗克学院和伊利诺伊大学厄巴纳-香槟分校的研究团队最近提出了关系深度学习。这种端到端的深度表示学习技术可以处理分散在多个表中的数据。该方法已经被开发成一种将关系表作为异构图的基本方法。该图模型中的每个表行代表一个节点,而主外键关系定义了边。 使用消息传递神经网络(MPNNs),可以自动遍历并学习多个表,从而提取利用所有输入数据的表示,并且不需要任何手动特征工程。研究团队还提出了RELBENCH,这是一个包括基准数据集和关系深度学习实现的综合框架。这些数据集涵盖了各个领域,从亚马逊产品目录中的图书评论到像Stack Exchange这样的网站上的对话。 RELBENCH包含三个核心模块,具体如下: 数据模块:RELBENCH的数据模块提供了有效使用关系数据集的框架。其中包括三个重要特性:时间数据划分、任务规范和数据加载。 模型模块:该模块通过将未处理数据转换为图形表示来构建图神经网络(GNNs)的预测模型。使用强大的深度学习库PyTorch Geometric,RELBENCH对几种广泛使用的GNN架构进行了基准测试。该模块允许模型架构的灵活性,对于桥接预测模型和原始关系数据开发之间的差距至关重要。 评估模块:该模块创建了一个统一的评估模型性能的过程。它以系统化的方式评估预测文件,提供了模型的有效性的量化指标。该模块与各种受欢迎的深度学习工具配合使用,因为它被设计为与深度学习框架无关。这种适应性使研究人员和从业者可以使用他们选择的框架,而不会牺牲评估过程。

Leave a Comment

在亚马逊SageMaker Canvas中加快机器学习的数据准备工作

数据准备是任何机器学习(ML)工作流程中至关重要的一步,但它往往涉及冗长而耗时的任务Amazon SageMaker Canvas现在支持由Amazon SageMaker Data Wrangler驱动的全面数据准备能力通过这种集成,SageMaker Canvas为客户提供了一个端到端的无代码工作空间,用于准备数据、构建和使用ML和[…]

Leave a Comment

这篇来自DeepMind的机器学习研究介绍了在动态环境中进行高级规划的向量量化模型(VQ)

随着技术的不断进步,人工智能成功地使计算机能够以类似于人类思维和学习的方式运作,模仿人脑的智慧。人工智能、机器学习和深度学习等领域的最新进展,已经在包括医疗保健、金融、教育等多个领域得到了提升。近来备受关注的大型语言模型展现了惊人的仿人能力。从问答和文本摘要到代码生成和代码补全,这些模型在各种任务上表现出色。 大型语言模型是通过一种名为强化学习的机器学习范式进行微调的。在强化学习中,智能体通过与周围环境的交互来学习决策能力。它通过在环境中的行为来最大化随时间累积的奖励信号。模型驱动的强化学习最近取得了进展,并在各种需要规划的场景中显示出希望。然而,这些成功仅限于完全可观察且确定的情况。 在最近的研究中,DeepMind的研究团队提出了一种利用矢量量化模型进行规划的新策略。这种方法旨在解决随机和部分可观察环境中的问题。该方法利用状态VQVAE(矢量量化变分自动编码器)和转移模型,将未来的观察编码为离散的潜在变量。这使得它能够适应随机或部分可观察的情境,实现对未来观察和未来行动的规划。 团队表示,这种方法中使用了离散自动编码器来捕捉随机情境中行动的各种可能结果。被称为自动编码器的神经网络设计接收输入数据,将其编码为潜在表示,然后将其解码回原始形式。利用离散自动编码器的方法使得在随机情境中代理行为引起的多种可能结果得以呈现。 为了在此类情境中更容易进行规划,团队使用了蒙特卡洛树搜索的随机变体。蒙特卡洛树搜索是计划和决策过程中常用的一种方法。在此情况下,随机变体允许考虑环境的不确定性。除了代理的行动,规划过程中还包括表示环境可能响应的离散潜在变量。这种全面的方法旨在捕捉部分可观测性和随机性带来的复杂性。 团队对该方法进行了评估,结果表明在一种随机解释的国际象棋中,该方法击败了著名的强化学习系统MuZero的离线变体。从这个角度来看,对手引入了不确定性,并被视为环境的一个重要组成部分。通过DeepMind Lab对该方法的有效实施证明了其可扩展性。这种方法在这种情景中观察到的有利结果证明了它在处理复杂动态环境中的灵活性和有效性。 总之,这种基于模型的强化学习技术扩展了在部分可观察、随机环境中的完全可观察、确定性环境中的有效性。离散自动编码器和随机蒙特卡洛树搜索版本展示了对不确定环境所带来困难的复杂理解,提高了实际应用中的性能。

Leave a Comment

Can't find what you're looking for? Try refining your search: