Press "Enter" to skip to content

四海吧 Posts

引入语音人工智能到您的企业时需要考虑的5个因素

想象一个世界,在那里琐碎的任务占据我们工作时间的60-70%,消失得无影无踪根据麦肯锡的一份报告,由于其对自然语言的不断理解,生成式人工智能很快有可能将这个梦想变为现实难怪越来越多的企业,甚至是传统行业中的企业,……

Leave a Comment

揭示机器学习中随机性的本质 (Jiēshì jīqì xuéxí zhōng suíjīxìng de běnzhì)

介绍 机器学习是一门让计算机能够从数据中学习并做出智能决策的领域。它涵盖了各种概念和技巧。其中一个概念是“随机”,在许多机器学习算法和模型中扮演着关键角色。在本文中,我们将深入探讨机器学习中随机的意义,探索其应用,并了解其在优化学习过程中的重要性。 了解机器学习中的随机 在机器学习的背景下,随机指的是将随机性或概率引入算法和模型中。它允许引入不确定性,使算法能够有效处理嘈杂或不完整的数据。通过接受随机性,机器学习算法能够适应不断变化的环境并进行强大的预测。 机器学习中的随机过程 随机过程是描述随机变量随时间演变的数学模型。它们被广泛应用于机器学习中的建模和分析各种现象。这些过程具有独特的特征,使它们适合捕捉数据中固有的随机性。 随机过程的定义和特征 随机过程是按时间或另一个参数索引的随机变量的集合。它提供了描述系统随时间演变的概率行为的数学框架。随机过程具有稳定性、独立性和马尔可夫性等特性,使其能够捕捉数据中的复杂依赖关系。 随机过程在机器学习中的应用 随机过程在机器学习的各个领域中都有应用。它们在时间序列分析中很有帮助,该领域的目标是基于过去观察值预测未来值。它们还在建模和模拟复杂系统中起着关键作用,例如金融市场、生物过程和自然语言处理。 随机梯度下降(SGD) 随机梯度下降(SGD)是机器学习中流行的优化算法。它是传统梯度下降算法的一种变体,引入了参数更新的随机性。在处理大型数据集时,SGD特别有用,因为它可以实现高效可扩展的优化。 SGD概述 在SGD中,不是使用整个数据集计算梯度,而是使用随机选择的数据子集(称为 mini-batch)估计梯度。这种随机抽样在优化过程中引入了随机性,使其更适应嘈杂或动态的数据。通过根据这些 mini-batch 梯度迭代更新模型参数,SGD收敛到最优解。 SGD的优势和缺点 相比传统的梯度下降,SGD具有几个优势。它收敛更快,需要更少的内存,并且在处理大规模数据集时计算效率高。然而,SGD的随机性也带来了一些缺点。由于梯度估计中的噪声,它可能收敛到次优解,并且学习率需要仔细调整以确保收敛。 在机器学习算法中实现SGD SGD可以在各种机器学习算法中实现,例如线性回归、逻辑回归和神经网络。在每种情况下,算法会根据从 mini-batch 计算的梯度更新模型参数。这种随机优化技术使模型能够高效地从大规模数据集中学习。 机器学习中的随机模型 随机模型是捕捉数据不确定性并基于概率分布进行预测的概率模型。它们被广泛用于机器学习中的复杂系统建模和生成逼真样本。…

Leave a Comment

薛定谔桥是如何击败扩散模型在文本转语音(TTS)合成中的?

随着人工智能的不断发展,自然语言处理、自然语言生成和计算机视觉这些领域最近取得了巨大的流行,这都要归功于大型语言模型的引入。扩散模型在生成文本到语音合成(TTS)方面已经证明非常成功,显示出了很高的生成质量。然而,它们的先验分布受限于引入噪声并对所需生成目标提供很少信息的表示形式。 最近的研究中,清华大学和微软亚洲研究院的研究人员团队介绍了一种名为Bridge-TTS的新的文本到语音系统。这是首次尝试在已建立的扩散式TTS方法中利用干净可预测的替代方法替代噪声高斯先验。该替代先验提供了有关目标的强结构信息,并从文本输入提取的潜在表示中获取。 该团队表示,主要贡献在于开发出了一个完全可管理的薛定谔桥,它连接了真实的梅尔谱图和干净的先验。建议的Bridge-TTS使用的是一种数据到数据的过程,这比起扩散模型的数据到噪声过程改善了先前分布的信息内容。 该团队已经对这种方法进行了评估,并在LJ-Speech数据集上进行了实验验证,评估结果突出显示了建议方法的有效性。在50步骤/1000步骤合成设置中,Bridge-TTS表现出比扩散对应方法Grad-TTS更好的性能。它甚至在少量步骤的情况下比强大且快速的TTS模型表现更好。Bridge-TTS方法的主要优势在于合成质量和采样效率。 该团队总结了主要贡献如下。 从无污染的文本潜在表示中产生了梅尔谱图。与传统的数据到噪声过程不同,这个作为扩散模型上下文中的条件信息的表示形式被设计成无噪声。薛定谔桥被用来研究数据到数据的过程。 针对配对数据,提出了一个完全可计算的薛定谔桥。这个桥使用柔性形式的参考随机微分方程(SDE)。这种方法允许对设计空间进行实证调查,并提供了一个理论解释。 研究了采样技术、模型参数化和噪声调度如何对改善TTS质量发挥作用。还实现了不对称噪声调度、数据预测和一阶桥采样器。 完全可计算的薛定谔桥使得对底层过程的完整理论解释成为可能。通过实证研究,我们可以了解到不同因素如何影响TTS的质量,包括不对称噪声调度、模型参数化决策和采样过程的效率。 该方法在推理速度和生成质量方面取得了很好的结果。在1000步和50步的生成情况下,它明显优于基于扩散的Grad-TTS。它在4步生成中也优于FastGrad-TTS,优于基于transformer的模型FastSpeech 2和最先进的蒸馏方法CoMoSpeech在2步生成中。 该方法仅经过一次训练就取得了出色的结果。这种效率在创作过程的多个阶段都可见,展示了建议方法的可靠性和效力。

Leave a Comment

如何在不依赖OpenAI或LM Studio的情况下使用AutoGen?

介绍 你准备好了吗,要在没有依赖OpenAI和LM Studio的情况下创建你的AI团队了吗?不再需要花大钱或下载应用程序。从设置llama-cpp-python到使用autogen框架探索本地LLM的强大功能。准备好在不依赖OpenAI API的情况下发挥Autogen的全部潜力了吗。 学习目标 在我们深入了解细节之前,让我们概述本文的关键学习目标: 学习如何评估和比较不同的AI库和工具。 探索llama-cpp-python作为OpenAI API的替代方案。 将所获知识应用于两个真实世界的用例:构建算法导师团队和自动化财务图表生成。 通过集成的IPython探索AutoGen改进的用户体验,实时执行代码并看到结果。 本文是数据科学博客马拉松的一部分。 认识你的工具:Llama-cpp-python,AutoGen和本地LLMs 但是你可能会问,这个技术工具包有什么特别之处?Llama-cpp-python是你在本地运行LLMs的入口,包括像LLaMA这样的大牌。就像你的电脑上有AI超级明星,而且支持不同的BLAS后端,速度超乎想象! AutoGen AutoGen是一个统一的多代理对话框架,作为使用基础模型的高级抽象。它结合了能力强大、可定制和可对话的代理,通过自动对话集成LLMs、工具和人类参与者。它使代理能够自主沟通和协作,有效地简化复杂任务并自动化工作流程。 如果你渴望深入了解AutoGen的能力,并探索它如何促进战略性的AI团队建设,不妨看看我们专门的博客:“借助AutoGen轻松实现战略性AI团队建设。”这个综合资源提供了见解、用例和更详细的介绍,展示了AutoGen如何改变你的AI开发方式。 库/工具 一些库/工具提供了一个Web服务器,旨在替代OpenAI API。 除了上述选项,还有其他选择,但最佳选择取决于你的偏好和需求。 Llama-cpp-python Llama-cpp-python是llama.cpp库的Python绑定。它通过ctypes接口提供对C API的低级访问,提供了高级Python API用于文本补全、类似OpenAI的API和LangChain兼容性。它支持多个BLAS后端以加快处理速度,也支持硬件加速。…

Leave a Comment

斯拉瓦·马德尔斯卡,健康科技创业者——医疗人工智能、疼痛管理技术、预防保健、背部疼痛创新和医疗趋势

在这次采访中,我们探讨了HUGUP和Semiflex Dome System的创始人兼首席执行官Slawa Madelska的见解作为从数字代理机构转型为医疗技术创业的人,Madelska对将技术融入医疗领域有着细腻的观点HUGUP专注于基于证据的背部疼痛管理解决方案,而Semiflex系统则是一种创新的外科医疗设备,用于… Slawa Madelska,医疗技术创业者 — 医疗人工智能、疼痛管理技术、预防保健、背痛创新和医疗保健趋势 阅读更多»

Leave a Comment

元元人工智能研究员公开源大篇:一个可投入生产的强化学习AI代理库

强化学习(RL)是机器学习的一个子领域,其中代理采取适当的行动来最大化其回报。在强化学习中,模型从经验中学习,并确定导致最佳回报的最优行动。近年来,RL取得了显著进展,并在广泛的领域中得到应用,从自动驾驶汽车到机器人甚至游戏。在RL系统的开发方面也有重大进展。这些库的例子包括RLLib、Stable-Baselines 3等。 为了创建一个成功的RL代理,需要解决一些问题,例如解决延迟回报和下游后果的问题,找到开发和探索之间的平衡,并考虑其他参数(如安全考虑或风险要求)以避免灾难性情况。虽然当前的RL库功能强大,但并没有很好地解决这些问题。因此,Meta的研究人员发布了一个名为Pearl的库,该库考虑了上述问题,并允许用户为其真实世界的应用程序开发多功能的RL代理。 Pearl是基于PyTorch构建的,这使其与GPU和分布式训练兼容。该库还提供了不同的测试和评估功能。Pearl的主要策略学习算法称为PearlAgent,具有智能探索、风险敏感性、安全约束等功能,并且具有离线和在线学习、安全学习、历史总结和回放缓冲区等组件。 一个有效的RL代理应该能够使用离线学习算法学习和评估策略。此外,对于离线和在线训练,代理应该具有一些数据收集和策略学习的安全措施。除此之外,代理还应该能够使用不同的模型学习状态表示,并将历史总结为状态表示以过滤掉不可取的行动。最后,代理还应该能够使用回放缓冲区有效地重用数据以提高学习效率。Meta的研究人员将所有上述特征都融入了Pearl的设计中(更具体地说是PearlAgent),使其成为设计RL代理的多功能有效库。 研究人员将Pearl与现有的RL库进行了比较,评估了模块化、智能探索和安全性等因素。Pearl成功实现了所有这些功能,从未能整合所有必要功能的竞争对手中脱颖而出。例如,RLLib支持离线RL、历史总结和回放缓冲区,但不支持模块化和智能探索。类似地,SB3未能整合模块化、安全决策和上下文匹配。这就是Pearl在研究人员考虑的所有特性方面的独特之处。 Pearl目前还在进一步支持各种实际应用程序,包括推荐系统、拍卖竞标系统和创意选择,使其成为解决不同领域复杂问题的有希望的工具。尽管强化学习在近年来取得了重大进展,但将其应用于解决实际问题仍然是一项艰巨的任务,而Pearl通过提供全面且适用于生产的解决方案来填补这一差距。凭借其智能探索、安全和历史总结等独特功能,它有潜力成为在实际应用中更广泛整合RL的有价值资产。

Leave a Comment

支持向量机(SVM)是什么?

支持向量机(SVM)是一种在机器学习领域中使用的监督学习算法。它主要用于执行分类和回归等任务。该算法可以处理各种任务,例如判断电子邮件是否为垃圾邮件、识别手写字体,甚至在图片中检测人脸。它非常适应性强,能处理大量信息和数据中的复杂关系。 SVM的主要任务是根据特征绘制最佳的分隔线(或平面),以区分不同组的事物。就像在数据集中找到不同类别之间的最佳边界一样。因此,无论是对文本、图像还是其他任何东西进行分类,SVM都是机器学习中的首选工具。 SVM的类型 线性支持向量机 当数据可以通过一条直线轻松分为两组时,线性SVM效果最好。想象一下你的数据就像是纸上的点,你可以画一条直线将它们整齐地分成两个不同的类。也就是说,数据应该是完全线性可分的。 非线性支持向量机 当数据无法通过一条直线分类成两组时,我们就会引入非线性SVM。这种情况下,数据不是线性可分的。在这种情况下,非线性SVM可以派上用场。在现实世界中,数据通常杂乱无章,不遵循简单的规律,这时我们就可以使用非线性SVM及其核技巧。 它是如何工作的? 想象一下,你手上有两组事物,比如绿色和蓝色的点,散落在地板上。SVM的任务是找到一条最佳的直线(或者如果你在三维世界中则是一个平面),将这些点分隔成各自的组。 现在,可能有很多条分隔这些点的直线,对吧?但是SVM会寻找一个特殊的直线——与最接近的绿色点到直线的距离和最接近的蓝色点到直线的距离之间有最大距离的直线。这个距离被称为“间隔”,SVM希望使其尽可能大。 那些在定义直线时起着关键作用的最近的点被称为“支持向量”。SVM专注于这些点,以绘制最佳的直线,使两组之间的空间最大化。 但是,如果你的点没有被一条直线整齐地分开呢?如果它们到处都是?这就是SVM可以使用所谓的“核技巧”将问题提升到一个更高维度空间的地方,这样可以绘制出更复杂的分割曲线或曲面。 用例与应用 1. 垃圾邮件过滤:想象一下,你的电子邮箱里有一堆邮件,其中一些是垃圾邮件,一些则不是。支持向量机(SVM)可以用来创建一个智能过滤器,学会区分垃圾邮件和普通邮件。它会查看邮件的各种特征,比如使用的词语,并绘制一条线来将垃圾邮件与非垃圾邮件分开,保持您的邮箱清洁。 2. 手写识别:如果你希望你的计算机识别不同人的手写。SVM可以做到这一点。通过分析手写字母的特征,比如形状和大小,SVM可以绘制线条或曲线来将一个人的手写与另一个人的手写分开,使其在邮政服务等应用中有用于识别数字。 3. 医学诊断:在医学领域,SVM可以帮助诊断疾病。假设你有关于患者的数据,其中一些患有某种疾病,另一些没有。SVM可以分析各种健康指标,并创建一个边界来区分健康患者和患有该疾病的患者。这可以帮助医生进行更准确的诊断。 4. 图像分类:考虑这样一个场景,你有很多图片,其中一些是猫,一些是狗。SVM可以成为一个英雄,创建一个系统,学会根据颜色、形状或图案等特征区分猫和狗。它绘制一条线(或更复杂的边界)来正确分类新的图片。 5. 股票市场预测:如果你对股票市场感兴趣,SVM可以派上用场。通过分析历史股票数据,考虑交易量和价格变动等各种因素,SVM可以创建一个模型来预测股票的涨跌。 参考资料: https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47…

Leave a Comment

约翰霍普金斯大学和圣克鲁兹加利福尼亚大学的研究人员揭示了D-iGPT:图像AI学习方面的突破性进展

自然语言处理(NLP)已经进入了一个转型期,引入了大型语言模型(LLMs),例如GPT系列,为各种语言任务设置了新的性能标准。自回归预训练是这一惊人成就的主要因素之一,这种技术教会模型预测序列中最可能的标记。由于这种基本技术,模型能够吸收语法和语义之间的复杂交互,从而为他们理解语言的能力提供卓越的贡献,就像一个人一样。自回归预训练在NLP之外也在计算机视觉方面起到了重要作用。 在计算机视觉中,自回归预训练起初取得了成功,但随后的发展显示出明显的范式转变,更倾向于BERT风格的预训练。特别值得注意的是,从iGPT的首次结果可以看出,自回归和BERT风格的预训练在各种任务上的表现类似。然而,由于在视觉表示学习方面更加有效,后续的研究更偏向于BERT风格的预训练。例如,MAE表明,可扩展的视觉表示学习方法可能就是简单地预测随机屏蔽像素的值。 在这项研究中,约翰斯·霍普金斯大学和加州大学圣克鲁兹分校的研究团队重新审视了iGPT,并质疑自回归预训练是否能够产生高度熟练的视觉学习者,尤其是在广泛应用时。研究团队在其过程中融入了两个重要的改变。首先,研究团队使用BEiT将照片“分词”为语义标记,考虑到图像本身具有噪声和冗余。这个修改将自回归预测的重点从像素转移到语义标记上,从而更加复杂地理解各个图像区域之间的相互作用。其次,研究团队在生成解码器中添加了一个判别解码器,它自回归地预测下一个语义标记。 对于已看到的像素预测语义标记是这个额外组件的责任。此外,值得注意的是,像CLIP这样以判别方式训练的模型最适合该预训练路径的语义视觉标记。研究团队将这种改进方法称为D-iGPT。通过对各种数据集和任务进行广泛测试,证实了他们所提议的D-iGPT的效能。仅使用ImageNet-1K作为相关数据集,他们的基准模型在可达到86.2%的Top-1分类准确率上超越了之前的最先进技术的0.6%。 此外,他们的大规模模型在3600万个公开可用数据集上实现了89.5%的Top-1分类准确率。D-iGPT在公共数据集上达到了先前最先进的训练水平,尽管使用的训练数据更少,模型尺寸更小。研究团队还在相同的预训练和微调数据集上分析了D-iGPT在语义分割上的表现,发现其优于MAE相等的方法。

Leave a Comment

斯坦福大学和FAIR Meta的研究人员发布了CHOIS:一种具有突破性的AI方法,可通过语言引导合成逼真的三维人物-物体互动

斯坦福大学和FAIR Meta的研究人员引入了CHOIS来解决在3D场景中生成物体和人类的同步运动的问题。该系统基于稀疏的物体航点、物体和人类的初始状态以及文本描述来运作。它通过在指定的3D环境中为两者产生逼真且可控的动作来控制人类和物体之间的交互。 利用类似AMASS这样的大规模、高质量的动作捕捉数据集,人们对生成式人体运动建模的兴趣日益增加,包括有条件的动作和文本生成。之前的研究使用VAE公式来从文本生成多样化的人体运动,而CHOIS则专注于人体与物体的互动。与现有方法通常集中在手部动作合成不同,CHOIS考虑到在抓取物体之前的全身动作,并根据人体的动作预测物体的运动,为交互式3D场景模拟提供了综合解决方案。 CHOIS解决了在3D环境中合成逼真人类行为的关键需求,这对计算机图形学、具体化人工智能和机器人技术至关重要。CHOIS通过基于语言描述、初始状态和稀疏物体航点来生成同步的人类和物体运动来推动该领域的发展。它解决了现实运动生成、适应环境杂乱以及从语言描述中合成交互等挑战,为多样化的3D场景中可控人体与物体交互提供了综合系统。 该模型使用条件扩散方法根据语言描述、物体几何和初始状态生成同步的物体和人体运动。在采样过程中加入约束以确保逼真的人与物接触。训练阶段使用损失函数来引导模型预测物体变换而无需明确强制接触约束。 CHOIS系统经过与基准模型和消融实验的严格评估,展示了在条件匹配、接触准确性、减少手部与物体的穿透以及脚部漂浮等指标上表现出的卓越性能。在FullBodyManipulation数据集上,物体几何损失增强了模型的能力。CHOIS在3D-FUTURE数据集上的表现超过了基准模型和消融模型,展示了其对新物体的泛化能力。人类感知研究突出了CHOIS与基准模型相比,在与输入文本的对齐和交互质量方面表现更好。定量指标,包括位置和方向误差,衡量了生成结果与真实运动之间的偏差。 总之,CHOIS是一个基于语言描述和稀疏物体航点生成逼真的人与物体交互的系统。该过程在训练过程中考虑到物体几何损失,并在采样过程中使用有效的引导项来增强结果的逼真度。CHOIS学习到的交互模块可以集成到根据语言和3D场景合成长期交互的流水线中。CHOIS在生成与提供的语言描述相一致的逼真人与物体交互方面有显著改进。 未来的研究可以探索通过集成额外的监督,如物体几何损失,来提高生成的物体运动与输入航点的匹配度。研究如何使用更高级的引导项来强制接触约束,可能会得到更逼真的结果。将评估扩展到多样化的数据集和场景将测试CHOIS的泛化能力。进一步的人类感知研究可以提供对生成的交互更深入的洞察。将学习到的交互模块应用于根据3D场景的物体航点生成长期交互也将扩大CHOIS的适用性。

Leave a Comment

CMU和普林斯顿大学的研究人员揭开了Mamba的面纱:一种突破性的SSM架构,超越变压器的效率,用于多模式深度学习应用

在当代机器学习中,基础模型是成功的典范,它们是在大量数据上进行预训练,然后修改以用于下游任务。序列模型是这些基础模型的基础,它们可以处理来自各个领域的任意序列输入,包括语言、图片、声音、音频、时间序列和基因组等。尽管这个想法与任何特定的模型设计无关,但Transformer及其核心的自注意力层是当代大多数基础模型的基础。自注意力是有效的,因为它可以通过紧密地在一个上下文窗口内传递信息来表示复杂的事实。 然而,这种属性有两个基本缺点。一个是窗口长度的二次缩放,另一个是无法描述有限窗口之外的任何事物。为了解决这些缺点,对更有效的注意力相关策略进行了大量研究,然而往往以注意力成功的相同品质为代价。这些变化尚未在各个领域的大规模实验证明其有效性。结构化状态空间序列模型是一类新颖且令人兴奋的序列建模体系结构。这些模型受传统状态空间模型的影响,可以看作是卷积神经网络和循环神经网络的混合体。 这类模型在序列长度方面具有线性或几乎线性的扩展,并且可以通过递归或卷积计算非常快速。它们还主导了Long Range Arena等基准测试,并为在某些数据模态中建模长程相互依赖性定义了工具。许多SSM(结构化状态空间模型)的变种在需要连续信号数据的音频和视觉等领域显示出了有效性。但在建模离散、信息密集的文本等方面,它们尚未取得如此成功。 卡内基梅隆大学和普林斯顿大学的研究团队提出了一种新颖的选择性状态空间模型的类别,通过在几个维度上增强了早期研究,以获得类似Transformer的建模能力,同时保持与序列长度的线性关系。 选择机制。首先,我们指出早期模型的一个重要缺陷:它们无法以有效的方式根据输入选择数据。研究团队通过根据输入参数化SSM参数来提供一个简单的选择过程,借鉴了从选择性复制和归纳头等重要的合成任务中获得的理解。这使得模型能够永久地保留相关信息,同时消除不必要的数据。 硬件感知代码。这种简单的修改在技术上对模型的计算构成挑战;所有以前的SSM模型在计算上必须是输入和时间不变的,以保证计算效率。为了防止在GPU内存层次结构的不同层之间进行IO访问,我们使用了一种硬件感知方法,使用扫描而非卷积对模型进行递归计算。然而,扩大的状态没有实现。得到的实现在当前硬件上比以前的技术更快,并且在理论建模设计中也更好。 架构:为了提供一种简单和均匀的架构设计,将以前的SSM架构设计与Transformer的MLP块相结合,形成一个单一的块,简化了以前的深度序列模型设计。 选择性SSM和Mamba架构的关键特性使它们成为更广泛的基础模型的基石,这些模型可以处理完全循环的序列,具有以下特点: (i) 高质量:选择性在遗传学和语言等密集模态上表现良好 (ii) 快速推断和训练:在推断过程中,自回归展开模型每一步只需要常数时间,因为它不需要先前组件的缓存,并且计算和内存随序列长度线性扩展 (iii) 长上下文:结合质量和效率,可以在实际数据上获得长达100万长度序列的性能提升 研究团队通过实验证明了Mamba作为通用序列FM骨干模型在各种模态和任务中的潜力: • 人工材料。Mamba不仅可以轻松解决关键的合成任务,如复制和归纳头任务,而且可以无限延伸解决无限长度的问题。 • 基因组和音频。在建模音频波形和DNA序列方面,Mamba要优于以前的最先进模型,如SaShiMi、Hyena和Transformers。其性能在两种情况下都随着更多上下文(长达一百万长度的序列)的增加而改善。 • 建模语言。曼巴(Mamba)代表了第一个能够在下游评估和预训练困惑度中真正达到类Transformer性能的线性时间序列模型。 研究团队证明了曼巴(Mamba)胜过了许多基线,包括基于 LLaMa…

Leave a Comment

“2024年成功的数据科学家如何在科技行业找到工作 —— 一种三步获胜的求职策略”

我最近对数据科学家进行了一项调查,并发现了一个令人震惊的数字——86%的人盲目地发送工作申请,并希望能得到最好的结果希望并不是一种策略,在这样的时代…

Leave a Comment

‘结识DeepCache:一种简单而有效的运行时压缩扩散模型的加速算法’

人工智能(AI)和深度学习的进步,彻底改变了人类与计算机互动的方式。通过引入扩散模型,生成建模在文本生成、图片生成、音频合成和视频制作等各个领域都展示出了卓越的能力。 尽管扩散模型表现出卓越的性能,但这些模型通常计算成本较高,主要与庞大的模型大小和顺序去噪过程有关。这些模型的推理速度非常慢,为解决这一问题,研究人员进行了一系列努力,包括减少样本步骤的数量,使用模型修剪、蒸馏和量化等技术降低每个步骤的模型推理开销。 传统的扩散模型压缩方法通常需要大量的重新训练,这带来了实践和资金上的困难。为了克服这些问题,研究人员团队推出了DeepCache,一种新颖的无训练范式,旨在优化扩散模型的体系结构以加速扩散过程。 DeepCache利用了扩散模型连续去噪阶段固有的时间冗余性。这种冗余性的原因在于某些特征在连续的去噪步骤中会重复出现。它通过引入针对这些特性的缓存和检索方法,大大减少了重复计算。团队表示,这种方法基于U-Net属性,可以在有效更新低级特征的同时重复使用高级特征。 DeepCache的创意方法有效提高了Stable Diffusion v1.5的速度2.3倍,仅降低0.05的CLIP评分。同时,在LDM-4-G上展示出了印象深刻的4.1倍速度提升,虽然在ImageNet上的FID损失为0.22。 研究人员对DeepCache进行了评估,实验比较结果显示,DeepCache的性能优于当前的修剪和蒸馏技术,而这些技术通常需要重新训练。它甚至展示了与现有采样方法相兼容的特点。在相同吞吐量下,它与DDIM或PLMS的性能相似或略优,最大限度地提高了效率而不损失产生的输出质量。 研究人员总结了DeepCache的主要贡献如下: DeepCache与当前快速采样器配合良好,展示了实现类似甚至更好生成能力的可能性。 它通过在运行时动态压缩扩散模型,提高了图像生成速度,无需额外训练。 利用可缓存特征,DeepCache通过使用高级特征的时间一致性,减少了重复计算。 DeepCache通过引入定制的扩展缓存间隔技术,提高了特征缓存的灵活性。 在CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017和PartiPrompt上的实验表明,DeepCache在DDPM、LDM和Stable Diffusion模型上的效果更好。 与需要重新训练的修剪和蒸馏算法相比,DeepCache的性能更好,保持了更高的效能。 总之,DeepCache作为一种扩散模型加速器,显示出巨大的潜力,为传统的压缩技术提供了有用且经济实惠的替代方案。

Leave a Comment

腾讯研究员发布FaceStudio:一种创新的人工智能文本到图像生成方法,专注于保留身份

文本到图像扩散模型代表了人工智能研究中一个有趣的领域。它们旨在根据文本描述创建逼真的图像,利用扩散模型进行生成。该过程涉及从基本分布中逐步生成样本,逐渐转化为与目标图像相似,同时考虑文本描述。多个步骤参与其中,将逐步引入噪音来生成图像。 目前的文本到图像扩散模型面临一个现有的挑战:仅凭文本描述准确地描绘一个主题。当需要生成复杂细节,如人脸特征时,尤其明显。因此,在探索超越文本线索的保持身份的图像合成方面,人们越来越有兴趣。 腾讯的研究人员提出了一种新的方法,专注于人体图像的身份保持图像合成。他们的模型采用了直接向前传递的方法,绕过复杂的微调步骤,以便快速高效地生成图像。它利用文本提示并结合样式和身份影像的额外信息。 他们的方法涉及一种多身份跨注意机制,使模型能够将来自不同身份的特定引导细节与图像中的不同人体区域相关联。通过使用包含人体图像的数据集对模型进行训练,并以人脸特征作为身份输入,模型学会在强调身份特征的同时重建人体图像。 他们的模型展示了在保留主体身份的同时合成人体图像的出色能力。此外,它使用户能够将自己的面部特征投影到不同风格的图像(如卡通),使用户能够在不损害身份的前提下以不同的风格进行可视化。此外,当提供相应的参考照片时,它在混合多个身份的创意生成方面表现出色。 他们的模型在单镜头和多镜头场景中展示了出色的性能,凸显了其在保护身份方面的设计的有效性。尽管基线图像重建大致保持图像内容,但在细粒度身份信息方面存在困难。相反,他们的模型成功地从身份引导分支中提取身份信息,从而为面部区域实现了更好的结果。 然而,该模型复制人脸的能力引发了伦理关注,尤其是可能创建冒犯性或文化不恰当的图像。负责任地使用这项技术至关重要,需要制定准则以防止在敏感情境中滥用。

Leave a Comment

麻省理工学院(MIT)和苏黎世联邦理工学院(ETH Zurich)的研究人员开发了一种机器学习技术,通过动态分离器选择来增强混合整数线性规划(MILP)求解能力

高效地应对复杂的优化问题,从全球包裹路由到电力网管理,一直是一个持久的挑战。传统方法,特别是混合整数线性规划(MILP)求解器,一直是破解复杂问题的首选工具。然而,它们的缺点在于计算强度,往往导致次优解或长时间的求解。为了解决这些限制,麻省理工学院和苏黎世联邦理工学院的研究人员开创了一种数据驱动的机器学习技术,承诺彻底改变我们解决复杂物流挑战的方式。 在物流领域,优化是关键,挑战是令人生畏的。尽管圣诞老人可能有他神奇的雪橇和驯鹿,但联邦快递等公司需要处理迷宫般的节假日包裹路线。公司使用的软件骨干是MILP求解器,它采用分而治之的方法来解决庞大的优化问题。然而,这些问题的复杂性往往导致求解时间长达数小时甚至数天。由于时间限制,公司经常被迫中断求解器的中间过程,接受亚优解。 研究团队确定了导致求解时间延长的一个关键中间步骤,即分隔管理。分隔管理是每个求解器的核心方面,但往往被忽视。分隔管理负责识别理想的分隔算法组合,这是一个具有指数数量潜在解决方案的问题。研究人员认识到这一点,试图用数据驱动的方法重新激活MILP求解器。 现有的MILP求解器采用通用算法和技术来导航广阔的解决方案空间。然而,麻省理工学院和苏黎世联邦理工学院的团队引入了一个过滤机制,以简化分隔搜索空间。他们将庞大的13万个潜在组合减少到了约20个可管理的选项。这个过滤机制依赖于递减边际效益的原理,即最大的效益来自一小组算法。 创新之处在于将机器学习融入MILP求解器框架。研究人员利用一个在问题特定数据集上训练的机器学习模型,从缩小的选项中选择最佳算法组合。与具有预定义配置的传统求解器不同,这种数据驱动的方法允许公司通过利用自己的数据来针对特定问题定制通用的MILP求解器。例如,像联邦快递这样经常解决路由问题的公司可以使用过去的实际数据来优化和增强他们的解决方案。 这个机器学习模型基于上下文情境强化学习的形式。这个迭代学习过程包括选择一个潜在解决方案,获得有关其有效性的反馈,并在随后的迭代中对其进行优化。结果是将MILP求解器的求解时间大幅加快,从30%到令人瞩目的70%,而不影响准确性。 总之,麻省理工学院和苏黎世联邦理工学院之间的合作努力在优化领域取得了重大突破。通过将经典的MILP求解器与机器学习相结合,研究团队为解决复杂的物流挑战开辟了新的途径。加快求解时间并保持准确性为MILP求解器带来了实际优势,使其更适用于实际场景。这项研究对优化领域做出了贡献,并为在解决复杂实际问题中广泛整合机器学习铺平了道路。

Leave a Comment

来自AI2和华盛顿大学的研究人员揭示了LLMs中对齐的表面本质,并引入了URIAL:一种全新的无调优方法

大型语言模型(LLMs)是人工智能(AI)和深度学习领域的最新创新。像GPT、PaLM、LLaMa等等这些知名的LLMs在生成内容方面展示了令人难以置信的潜力。从问答和文本摘要到语言翻译和代码补全,这些模型可以做很多事情。包括ChatGPT在内的这些模型都经过了对广阔无监督文本语料库的广泛预训练。然而,最近的研究表明,细调整的常用做法可能并不像之前认为的那样必要。 对齐调整,即改进基本LLMs以用作开放领域AI助手的过程,已被接受为行业标准。这包括人工反馈强化学习(RLHF)和监督微调(SFT)。这一标准在一项名为LIMA的研究中受到了质疑,该研究表明,仅仅使用1000个样本进行SFT可能就足以实现有意义的对齐性能。 LIMA提出的表面对齐假设认为,对齐调整不是根本改变基本LLMs的行为,而是训练它们选择适用于用户参与的特定数据格式。这表明,只需几个样例就可以在监督微调下产生高质量的对齐模型。 由于至今还没有足够的研究为表面对齐理论提供坚实的支持,来自艾伦人工智能研究所和华盛顿大学的研究人员最近在一篇论文中讨论了对齐调整的广泛应用技术,以将基本LLMs转化为实用的开放领域AI助手。通过人工反馈的强化学习完成了偏好调整,并通过监督微调完成了指令学习。 该团队通过检查基本LLMs与其对齐的版本(如Llama-2和Llama-2-chat)之间的令牌分布变化,以研究对齐调整的影响。他们发现基本LLMs和其对齐版本在大多数位置的解码中共享排名靠前的令牌,并表现出几乎相同的性能。对话标记和安全声明是最受分布波动影响的样式令牌的例子。这项研究为假设提供了有说服力的证据,即对齐调整主要集中于融入AI助手的语言风格,而基本LLMs提供了响应用户查询所需的信息。 该团队还针对这些发现提出了一个研究课题:在没有SFT或RLHF的情况下,基本LLMs可以进行多大程度的对齐调整?他们提出了URIAL(未调整的LLMs与重新设计的上下文对齐),这是一种不需要调整的对齐技术。只需三个连续的样式示例和一个系统提示,URIAL通过基本LLMs的上下文学习(ICL)单独完成有效的对齐。 在一系列称为just-eval-instruct的实例中,该团队提供了详细易懂的分析,显示基于URIAL的基本LLMs的性能可以与或优于基于SFT(Mistral-7b-Instruct)或SFT+RLHF(Llama-2-70b-chat)进行对齐的LLMs。结果表明,有意识的提示和上下文学习可以显著缩小无调整与基于调整的对齐策略之间的差距。 总之,评估结果突出了浅层对齐调整,并表明它主要涉及采用语言风格并依赖于基本LLMs的现有知识。

Leave a Comment

这篇来自谷歌和加利福尼亚大学伯克利分校的人工智能论文介绍了NeRFiller:一种通过2D修补扩散模型彻底改革3D场景重建的人工智能方法

如何有效地完成3D捕获的缺失部分?这篇来自Google Research和UC Berkeley的研究论文介绍了“NeRFiller”,一种新颖的3D修补方法,解决了由于重建失败或缺乏观察而经常缺失的不完整的3D场景或物体的重建问题。该方法通过参考示例控制修补过程,从而实现精确和可定制的场景修补。NeRFiller是一种3D生成修补方法,可以增强3D捕获中的场景或物体,是改善3D重建的有效解决方案。 该研究探讨了从传统的2D修补到像LaMa这样的大规模修补技术的不同方法,涉及概率和潜在扩散模型,考虑到涉及文本或图像的3D生成方法。强调了对象去除设置的相关性,并对3D修补的各种基准和数据集进行了评估。虽然涉及视频和场景编辑的相关作品,但重点主要是现有3D场景的场景完成。 该研究解决了3D场景补全和修补的挑战,强调了3D感知和多视角一致性方法的重要性。区分了场景补全和对象去除,重点是在3D场景中生成新的内容。讨论了2D生成修补模型在3D一致图像方面的限制。所提出的NeRFiller方法利用了从文本到图像扩散模型中的网格先验现象,以增强修补中的多视角一致性。还讨论了生成3D场景和对象去除方法的相关作品。 NeRFiller是一种利用生成的2D扩散模型作为修补的方法,用于完成3D场景中的缺失区域。它解决了各种修补估计和2D模型中缺乏3D一致性的挑战。NeRFiller引入了用于显著修补结果的整合机制,并鼓励3D特性。它利用迭代的3D场景优化,将网格修补扩展到大型图像集合。对比了Masked NeRF和LaMask等基准,证明了NeRFiller的有效性。评估包括比较、新视图度量、图像质量和几何度量。 NeRFiller在3D场景完成方面表现出色,填补了缺失区域并去除了不需要的遮挡物,在3D一致性和合理性方面表现出色。与对象去除基准相比,NeRFiller在完成缺失区域方面表现优异。评估指标包括NeRF、新视图、MUSIQ图像质量和几何度量,展示了它在生成连贯和逼真的3D场景方面的有效性。 总之,NeRFiller是一款强大的3D修补工具,可以准确完成3D场景中的缺失部分。它填充间隙并去除非理想元素的能力优于对象去除基准。引入联合多视角修补进一步增强其一致性,通过在多个图像上平均噪声预测。通过与最先进的基准进行比较,NeRFiller表现出了完成用户指定的3D场景的有效性。它为根据用户定义的规范修补3D捕获中的缺失区域提供了有价值的框架。

Leave a Comment

最近的人们研究表明,通过仅将一个提示添加到您身边,您可以将LLMs召回能力提高70%:释放Claude 2.1的力量,通过战略提示

这项研究解决了Claude 2.1功能中的一个固有挑战:其不愿根据其覆盖的200K令牌上下文窗口中的单个句子回答问题的问题。这种犹豫在最大化模型的回忆能力方面构成了一个重大障碍,促使了解决方案的探索。 对当前方法的检查揭示了Claude 2.1在面对有关单个句子的问题时的犹豫,尤其是那些被视为不合适的问题。作为回应,Anthropic的研究人员介绍了一个令人惊讶地有效的解决方案:添加一个提示。他们建议将句子“这是上下文中最相关的句子:”并入提示中。这个看似微小的调整,类似于一个元命令,极大地增强了模型的召回能力。 添加的提示作为指令,指示Claude 2.1优先处理相关的句子。这种方法有效地解决了模型对看似不合适句子问题的犹豫。性能改进通过一个实验证明:在200K上下文窗口评估中,Claude的分数从27%跃升到了令人印象深刻的98%。 值得注意的是,在提供了这个提示后,单个句子查询的准确性出现了显著增加。重要的是,这种对单个句子查询准确性的增加展示了添加提示对Claude 2.1性能的深远影响。这种显著改进表明了解决方案的实际意义,使得模型能够更好地处理在更大上下文中的孤立句子查询。 总之,这个有创意的解决方案解决了Claude 2.1的犹豫,通过添加一个提示增加了召回能力的70%。研究团队的发现提供了关于提示的微妙动态及其对语言模型行为的重大影响的宝贵见解。随着人工智能社区寻求提高大型语言模型的精确性,这一发现成为一个重要的进展,对改进其功能具有实际意义。 这篇文章最初发表于MarkTechPost上,转自最近的Anthropic研究表明,通过单个提示的添加,可以将LLMs的召回能力提高70%:通过战略提示释放Claude 2.1的力量。

Leave a Comment