Press "Enter" to skip to content

四海吧 Posts

使用AWS SageMaker Data Wrangler中的新功能优化数据准备

“数据准备是任何数据驱动项目中至关重要的一步,拥有合适的工具可以极大地提高运营效率亚马逊SageMaker Data Wrangler可以将聚合和准备表格和图像数据用于机器学习(ML)的时间从几周缩短到几分钟通过SageMaker Data Wrangler,您可以简化[…]”

Leave a Comment

Gautam Bakshi, 15Rock的联合创始人兼首席执行官 – 采访系列

高坦·巴克什是15Rock的联合创始人兼首席执行官,15Rock是全球领先的气候风险管理和咨询服务提供商高坦负责监督15Rock的所有关键运营部门,包括技术、研究、产品和运营你能分享一下你何时开始关注气候变化以及何时意识到[…]的故事吗?

Leave a Comment

“认识MovieChat:一种创新的视频理解系统,它集成了视频基础模型和大型语言模型”

大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著进展。将多模态引入LLMs并将其转化为多模态大型语言模型(MLLMs),可以进行多模态感知和解释,这是一个合乎逻辑的步骤。作为人工通用智能(AGI)的可能步骤,MLLMs在感知(如存在、计数、位置、OCR)、常识推理和代码推理等各种多模态任务中展示出了令人惊讶的新技能。与LLMs和其他任务特定模型相比,MLLMs能够以更类似人类的视角看待环境,提供用户友好的交互界面,并具备更广泛的任务解决能力。 现有的以视觉为中心的MLLMs使用Q-former或基本投影层、预训练的LLMs、视觉编码器和额外的可学习模块。另一种范式是通过API将当前的视觉感知工具(如跟踪和分类)与LLMs相结合,构建一个无需训练的系统。早期在视频领域的一些研究使用了这种范式开发了视频MLLMs。然而,以往从未对基于长时间电影(持续时间超过一分钟)的模型或系统进行过任何研究,并且也没有设定衡量这些系统有效性的标准。 在这项研究中,浙江大学、华盛顿大学、微软亚洲研究院和香港大学的研究人员介绍了一种名为MovieChat的独特框架,用于解决长时间视频解释挑战,将视觉模型与LLMs结合起来。根据他们的说法,扩展视频理解的剩余困难包括计算困难、内存开销和长期时间关联。为了解决这个问题,他们提出了一种基于阿特金森-希夫林(Atkinson-Shiffrin)记忆模型的记忆系统,其中包括快速更新的短期记忆和紧凑持久的长期记忆。 这个独特的框架将视觉模型与LLMs结合起来,是第一个能够进行扩展视频理解任务的框架。该研究通过进行严格的定量评估和案例研究,评估了理解能力和推理成本的性能,并提出了一种记忆机制,以降低计算复杂性和内存成本,同时改善长期时间关联。该研究通过将巨大的语言模型与视频基础模型相结合,提出了一种新颖的理解视频的方法。 该系统通过包含一个受阿特金森-希夫林模型启发的记忆过程来解决分析长电影的困难,其中包括由Transformers中的令牌表示的短期和长期记忆。所提出的系统MovieChat在扩展视频理解方面表现优于之前只能处理几帧电影的算法,并达到了最先进的性能。这种方法解决了长期时间关联问题,同时降低了内存使用和计算复杂性。该研究凸显了记忆过程在视频理解中的作用,使模型能够存储和检索相关信息长时间。MovieChat的普及对包括内容分析、视频推荐系统和视频监控在内的行业具有实际影响。未来的研究可能会探索如何加强记忆系统,并使用其他模态(包括音频)来提高视频理解能力。这项研究为需要全面理解视觉数据的应用创造了可能性。他们的网站上有多个演示。

Leave a Comment

医疗保健中的生成式人工智能

简介 生成式人工智能在过去几年中获得了突然的关注。医疗保健和生成式人工智能之间的强烈吸引力也并不令人意外。人工智能(AI)已经迅速改变了各个行业,医疗保健领域也不例外。人工智能的一个特定子集,生成式人工智能,在医疗保健领域已经成为一个改变者。 生成式人工智能系统可以生成新的数据、图像,甚至完整的艺术作品。在医疗保健领域,这项技术对于改进诊断、药物研发、患者护理和医学研究具有巨大的潜力。本文探讨了生成式人工智能在医疗保健领域的潜在应用和好处,并讨论了其实施挑战和道德考虑。 学习目标 生成式人工智能及其在医疗保健中的应用。 生成式人工智能在医疗保健中的潜在好处。 在医疗保健中实施生成式人工智能的挑战和限制。 生成式人工智能在医疗保健中的未来趋势。 本文作为Data Science Blogathon的一部分发表。 生成式人工智能在医疗保健中的潜在应用 已经在几个领域进行了研究,以了解生成式人工智能如何融入医疗保健。它对药物的分子结构和化合物的生成产生了影响,促进了潜在药物候选物的鉴定和发现。这可以节省时间和成本,同时利用尖端技术。其中一些潜在的应用包括: 增强医学成像和诊断 医学成像在诊断和治疗计划中起着至关重要的作用。生成式人工智能算法,如生成式对抗网络(GAN)和变分自动编码器(VAE),已经显著改进了医学图像分析。这些算法可以生成类似真实患者数据的合成医学图像,有助于机器学习模型的训练和验证。它们还可以通过生成额外的样本来增强有限的数据集,提高基于图像的诊断的准确性和可靠性。 促进药物发现和开发 发现和开发新药物是复杂、耗时和昂贵的。生成式人工智能可以通过生成具有所需特性的虚拟化合物和分子,显著加快这个过程。研究人员可以利用生成模型来探索广阔的化学空间,实现新药候选物的发现。这些模型可以从现有数据集中学习,包括已知的药物结构和相关属性,生成具有理想特性的新分子。 个性化医学和治疗 生成式人工智能有潜力通过利用患者数据来改变个性化医学,创建量身定制的治疗计划。通过分析大量的患者信息,包括电子健康记录、基因组信息和临床结果,生成式人工智能模型可以生成个性化的治疗建议。这些模型可以识别模式,预测疾病进展,并估计患者对干预措施的反应,使医疗保健提供者能够做出明智的决策。 医学研究和知识生成 生成式人工智能模型可以通过生成符合特定特征和约束的合成数据来促进医学研究。合成数据可以解决与共享敏感患者信息相关的隐私问题,同时允许研究人员提取有价值的见解并发展新的假设。 生成式人工智能还可以为临床试验生成合成患者队列,在进行昂贵且耗时的实际患者试验之前,使研究人员能够模拟各种场景并评估治疗效果。这项技术有潜力加速医学研究,推动创新,并扩大对复杂疾病的理解。 案例研究:CPPE-5医疗个人防护装备数据集 CPPE-5(医疗个人防护装备)是Hugging Face平台上的一个新数据集。它为在医学中进行生成式人工智能提供了强有力的背景。您可以通过对医疗个人防护装备进行分类来将其纳入计算机视觉任务中。这也解决了其他流行数据集关注广泛类别的问题,因为它专为医学目的而设计。利用这个新的医学数据集可以培养新的生成式人工智能模型。…

Leave a Comment

使用Amazon SageMaker和Salesforce Data Cloud集成,为您的Salesforce应用程序提供AI/ML功能

这篇文章由Daryl Martis(Salesforce Einstein AI产品总监)共同撰写这是一系列讨论Salesforce Data Cloud与Amazon SageMaker集成的第二篇文章在第一篇中,我们展示了Salesforce Data Cloud和Einstein Studio与SageMaker的集成,使企业能够安全地访问其Salesforce数据

Leave a Comment

英伟达的颠覆性AI图像个性化:灌注方法

在不断演进的人工智能艺术创作领域,Nvidia推出了一种革命性的文本到图像个性化方法,称为Perfusion。与其庞大的竞争对手不同,Perfusion以仅100KB的紧凑尺寸和4分钟的极速训练时间独树一帜。这款尖端人工智能工具提供了前所未有的创作自由,使用户能够描绘个性化概念,并保留其核心特征。在本文中,我们深入探讨了Perfusion这个引人入胜的世界,探索了它如何超越其他人工智能艺术生成器,以及Nvidia的创新方法如何赋予他们竞争优势。 还阅读:OpenAI推出Dall E-3:下一代人工智能图像生成器! 密钥锁定:Perfusion创新的核心 Perfusion成功的关键在于其新颖的“密钥锁定”技术。通过在图像生成过程中将特定概念与更广泛的类别链接起来,Perfusion可以避免过拟合,并生成多种创意版本,同时保留所期望概念的本质。这一突破使用户能够个性化图像,并在保持其独特特征的同时添加特定对象,如猫或椅子。 将个性化概念与自然交互相结合 与现有的单独学习概念的人工智能艺术工具不同,Perfusion允许多个个性化概念在单个图像中共存,并具有自然交互。用户可以通过文本提示引导图像创建过程,合并多个概念。这一卓越功能为艺术家和创意人士开辟了令人兴奋的实验和创作独特视觉杰作的可能性。 灵活性和定制化的力量 Perfusion的紧凑尺寸和高效性使用户能够在图像生成过程中控制视觉保真度和文本对齐的平衡。通过调整一个100KB的模型,用户可以探索Pareto前沿,并选择适合其特定需求的最佳权衡,而无需重新训练。这种定制水平使Perfusion与其庞大的竞争对手区别开来。 还阅读:Stability AI的稳定扩散XL 1.0:人工智能图像生成的突破 卓越的视觉质量和对齐 Nvidia声称,与其他领先的人工智能技术相比,Perfusion生成的图像质量和对齐效果更好。虽然其他人工智能图像生成器可能提供微调选项,但其庞大的尺寸可能是一个缺点。相比之下,Perfusion的高效性使得有针对性的更新成为可能,使其能够以精确度和准确性超越更大的模型。 Nvidia对人工智能的日益关注 随着对人工智能技术的需求激增,Nvidia战略性地将自己定位为该领域的主导者。该公司的股价飙升,其GPU在训练人工智能模型方面处于领先地位。尽管在生成式人工智能领域,Anthropic、Google、Microsoft和百度等实体存在激烈竞争,但Nvidia的创新Perfusion模型可能给他们带来优势。 还阅读:NVIDIA构建AI超级计算机DGX GH200 我们的观点 Nvidia的Perfusion是人工智能艺术创作领域的一次革命。凭借其紧凑的尺寸、极速的训练时间和无与伦比的创作灵活性,Perfusion为图像个性化设定了新的标准。随着Nvidia准备发布这一突破性技术的代码,艺术家和创意人士都可以期待释放他们的想象力,创造令人惊叹的视觉体验。随着人工智能领域的不断发展,Perfusion的影响力必将塑造人工智能艺术的未来,并为创意表达开启新的可能性。

Leave a Comment

快速将我放在中心位置:主题扩散是一种人工智能模型,可以实现开放领域的个性化文本到图像生成

文本到图像模型已经成为AI领域讨论的基石,该领域的进展相当迅速,因此我们拥有了令人印象深刻的文本到图像模型。生成式人工智能进入了一个新阶段。 扩散模型是这一进展的关键贡献者。它们已经成为一个强大的生成模型类别。这些模型被设计为通过缓慢去噪输入来生成高质量的图像。扩散模型能够捕捉隐藏的数据模式并生成多样且逼真的样本。 基于扩散的生成模型的快速进展已经彻底改变了文本到图像生成方法。你可以要求一个图像,无论你能想到什么,描述出来,模型都能够相当准确地为你生成出来。随着它们的进一步发展,越来越难以理解哪些图像是由人工智能生成的。 然而,这里存在一个问题。这些模型完全依赖于文本描述来生成图像。你只能“描述”你想要看到的内容。此外,它们很难进行个性化,因为在大多数情况下需要进行微调。 想象一下,你正在为你的房子做室内设计,与一位建筑师合作。建筑师只能为你提供他为之前的客户设计的方案,当你试图个性化设计的某个部分时,他只会忽视它并为你提供另一个曾经使用过的风格。听起来不太令人愉快,不是吗?如果你在寻求个性化,这可能是你在使用文本到图像模型时会得到的体验。 幸运的是,已经有人试图克服这些限制。研究人员已经探索了将文本描述与参考图像整合起来以实现更个性化的图像生成。虽然一些方法需要在特定的参考图像上进行微调,但其他方法会在个性化数据集上重新训练基础模型,从而可能出现保真度和泛化性的潜在缺陷。此外,大多数现有算法只适用于特定领域,无法处理多概念生成、测试时微调和开放领域零样本能力。 因此,今天我们将介绍一种接近开放领域个性化的新方法——Subject-Diffusion。 SubjectDiffusion可以生成高保真度的主题驱动图像。来源:https://arxiv.org/pdf/2307.11410.pdf Subject-Diffusion是一种创新的开放领域个性化文本到图像生成框架。它仅使用一个参考图像,消除了测试时微调的需求。为了构建一个大规模的个性化图像生成数据集,它利用了一个自动数据标记工具,生成了令人印象深刻的7600万图像和2.22亿个实体的Subject-Diffusion数据集。 Subject-Diffusion有三个主要组成部分:位置控制、细粒度参考图像控制和注意力控制。位置控制是在噪声注入过程中添加主要主题的遮罩图像。细粒度参考图像控制使用一个组合的文本-图像信息模块来改善两者的整合。为了实现多个主题的平滑生成,训练过程中引入了注意力控制。 SubjectDiffusion概览。来源:https://arxiv.org/pdf/2307.11410.pdf Subject-Diffusion实现了令人印象深刻的保真度和泛化性,能够根据每个主题的一个参考图像生成单个、多个和以人为主题的个性化图像,并进行形状、姿势、背景和风格的修改。该模型还通过特别设计的去噪过程,实现了自定义图像和文本描述之间的平滑插值。定量比较显示,Subject-Diffusion在各种基准数据集上超越或与其他最先进的方法相媲美,无论是否进行测试时微调。

Leave a Comment

以人工智能为驱动的“Deepfake”欺诈:喀拉拉邦对骗子的持续战斗

在最近几个月里,喀拉拉邦目睹了一种利用人工智能驱动的“深度伪造”技术进行欺诈的激增。超过300人损失了惊人的4千万卢比,该邦正面临着新一波网络犯罪的挑战。这种人工智能骗局以诱人的“在家工作”和“家庭业务”机会为目标,针对易受攻击的受害者。本文探讨了这些骗子的作案手法,他们如何使用深度伪造技术,以及喀拉拉邦警察为打击这种危害所做出的努力。 另请阅读:网络犯罪分子使用WormGPT突破电子邮件安全 欺诈浪潮的崛起 根据警方报告,实际案件数量可能要远高于报告的数字。喀拉拉邦是这种欺诈活动猖獗的邦中名列前茅,网络骗子每月从居民手中骗取约1亿卢比。令人震惊的是,女性和家庭主妇成为这些骗局的主要目标。 另请阅读:欺诈GPT:人工智能驱动的网络犯罪工具的惊人崛起 “在家工作”骗子的诱惑 犯罪分子通过WhatsApp或Facebook与受害者联系,提供在家工作的机会。然后,他们以观看商业视频来吸引受害者,承诺通过这种方式获得奖励。然而,这种诱饵很快变成了陷阱,因为受害者被卷入了一系列任务中,积累了积分,最终导致巨额的货币需求。 狡猾的商业欺诈 另一种欺诈方案涉及销售知名品牌的产品,通过诱人的交易吸引受害者。犯罪分子营造出真实交易的假象,在提供更大的购买机会之前,建立受害者的信心。受害者很快感到受骗,因为参与此类骗局的社交媒体群体消失得无影无踪。 另请阅读:罪犯使用人工智能冒充亲友 深度伪造技术的威胁 喀拉拉邦警方最近调查了一起使用人工智能驱动的“深度伪造”技术欺骗受害者4万卢比的案件。通过模仿前同事进行视频通话,骗子以虚构的医疗紧急情况巧妙地欺骗受害者转账。这种高级手法给执法机构追踪和逮捕罪犯带来了重大挑战。 另请阅读:在人工智能时代如何检测和处理深度伪造? 喀拉拉邦警方追求正义 科齐科德市网络警察迅速采取行动,派遣一个团队前往艾哈迈达巴德追踪深度伪造案件中的被告。调查涉及评估在果阿赌场注册的地址的真实性,该地址是罪犯用于注册犯罪中使用的sim卡的。喀拉拉邦警方正在寻求古吉拉特邦警方的帮助,决心将犯罪分子绳之以法。 另请阅读:欧盟呼吁采取措施识别深度伪造和人工智能内容 我们的观点 人工智能驱动的“深度伪造”欺诈的崛起严重威胁着个人和他们辛辛苦苦赚来的钱。随着受害者数量的增加和财务损失的飙升,喀拉拉邦的执法机构正在加大努力打击这种阴险的网络犯罪形式。在先进技术时代,意识和警惕成为保护自己免受这些欺诈计划侵害的关键工具。通过保持了解和在在线互动中采取谨慎行事,公民可以挫败骗子的恶意意图,使数字世界对每个人来说更加安全。

Leave a Comment

遇见BeLFusion:使用潜在扩散的行为潜在空间方法进行逼真且多样化的随机人体动作预测

随着人工智能(AI)继续吸引世界的目光,一项令人称奇的应用在计算机视觉和AI的交叉领域中崭露头角,即人体运动预测(HMP)。这个引人入胜的任务涉及根据观察到的运动序列预测人体主体的未来运动或动作。其目标是预测一个人的身体姿势或动作如何演变。HMP在机器人学、虚拟化身、自动驾驶车辆和人机交互等多个领域都有应用。 随机HMP是传统HMP的扩展,其重点是预测可能未来动作的分布,而不是单一确定的未来。这种方法认识到人类行为的固有自发性和不可预测性,旨在捕捉与未来动作或运动相关的不确定性。随机HMP通过考虑可能未来动作的分布来解决人类行为的可变性和多样性,从而实现更加真实和灵活的预测。在需要预测多种可能行为至关重要的场景中,如辅助机器人或监控应用,随机HMP尤为有价值。 通常使用生成模型(如GAN或VAE)来预测每个观察序列的多个未来动作来处理随机HMP。然而,这种在坐标空间中生成多样化动作的重点导致了不真实和快速发散的动作预测,可能需要更好地与观察到的动作相一致。此外,这些方法通常忽视了预测具有微小关节位移的多样化低范围行为。因此,需要新的方法来考虑行为多样性并在随机HMP任务中产生更加真实的预测。为了解决现有随机HMP方法的局限性,巴塞罗那大学和计算机视觉中心的研究人员提出了BeLFusion。这种新颖的方法引入了一个行为潜空间,以生成真实且多样化的人体运动序列。 生成模型中的快速和发散的动作。 BeLFusion的主要目标是将行为与动作分离,实现观察到的姿势和预测姿势之间的平滑过渡。这通过行为VAE实现,包括行为编码器、行为耦合器、上下文编码器和辅助解码器。行为编码器结合了门控循环单元(GRU)和2D卷积层,将关节坐标映射到潜在分布。然后,行为耦合器将采样的行为转移到进行中的动作,生成多样化且具有上下文适应性的动作。BeLFusion还结合了一种条件潜空间扩散模型(LDM),以准确地编码行为动态并将其有效地转移到进行中的动作,同时最小化潜在和重构错误,以增强生成动作序列中的多样性。 BeLFusion的创新架构还包括一个观察编码器,它是一个从关节坐标生成隐藏状态的自编码器。该模型利用了潜空间扩散模型(LDM),该模型使用了带有交叉注意机制和残差块的U-Net,从中采样出行为与姿势和动作分离的潜在空间。通过从行为的角度促进多样性并与最近的过去保持一致性,BeLFusion在随机HMP中产生了比最先进方法更加真实和连贯的动作预测。通过行为分离和潜空间扩散的独特组合,BeLFusion在人体运动预测方面代表了一个有希望的进展。它具有为各种应用程序生成更自然和上下文适应的动作的潜力。 实验评估显示,BeLFusion具有令人印象深刻的泛化能力,在已知和未知情景中表现出色。在使用Human3.6M和AMASS数据集的具有挑战性结果进行跨数据集评估时,它在各种指标上表现优于最先进的方法。在H36M上,BeLFusion的平均位移误差(ADE)约为0.372,最终位移误差(FDE)约为0.474。同时,在AMASS上,它的ADE约为1.977,FDE约为0.513。结果表明BeLFusion生成准确且多样化预测的能力优越,展示了它在不同数据集和动作类别上进行逼真人体运动预测的有效性和泛化能力。 总体而言,BeLFusion是一种用于人体运动预测的新方法,其在Human3.6M和AMASS数据集的准确性指标中实现了最先进的性能。它利用行为潜空间和潜扩散模型生成多样化且上下文自适应的预测。该方法能够捕捉和转移序列之间的行为,使其对领域转移具有鲁棒性,并提高了泛化能力。此外,定性评估表明,BeLFusion的预测比其他最先进的方法更加逼真。它为人体运动预测提供了有希望的解决方案,在动画、虚拟现实和机器人技术等领域具有潜在应用。

Leave a Comment

“40个酷炫的人工智能工具值得您查看(2023年8月)”

DeepSwap DeepSwap 是一款基于人工智能的工具,适用于任何想要创建逼真深度伪造视频和图像的人。通过重新面部定位视频、图片、梗、旧电影、GIF 等,您可以轻松地创建自己的内容。该应用没有内容限制,因此用户可以上传任何内容的素材。此外,首次订阅该产品的用户可享受50%的折扣。 Aragon 使用 Aragon 轻松获得令人惊叹的专业头像照片。利用最新的人工智能技术,轻松地为自己创建高质量的头像照片!不需要费心预约摄影工作室或打扮。快速编辑和修饰您的照片,不需要等上几天。获得40张高清照片,为您在下一份工作中带来优势。 AdCreative.ai 使用 AdCreative.ai,提升您的广告和社交媒体能力,这是终极人工智能解决方案。告别数小时的创意工作,欢迎在几秒钟内生成高转化的广告和社交媒体帖子。立即使用 AdCreative.ai,最大化您的成功,最小化您的努力。 Otter AI Otter.AI 借助人工智能技术,为用户提供实时的会议笔记转录,这些转录具有共享、搜索、访问和安全的特点。获得一个会议助手,可以录制音频、撰写笔记、自动捕捉幻灯片并生成摘要。 Notion Notion 正通过利用其先进的人工智能技术来增加其用户群。他们的最新功能 Notion AI 是一个强大的生成式人工智能工具,可以帮助用户完成笔记摘要、会议中的行动项识别、文本的创建和修改等任务。Notion AI 通过自动化繁琐的任务、提供建议和模板,优化了工作流程,简化和改善了用户体验。 Docktopus…

Leave a Comment

Abacus AI 推出一款新的开放式长上下文大语言模型 LLM:遇见Giraffe

最近的语言模型可以将长上下文作为输入;需要了解它们如何更好地使用更长的上下文。能否将LLMs扩展到更长的上下文?这是一个未解答的问题。Abacus AI的研究人员进行了多次实验,涉及不同方案来开发Llama的上下文长度能力,该模型在上下文长度2048上进行了预训练。他们使用IFT将这些模型进行线性缩放,缩放比例为4和16。将模型缩放到16倍可以执行长达16k的上下文长度的任务,甚至可以执行长达20-24k的上下文长度的任务。 扩展上下文长度的不同方法包括线性缩放、通过幂将旋转位置嵌入(RoPE)的傅里叶基缩放、截断傅里叶基和随机化位置向量。Abacus AI的研究人员使用这些方法对RedPajama数据集和Vicuna数据集进行了微调。他们发现线性缩放是稳健的,但会增加模型的上下文长度。截断和随机化具有很高的困惑度分数,但在检索任务上表现较差。 为了评估这些模型,研究人员使用了来自LMSys、开放式问答数据集和WikiQA的数据集。LMSys数据集用于在上下文中定位子字符串。WikiQA任务是根据维基百科文档中给出的信息回答问题的任务。 团队根据Google自然问题中的简短回答格式数据构建了一个QA任务。他们确保输出只是从原始文档中复制粘贴的短词回答。这样可以精确定位LLM应该查找的位置,通过将答案放置在不同位置有效地评估扩展上下文长度的每个部分。他们还创建了多个具有不同大小的相同维基百科文档的版本,这使他们能够在模型大小上进行公平评估。 基于维基百科的数据集的问题是模型从其预训练的文本中回答而不是从上下文中回答。研究人员通过创建一个由只有数字答案的问题组成的改编数据集来解决这个问题。他们改变了答案和文档中响应的每个出现,使得如果LLM从其预训练的文本中回忆起来,模型将错误地回答。他们将原始QA任务命名为自由格式QA(FFQA),将改编任务命名为改编数字QA(AltQA)。 AbacusAI的研究人员在两个版本的QA任务中对每个示例进行了存在准确性评估。存在准确性是衡量生成的解决方案中是否存在答案作为子字符串的准确性。他们观察到IFT的准确性提高并不能给模型能够实现的上下文长度范围带来任何扩展。 研究人员表明,通过缩放上下文进行IFT可以显著提高性能。他们观察到在缩放上下文因子插值的所有位置上,FFQA的性能提高了2倍,AltQA的性能提高了2.5倍。最后,他们的研究工作提出了一个更大上下文的语言模型,它通过更好地捕捉文档的主题更容易地提高困惑度。

Leave a Comment

查看我们的独家Docker速查表!

介绍 Docker是一个开源平台,通过容器化简化了构建、发布和运行应用程序的过程。容器允许开发人员将应用程序及其依赖项打包,使其在不同环境中具有可移植性和一致性。这份Docker备忘单提供了重要命令和概念的快速参考指南,以有效地使用Docker。 什么是Docker? Docker是一个容器化平台,使开发人员能够在隔离的容器中创建、部署和管理应用程序。这些容器封装了应用程序代码、运行时、库和依赖项,确保在各种系统上的一致性和效率。 了解更多:Docker入门完全指南 Docker架构 Docker遵循客户端-服务器架构: Docker客户端:允许用户与Docker守护进程进行交互的命令行工具。 Docker守护进程:负责构建、运行和管理Docker容器的后台服务。 Docker镜像:用于创建容器的只读模板。 Docker容器:运行中的Docker镜像实例。 Docker注册表:用于存储和分发Docker镜像的仓库。 安装Docker 要在您的系统上安装Docker,请按照您的操作系统的适当说明进行操作。以下是Windows和MacOS的安装步骤。 Windows 检查系统要求 Windows 10 64位:Pro、Enterprise或Education版本 BIOS/UEFI中启用硬件虚拟化(Intel VT-x/AMD-V) 下载Docker Desktop 访问Docker官方网站,下载适用于Windows的Docker Desktop安装程序。…

Leave a Comment

“简单的数学可以为大型语言模型(LLMs)的强化学习和高效学习提供信息吗?这篇人工智能论文回答是肯定的!”

融入人类输入是近期大型语言模型(LLM)能力显著提升的关键组成部分,例如ChatGPT和GPT-4。为了有效使用人类反馈,首先必须训练一个融入人类偏好、价值观和伦理问题的奖励模型。然后,在奖励模型的指导下,使用强化学习调整LLM。这个过程被称为从人类反馈中进行强化学习(RLHF),可以成功地使LLM与人类目标协调,显著提升人际交流的质量。 创建一个功能性且基于人类偏好的奖励系统并不容易。当人类标注者无法为特定提示的响应或完成提供一个数字评分时,这变得非常具有挑战性。相反,对于人们来说,根据质量进行完成的两两比较要简单得多,并且这种方法被用于InstructGPT的创建。特别是,人类标注者在看到由LLM生成的许多完成的同一个提示后,将这些完成从最高到最低的感知质量进行排序。 然后,回复根据一个经过训练的神经网络来匹配人类偏好排名的奖励模型进行奖励。尽管有一些优点,比如消除校准问题,但排名并不能充分反映多个提示的各种奖励分布。这是因为当排名较高时,很难清楚地知道一个完成比另一个完成好多少。由于一些RLHF提示是开放式的,或者换句话说,依赖于用户的历史记录,因此奖励分布可能在较大范围内变化;因此,这个问题尤为重要。 相反,有些提示是封闭式的,产生应该获得高或低分的回复,导致奖励分布的近似两点质量分布。第一类提示的例子包括“证明勾股定理”和“鸡是恐龙吗”。第二类提示的例子包括“证明勾股定理”和“写一篇关于100年后人工智能的短篇小说”。只有考虑到各种线索的微妙之处,激励模型才能帮助LLM适当地衡量不确定性。 斯坦福大学、普林斯顿大学和宾夕法尼亚大学的研究人员记录了一个意外现象,显示在根据偏好排名训练奖励模型时,它可以提供独立于提示的相同奖励分布。这个事件发生在训练的最后阶段,被称为奖励崩溃。有趣的是,在这个事件被经验性地证明之前,他们的理论分析就已经预测到了。他们证明了可以使用一个简单的优化程序,甚至更简单的闭式表达式来数值推断奖励崩溃的奖励分布。他们对奖励崩溃的预测与经验结果非常吻合。 他们的第二个重要贡献是引入了一种有原则的策略,利用来自同一个优化程序的数据来防止奖励崩溃。奖励崩溃是不可取的,因为它忽略了不同提示之间微小的区别,并且在使用强化学习和奖励模型训练LLM时可能导致人类选择的错误校准。奖励模型的训练提前结束是解决这个问题的一个简单方法,但这是相当任意的,并且很难决定何时结束。 实质上,他们建议基于提示使用不同的效用函数来训练奖励模型,这样产生的奖励分布可以是广泛分散或紧密集中的,具体取决于提示是开放式还是封闭式。这种基于提示的技术具有明显的优势,可以进行全面的分析,根据需要完全定制奖励分布的结构。他们的研究结果表明,使用这种基于提示的技术可以显著减少奖励崩溃。

Leave a Comment

利用生成式人工智能增强AWS智能文档处理

对于处理大量文档的组织来说,数据分类、提取和分析可能具有挑战性传统的文档处理解决方案是手动的、昂贵的、容易出错的,并且难以扩展AWS智能文档处理(IDP)通过使用Amazon Textract等人工智能服务,让您能够快速利用领先行业的机器学习(ML)技术来快速实现数据分类、提取和分析

Leave a Comment

如何构建生成式人工智能应用和3D虚拟世界

为了成长和取得成功,组织必须不断专注于技术技能的发展,特别是在快速发展的技术领域,如生成式人工智能和3D虚拟世界的创造。 NVIDIA培训为团队提供了适应人工智能时代、高性能计算和工业数字化的技能,并宣布推出覆盖这些技术的新课程。该计划已经为成千上万的学生、开发人员、研究人员和数据科学家提供了关键的技术技能。 通过最新的课程,NVIDIA培训使组织能够充分利用生成式人工智能和虚拟世界的力量,这些技术正在改变商业格局。 开始构建生成式人工智能应用 生成式人工智能正在改变组织的工作方式。它使用户能够根据各种输入快速生成新内容,包括文本、图像、声音、动画、3D模型和其他数据类型。 关于生成式人工智能的新课程包括: 生成式人工智能解析 — 生成式模型正在加速许多用例的应用开发,包括问题回答、摘要、文本蕴含、2D和3D图像和音频创建。在这门为期两小时的课程中,NVIDIA应用深度学习研究副总裁布莱恩·卡坦扎罗将概述生成式人工智能的主要发展,介绍其现状以及未来可能具备的能力。他将讨论技术细节和流行的生成式人工智能应用,以及企业如何负责任地使用这项技术。 使用扩散模型的生成式人工智能 — 得益于计算能力和科学理论的改进,生成式人工智能比以往更易于访问。通过这门实践课程,学生将学习如何使用最新技术构建基于文本到图像的生成式人工智能应用。使用扩散模型生成图像,并通过各种优化来改进输出。使用U-Net架构构建去噪扩散模型,为用户提供更多的控制。 要查看关于生成式人工智能和大型语言模型的完整课程列表,请查看NVIDIA培训的学习路径。 构建数字3D世界 数字世界构建的进展正在改变媒体和娱乐、建筑、工程、施工和运营、工厂规划和头像创建等行业。 沉浸式的3D环境提升了用户参与度,使创新解决方案能够应对现实世界的问题。NVIDIA Omniverse是一个用于连接和开发3D工具和应用程序的平台,使技术艺术家、设计师和工程师能够快速组装复杂和物理准确的模拟和3D场景,并与团队成员无缝协作。 关于这个主题的新课程包括: NVIDIA Omniverse中USD的基本要素 — 通用场景描述(Universal Scene Description,简称USD)正在改变各行业的3D工作流程。它是一个开放标准,使3D艺术家和开发人员能够在元宇宙中连接、组合和模拟。学生将学习什么使得OpenUSD成为设计3D世界的独特之处。培训内容包括使用基本节点、属性和关系进行数据建模,以及用于场景组装和协作的自定义模式和组合。 开发Omniverse…

Leave a Comment

Codey Google的生成式AI用于编码任务

介绍 自从引入以来,OpenAI已经发布了无数基于他们顶级GPT框架构建的生成式AI和大型语言模型,包括ChatGPT,他们的生成式对话AI。在成功创建对话语言模型之后,开发人员不断尝试创建可以开发或辅助开发人员编写应用程序的大型语言模型。许多公司已经开始研究这些LLM,包括OpenAI,它们将帮助开发人员通过LLM更快地构建应用程序,了解编程语言。Google构建了Codey,PaLM 2的经过微调的模型,能够执行各种编码任务。 还阅读:PaLM 2 By Google To Tackle GPT-4 Effect 学习目标 了解Codey是如何构建的 学习如何在Google Cloud Platform上使用Codey 了解Codey可以接受的提示类型 探索和参与Codey内的不同模型 利用Codey生成可行的Python代码 测试Codey以查看其如何识别和解决代码中的错误 本文作为《数据科学博文马拉松》的一部分发布。 Codey是什么? Codey是Google最近构建和发布的基础模型之一。Codey基于PaLM 2大型语言模型。Codey是PaLM 2大型语言模型的经过微调的模型。通过对大量高质量的代码和编码文档进行微调,Google声称Codey可以在包括Python、C、Javascript、Java等在内的20多种编程语言中编码。Codey被用于增强Google产品,如Google…

Leave a Comment