Month: October 2023

数据科学将如何加快循环经济的发展？

Published October 19, 2023 by 四海吧

“在过渡到循环经济中克服操作挑战的可行数据科学技巧”

Leave a Comment

“Python装饰器：全面指南”

Published October 19, 2023 by 四海吧

Python 装饰器是那种如果你理解了它们就很简单，否则就非常困难的概念之一许多 Python 初学者把它们看作是一种必须学习和使用的神奇工具…

Leave a Comment

创建和发布R数据包的详细指南：使用Devtools

Published October 19, 2023 by 四海吧

当我受邀在2023年Posit会议上演讲，介绍动画和互动的叙事，我花了数月时间思索完美的数据集似乎每一个都引人入胜…

Leave a Comment

介绍在技术和数据融合定义了这个时代的背景下，数据科学的力量超越了传统的界限，开启了创新的新时代。今天，我们踏上了一段启迪人心的旅程，进入到临床数据科学的领域，医疗、技术和数据科学的融合将彻底改变医疗保健领域。在这次探索中，我们超越了数据科学传统的应用，进入到一个行动洞察力推动患者护理转化和临床结果最终提升的世界。本文将展示数据科学在患者护理中的重要性和影响，重点关注肿瘤学。学习目标：了解临床数据科学是什么。通过案例研究，了解数据科学和数据可视化如何帮助临床决策。了解临床数据科学的目标和目的。什么是临床数据科学？在这个快速发展的数字化时代，我们目睹了医疗、技术和数据科学的融合。临床数据科学领域将这三个领域结合起来，在患者护理中产生强大的影响力。无论您是医疗专业人员还是数据爱好者，了解这个交叉点至关重要。临床数据科学不仅仅是传统的数据科学，它是根据医疗保健的独特需求量身定制的数据科学。我们利用来自各种来源的临床数据，包括智能健康设备和可穿戴设备。但是，这不仅仅是收集数据，而是将其转化为行动洞察力，以改善患者护理。临床数据科学的重要性为什么临床数据科学如此重要？要回答这个问题，我们就要深入研究医疗、技术和数据科学的交叉领域。当这些领域结合在一起时，就会开启一个可能性的世界。医疗专业人员不能有效地使用数据科学工具而不了解医疗的复杂性，数据科学家需要理解医疗以与这些专家一起工作。进入这些领域的交叉点，你就拥有了成功的钥匙。那么，为什么我们要关心行动洞察力呢？想象一下，临床数据如何帮助医疗从业者做出更好的决策。例如，考虑一个患有特定健康状况（如糖尿病）的患者。我们可以使用临床数据分析疾病在不同年龄段和地区的患病率，帮助医疗提供者为更有效的护理量身定制方法。利用临床数据获取行动洞察力那么，临床数据科学是如何发挥其魔力的呢？它从一个问题陈述开始，即医疗保健中数据可以解决的挑战。无论是改进癌症筛查、研究基因组学、加速药物发现还是增强癌症监测，这些问题陈述推动了临床数据科学的过程。患者数据，特别是生命体征和生物条件被收集和分析。这些参数指导治疗方案，包括药物选择、化疗时间表和膳食建议。临床数据科学帮助医疗从业者做出基于数据的决策，最大程度地提高治疗的效果。可视化是临床数据科学的一个关键方面。提供清晰、易于理解的洞察力的仪表板不仅对医疗专业人员有价值，对患者也有价值。可视化健康数据使个人能够监测自己的健康状况，并了解其随时间的变化。这不仅仅局限于二维图表；三维图表可以提供对复杂健康数据的更深入的理解，提高患者和医疗从业者所做决策的质量。临床数据可视化用于明智的决策临床数据科学通过将原始临床数据转化为行动洞察力，助力医疗保健领域革命。通过医疗技术、物联网、人工智能/机器学习和数据科学的交叉，这个领域赋予医疗从业者和个体权力。它为量身定制治疗方案和做出明智的决策提供了潜力。临床数据可视化对于将复杂的数据与实际决策桥接起到了关键作用。以肿瘤学为例，临床数据科学可以根据患者的生物条件和生命体征制定个体化的治疗方案。可视化数据帮助医疗专业人员和个体理解和解释复杂信息。一个例子是使用仪表板来提供关于健康状况的易于理解的信息。这些仪表板可以为医疗专业人员和患者定制，使每个人都更容易理解复杂数据。医疗专业人员、数据科学家和技术专家之间的合作对于创建有影响力的患者护理生态系统至关重要，其中数据指引我们朝着改善临床结果的方向前进。数据科学对临床结果的影响临床数据科学不仅仅是一个流行词，它是提高临床结果的强大工具。我们需要利用这个工具，将原始临床数据转化为可操作的见解。临床数据科学的关键功能包括生物统计学、临床编程和临床数据管理。生物统计学通过分析P值、置信区间等来确保临床数据符合监管标准和合规性。临床编程在遵循严格的CDISC等标准的同时管理和处理数据。这些功能确保临床数据是客观和有意义的，这在医疗领域至关重要。临床数据科学专注于连接医疗保健、物联网和数据科学的差距，强调多学科的方法的重要性。这些领域的交集使我们能够创建一个高效、可操作的患者护理生态系统。…

Leave a Comment

我们能克服大型语言模型的迅速脆弱吗？谷歌AI引入批处理校准以提高性能

Published October 18, 2023 by 四海吧

最近，大型语言模型作为各种自然语言理解和图像分类任务的强大工具而出现。然而，这些语言模型存在一些挑战，特别是在输入方面存在提示脆弱性和多个偏见。这些偏见可能来自格式选择、词汇选择以及用于上下文学习的示例。这些问题可能导致性能的意外下降，因此必须有效地解决。为了解决这些挑战，现有的工作提出了校准方法以减轻偏见并恢复语言模型性能。这些方法致力于更统一地看待问题并解决其细微之处。需要这样的解决方案的原因在于语言模型对提示方式非常敏感，它们的预测可能受到模板和词汇选择、ICL示例的顺序和内容的影响。一组谷歌研究人员提出了一种名为批次校准（BC）的新方法。BC是一种直观简便的方法，针对批处理输入中的明确上下文偏见。与其他校准方法不同，BC是一种零样本方法，仅在推断阶段应用，额外的计算成本最小。这种方法可以扩展为几次样本设置，使其能够从标记数据中适应和学习上下文偏见。通过对十多个自然语言理解和图像分类任务进行广泛实验，证明了BC的有效性。在零样本和几次样本学习情况下，BC优于先前的校准基线。BC在设计上的简洁性以及从有限标记数据中学习的能力使其成为解决语言模型中的提示脆弱性和偏见的实用解决方案。通过这些实验获得的度量指标显示，BC提供了最先进的性能，使其成为与语言模型合作的人士的有希望的解决方案。通过减轻偏见和提高鲁棒性，BC简化了提示工程的过程，并为这些强大语言模型的性能提供更高效、可靠的表现。总之，批次校准（BC）等创新校准方法有效地解决了大型语言模型中提示脆弱性和偏见的挑战。这些方法提供了一种统一的方法来减轻上下文偏见并改善语言模型性能。随着自然语言理解和图像分类的不断发展，像BC这样的解决方案在发挥LLM的全部潜力的同时，最大限度地减少了偏见和脆弱性对其响应的影响。

Leave a Comment

优化 Purina 的 Petfinder 应用程序的宠物配置文件，使用 Amazon Rekognition 自定义标签和 AWS Step Functions

Published October 18, 2023 by 四海吧

宠爱纽仕兰（Purina US）是雀巢的子公司，通过全美、加拿大和墨西哥共有超过11,000家动物收容所和救援组织的数字市场Petfinder，帮助人们更轻松地领养宠物的历史悠久作为领先的宠物领养平台，Petfinder已帮助数百万宠物找到了它们永远的家宠爱纽仕兰一直以来都坚持……

Leave a Comment

如何为美国在人工智能领域建立稳固基础

Published October 18, 2023 by 四海吧

谷歌分享了一份报告：为美国在人工智能领域搭建一个安全的基础

Leave a Comment

英伟达扩展机器人平台以满足生成式人工智能的崛起

Published October 18, 2023 by 四海吧

强大的生成式AI模型、云原生API和微服务正在逐渐走向边缘。生成式AI将转换模型和大型语言模型的优势带到了几乎所有行业。现在，这种影响力已经扩展到了涉及边缘、机器人和物流系统的领域：缺陷检测、实时资产跟踪、自主计划和导航、人机交互等。 NVIDIA今天宣布了两个在边缘AI和机器人技术领域的框架的重大扩展：NVIDIA的Isaac ROS机器人技术框架正式面向市场，NVIDIA Metropolis在Jetson平台上的扩展即将推出。为了加快边缘AI应用的开发和部署，NVIDIA还建立了一个用于开发者使用的Jetson生成式AI实验室，供他们使用最新的开源生成式AI模型。超过120万开发者和1万多个客户选择了NVIDIA AI和Jetson平台，其中包括亚马逊网络服务、思科、约翰迪尔、美敦力、百事可乐和西门子。随着人工智能领域的快速发展，应对越来越复杂的场景，开发者面临着日益延长的开发周期来构建边缘AI应用的挑战。实时重新编程机器人和AI系统以满足不断变化的环境、制造流水线和客户的自动化需求是耗时且需要专业技能的。生成式AI提供了零样本学习的能力，即模型能够识别训练过程中从未见过的特定东西，并结合自然语言界面，简化了边缘AI的开发、部署和管理。改变人工智能领域生成式AI通过理解人类语言提示来改变模型，极大地提高了易用性。这些AI模型在检测、分段、跟踪、搜索甚至重新编程方面更加灵活，并且能够优于传统的基于卷积神经网络的模型。根据ABI Research的数据，生成式AI预计将在2033年为全球制造业增加105亿美元的收入。 NVIDIA的嵌入式和边缘计算副总裁Deepu Talla表示：“生成式AI将以比以往更好的泛化能力、易用性和更高的准确性显著加速边缘AI的部署。Metropolis和Isaac在Jetson上的这次最大规模的软件扩展，结合了转换模型和生成式AI的能力，满足了这一需求。” 在边缘开发生成式AI Jetson生成式AI实验室为开发者提供了优化工具和教程，用于部署开源LLMs、扩散模型以生成令人惊叹的交互式图像、视觉语言模型（VLMs）和视觉Transformer（ViTs）结合视觉AI和自然语言处理，实现对场景的全面理解。开发者还可以使用NVIDIA TAO Toolkit为边缘应用程序创建高效准确的AI模型。TAO提供了一个低代码界面，用于微调和优化视觉AI模型，包括ViT和视觉基础模型。他们还可以自定义和微调诸如NVIDIA NV-DINOv2或公共模型如OpenCLIP之类的基础模型，以用极少的数据创建高精度的视觉AI模型。TAO还引入了VisualChangeNet，这是一个用于缺陷检测的基于Transformer的新模型。利用新的Metropolis和Isaac框架 NVIDIA Metropolis使企业更加轻松、更具成本效益地采用世界级的视觉AI解决方案，以提高关键的运营效率和安全性。该平台提供了一系列强大的应用程序编程接口和微服务，供开发者快速开发复杂的基于视觉的应用程序。…

Leave a Comment

仿生手与女性的神经、骨骼和肌肉融合在一起

Published October 18, 2023 by 四海吧

一个国际研究小组报告称，自2017年起，与一名瑞典女士连接的机器手已经完全与她的神经、骨骼和肌肉融为一体

Leave a Comment

AI与能源效率：我们如何提高当今的电工技能水平？

Published October 18, 2023 by 四海吧

图片来源：Unsplash 在一个AI驱动的世界中，技术的变化是唯一的常数对于电工来说，这些变化可能会让人感到不知所措或难以跟随然而，正是这种数字化转型也为增长和探索提供了丰富的机会本指南将为您提供关键策略，使电工能够提升技能…… 使用人工智能提高能源效率：我们如何培养今天的电工技能？阅读更多>>

Leave a Comment

《AI报告2023的细致分析》

Published October 18, 2023 by 四海吧

《全球人工智能现状报告》是一项关键性的基准，为迅速发展的人工智能领域提供了清晰的指引和方向其全面的分析一直为研究人员、行业专业人士和决策者提供有价值的见解今年，报告强调了大型语言模型（LLMs）领域的一些特别重要的进展，强调[…]

Leave a Comment

数据科学方法推动业务成功

Published October 18, 2023 by 四海吧

西北大学的MSDS学生寻求技术领导和管理的职位时，不仅可以建立高水平的统计和分析专业知识，还可以获得实施可靠的、基于数据的决策所需的广泛组织技能

Leave a Comment

我对ChatGPT ADA进行了数据清理任务的测试它非常有帮助，但在逻辑推理中失败了

Published October 18, 2023 by 四海吧

大多数与数据相关的工作的重要组成部分是数据清理通常没有标准的数据清理方式，因为数据可能以多种不同的方式呈现我们常常遇到不一致性，数据输入…

Leave a Comment

暗中操作的科学：揭示数据挖掘

Published October 18, 2023 by 四海吧

最近《纽约客》的一个标题是他们研究了不诚实他们的工作是骗局吗？这背后的故事是什么呢？行为经济学家丹·阿里尔和行为科学家弗朗西斯卡·吉诺，两人……

Leave a Comment

AutoGen：为下一代大型语言模型应用赋能

Published October 18, 2023 by 四海吧

“大型语言模型（LLMs）是当前主流人工智能中最热门的话题之一全球开发人员正在探索LLMs的潜在应用这些模型是利用深度学习技术和大量的训练数据来理解、概括、预测和生成各种内容的人工智能算法，包括文本、音频、图像等”

Leave a Comment

本周重要的LLM论文（9/10至15/10）

Published October 18, 2023 by 四海吧

大型语言模型（LLMs）近年来取得了快速进展随着新一代模型的开发，研究人员和工程师保持对最新进展的了解变得至关重要…

Leave a Comment

这项AI研究介绍了闪存解码：一种基于FlashAttention的新型人工智能方法，可使长内容LLM推理速度提高8倍

Published October 18, 2023 by 四海吧

大型语言模型（LLMs）如ChatGPT和Llama因其出色的自然语言处理能力而受到广泛关注，能够实现从文本生成到代码完成等各种应用。尽管它们的效用巨大，但这些模型的高运营成本也带来了重大挑战，促使研究人员寻求创新解决方案以增强其效率和可扩展性。由于生成单个响应的平均成本为0.01美元，将这些模型扩展以为数十亿用户提供服务，每个用户每天进行多次互动，相关费用可能迅速变得巨大。这些成本尤其在复杂任务（如代码自动完成）中可能呈指数级增长，在编码过程中，模型一直处于运行状态。鉴于对优化解码过程的迫切需求，研究人员已探索了一些技术，以简化和加速注意力操作，这是生成连贯和上下文相关文本的重要组成部分。 LLM的推理，通常称为解码，涉及一次一步生成令牌，其中注意力操作是决定整体生成时间的重要因素。尽管像FlashAttention v2和FasterTransformer这样的进展优化了训练过程，通过优化内存带宽和计算资源，但在推理阶段仍存在挑战。在解码过程中遇到的主要限制之一与较长的上下文相关联的注意力操作的可扩展性有关。随着越来越多的LLM任务处理更广泛的文档、对话和代码库，注意力操作可能消耗大量的推理时间，从而影响模型的整体效率。研究人员提出了一种突破性技术，称为Flash-Decoding，以解决这些挑战，借鉴以前的方法的基础。Flash-Decoding的关键创新在于其并行化方法，它以关键字和值的序列长度为中心。通过将关键字和值分割为较小的片段，该方法即使在较小批量大小和较长上下文的情况下，也能高效利用GPU。Flash-Decoding通过利用并行化的注意力计算和对数求和指数函数，大大减少了GPU内存需求，促进了整个模型架构的流畅和高效计算。为了评估Flash-Decoding的有效性，对最先进的CodeLLaMa-34b模型进行了全面的基准测试，该模型以其强大的架构和先进的功能而闻名。结果显示，与现有方法相比，对于较长序列，解码速度提高了8倍。此外，对不同序列长度和批量大小的缩放多头注意力进行的微基准测试进一步验证了Flash-Decoding的有效性，即使将序列长度扩展到64k，也展示了其稳定的性能。这种出色的性能在显著提高LLM的效率和可扩展性方面起到了重要作用，标志着大型语言模型推理技术的重大进展。总之，Flash-Decoding已成为解决大型语言模型解码过程中注意力操作相关挑战的变革性解决方案。通过优化GPU利用率和提高整体模型性能，Flash-Decoding有潜力大幅降低运营成本，并促进这些模型在各种应用中的更广泛使用。这种开创性技术代表了大型语言模型推理领域的重要里程碑，为提高自然语言处理技术的效率和加速进步铺平了道路。

Leave a Comment

生成式人工智能如何改变商业、医疗和艺术领域？

Published October 18, 2023 by 四海吧

介绍生成式人工智能，常被称为GenAI，处于人工智能革命的前沿，使机器人拥有无限的创造力和问题解决潜力。在人工智能不断推动可能性极限的世界中，GenAI代表了尖端技术和人类创造力的重要融合。这个新的人工智能领域超越了简单的预测，通过使用机器来产生与人类信息密切相似的内容、数据和解决方案来进行分类。在本文中，我们将探讨GenAI的重要影响，从其基本理念到其实际应用和复杂实施，同时探索艺术、医学、商业、交通、游戏等领域。这场深入研究将探讨生成式人工智能如何重塑我们周围的一切。我们将带给您对GenAI能力的深入了解，并用实际应用的例子激发您的灵感。学习目标阅读本文后，您将对生成式人工智能的基础有所了解。了解如何实际运用生成式人工智能产生重大效果。了解这些用例如何运用生成式人工智能。了解未来生成式人工智能技术的可能性。本文是作为数据科学博文马拉松的一部分发表的。理解生成式人工智能生成式人工智能是一类人工智能模型和算法，可以产生与人类创造的数据、材料或其他输出非常相似的结果。这包括生成文本、音乐、图形，甚至更复杂的输出，如软件代码或学术研究文章。什么是生成式人工智能？生成式人工智能，有时被称为“创建新内容、数据或解决方案的人工智能”，是人工智能的前沿子领域。与通常主要关注分析和预测的典型人工智能模型不同，生成式人工智能利用深度学习算法的能力产生与人类数据非常相似的结果。这些尖端模型，例如Variational Autoencoders (VAEs)和Generative Adversarial Networks (GANs)，能够理解复杂的数据分布并提供独特、与上下文相关的信息，使它们在广泛的应用中非常有价值。生成式人工智能的应用案例现在，让我们更深入地了解生成式人工智能的几个应用案例，以及它如何重塑我们周围的一切。艺术和创造力随着机器创作音乐和艺术的能力，生成式人工智能引发了一场创造力的革命。音乐家和艺术家正在使用这些模型来尝试新的表达方式。例如，AIVA（Artificial Intelligence Virtual Artist）音乐创作系统使用深度学习来创作与人类音乐家创作的作品相媲美的独特古典音乐。…

Leave a Comment

这个 AI 研究展示了 RoboHive 一个用于机器人学习和具身人工智能研究的全面软件平台和生态系统

Published October 18, 2023 by 四海吧

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-5-1256e08830.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-5-1256e08830-150×150.gif”/>近年来，人工智能（AI）在语言建模、蛋白质折叠和游戏方面取得了显著进展。但是，机器人学习的发展进展较为缓慢。莫拉维克悖论认为，与高级认知活动相比，感知运动行为对于AI代理来说更难，这可能部分解释了这种进展缓慢。此外，他们还必须关注一个同样重要的关键问题：机器人学习的软件框架的复杂性以及缺乏共同基准。结果，进入门槛增高，快速原型开发受限，创意流动受到限制。与计算机视觉或自然语言处理等更加标准化的领域相比，机器人学科仍然更加碎片化。华盛顿大学的研究人员与加州大学伯克利分校、卡内基梅隆大学、德克萨斯大学奥斯汀分校、Open AI、Google AI和Meta-AI的研究人员共同推出了RoboHive，这是一个专为机器人学习设计的集成环境，旨在弥合这一差距。RoboHive是一种既可用作基准测试又可用作研究工具的平台。它提供了各种上下文、具体任务描述和严格的评估标准，以实现多种学习范式，包括强化、模仿和迁移学习。这使得研究人员可以进行高效的调查和原型开发。此外，RoboHive还提供硬件集成和远程操作功能，实现了从现实世界到虚拟机器人之间的平稳过渡。他们希望通过RoboHive来缩小机器人学习当前状态与其发展潜力之间的差距。创建和开源RoboHive作为机器人学习的统一框架是他们的主要贡献。RoboHive的显著特点包括：1. 环境动物园：RoboHive提供各种跨学科的设置。这些设置可用于操作任务，包括手持灵巧操作、两足和四足机器人的移动，甚至使用肌肉骨骼手臂模型的操作。他们使用MuJoCo来构建虚拟世界，该世界提供快速的物理模拟，并且专注于物理真实性。2. RoboHive提供了一个统一的RobotClass抽象，通过simhooks和硬件hooks与虚拟和实际机器人平稳交互。通过改变一个标志，这种特殊能力使研究人员可以轻松地与机器人硬件进行交互，并将他们的发现从仿真转化为现实。3. 远程操作支持和专家数据集：RoboHive具有各种模态的即插即用远程操作能力，包括键盘、3D空间鼠标和虚拟现实控制器。他们共享了一个由人类远程操作积累的最大的真实世界操作数据集之一 – RoboSet，该数据集涵盖了十二种烹饪任务。在模仿学习、离线学习和相关学科领域工作的研究人员将会发现这些远程操作能力和数据集特别有用。4. 视觉多样性和物理保真度：RoboHive强调具有很高物理真实性和广泛视觉多样性的项目，超越以往的基准，揭示现实世界机器人领域的下一个研究前沿。他们通过包含复杂的物体、丰富的纹理和增强的场景布置，将视觉控制研究与日常生活的视觉困难相结合。此外，RoboHive原生支持各种情景中的场景布局和视觉域随机化，提高了视觉感知的适应性，并提供了逼真而丰富的物理材料。5. 指标和基准：RoboHive使用简短明了的指标来评估不同情况下的算法性能。该框架提供了一个用户友好的类似gym的API，可以与学习算法无缝集成，方便多位学者和实践者的使用。此外，RoboHive与TorchRL和mjRL合作，提供了广泛研究的基准结果，为性能比较和研究提供了一个基准。

Leave a Comment

美国前十个在线数据科学课程

Published October 18, 2023 by 四海吧

介绍数据科学是技术世界中的未来趋势。作为一个充满活力的领域，数据科学将信息转化为可操作的数据，并在算法帮助推动成功的领域中越来越受欢迎。最重要的是学习技能和知识，使个人能够获得未来的职业。动手实践和面对现实问题有助于学习者发展职业技能，提升自己的职业生涯，并提升自己的技术知识基础。在美国在线数据科学课程是在舒适的家里学习数据科学技能的最佳选择。美国的数据科学职业发展美国的数据科学职业经历了一次成功的突破。每家组织都必须处理各种类型的数据，这就需要各个领域的数据科学专家。专业的数据科学家的需求在增加，公司愿意提供高薪酬，正如以下图像所示。随着组织从数据中提取有价值的信息，这些信息用于根据派生的结果做出明智的决策。整个过程需要一个专业的专家来处理现场。在美国的在线数据科学课程是一种重要的工具，可以帮助个人有效地学习数据科学，以满足对在美国的数据科学家的不断增长的需求。为什么要在线学习数据科学？学习在线数据科学课程的好处多多，使得这门课程成为期待在其中投资时间的人们的热门选择。一些关键的好处包括：获取权限：在线课程提供了大量的知识和有价值的信息，学习者只需在互联网上点击即可提升自己的技能。这为时间紧迫的人们提供了灵活性，他们想在这一领域提高效率。自学：自学课程不会限制一个人的学习速度。这种灵活性允许学习者个性化他们的学习体验。价钱合理：在线学习课程比课堂学习费用更低，并且还有许多其他费用要添加到费用中。行业相关内容：在线数据科学课程提供行业相关的见解和内容，展示最新的趋势和技术。学习风格：在线课程可以基于测验、论坛和多媒体内容提供多样化的学习风格。这使得学习者能够有效地参与其中。在一门好的数据科学课程中，你应该期望学到哪些概念？在线数据科学课程的课程设置因平台和课程提供商而异。然而，在美国最好的在线数据科学课程中提供的主要课程包括：数据科学简介数学和统计技巧机器学习编码机器学习中使用的算法数据科学的统计基础数据结构与算法科学计算优化技术…

Leave a Comment

微软Azure人工智能推出Idea2Img：自筹资金的多模态人工智能框架，用于自动开发和设计图像

Published October 18, 2023 by 四海吧

“图像设计与生成”的目标是根据用户提供的广泛概念生成一幅图像。这个输入的概念可能包括参考图像，例如“狗看起来像图中的那只”，或者进一步定义设计意图应用的指示说明，例如“用于Idea2Img系统的标志”。人们可以利用文本到图像（T2I）模型根据对想象图像（IDEA）的详细描述创建图片，用户必须手动探索多个选项，直到找到最能描述问题（T2I提示）的一个。鉴于大型多模态模型（LMM）的令人印象深刻的能力，研究人员调查了我们是否可以基于LMM进行训练，使系统具备相同的迭代自我完善能力，从而使人们摆脱将概念转化为视觉图像的繁重任务。在涉足未知领域或处理困难任务时，人类有自然的倾向不断提升他们的方法。大型语言模型（LLM）代理系统表明了利用自我完善可以更好地解决缩写生成、情感检索、基于文本的环境探索等自然语言处理任务。当我们从纯文本活动转向多模态设置时，会出现增强、评估和验证多模态内容（如多个交错的图像-文本序列）的挑战。自我探索使LMM框架能够自动学习解决各种现实挑战，例如使用图形用户界面（GUI）与数字设备进行交互，带领体验代理穿越未知领域，玩数字游戏等。微软Azure的研究人员通过将“图像设计与生成”作为任务来研究迭代自我完善的多模态能力。为此，他们提出了Idea2Img，一种自我完善的多模态框架，用于自动开发和设计图像。LMM GPT-4V（vision）与Idea2Img中的T2I模型进行交互，以对模型的应用进行调查，并确定一个有用的T2I线索。LMM将处理T2I模型的返回信号（草案图像）的分析以及创建后续回合的查询（文本T2I提示）。 T2I提示生成、草案图像选择和反馈反思都有助于多模态的迭代自我完善能力。具体而言，GPT-4V执行以下步骤：提示生成：GPT-4V生成N个文本提示，这些提示与输入的多模态用户IDEA相对应，条件是先前的文本反馈和完善历史草案图像选择：GPT-4V仔细比较相同IDEA的N个草案图像，并选择最有前途的一个反馈反思：GPT-4V分析草案图像与IDEA之间的差异。然后，GPT-4V就出了什么问题，为什么出了问题以及T2I提示如何改进给出反馈。此外，Idea2Img还具有内置的记忆模块，可跟踪每种提示类型（图片、文本和反馈）的探索历史。对于自动图像创建和生成，Idea2Img框架在这三个基于GPT-4V的过程之间反复循环。作为改进的图片设计和创作助手，Idea2Img是用户的有用工具。通过接受设计方向而不是详细的图片描述，适用于多模态的IDEA输入，并生成具有更高语义和视觉质量的图像，Idea2Img在T2I模型中脱颖而出。团队回顾了一些图片创建和设计的示例案例。例如，Idea2Img可以处理任意交错的图片-文本序列的IDEA，将视觉设计和预期用途描述整合到IDEA中，并从输入的图像中提取任意的视觉信息。基于这些更新的特性和用例，他们创建了一个包含复杂问题的104个样本评估IDEA集，这些问题人们在第一次可能会回答错误。团队使用Idea2Img和各种T2I模型进行用户偏好研究。用户偏好分数在许多图像生成模型中的提高，例如与SDXL相比增加了26.9%，显示了Idea2Img在这一领域的功效。

Leave a Comment

NVIDIA的研究人员介绍了Retro 48B：在指导调整之前进行的最大LLM预训练

Published October 18, 2023 by 四海吧

“` 来自Nvidia和伊利诺伊大学香槟市的研究人员介绍了Retro 48B，这是一个比之前的检索增强模型Retro（7.5B参数）更大的语言模型。 Retro 48B使用广泛的语料库进行了预训练，并提高了困惑度。 InstructRetro中的编码器可以被消除，表明持续的检索增强预训练可以提高解码器在问题回答方面的性能。检索增强语言模型已经在开放域问题回答中得到验证，无论是在预训练还是推理过程中都受益。他们的方法降低了模型的困惑度，提高了事实准确性，并在精调后的任务性能上进行了增强。与仅有解码器的模型相比，现有的检索增强模型在大小上受到限制，限制了其在指令调整后的零-shot泛化潜力。指令调整对于自然语言理解至关重要，得益于高质量的数据集，如FLAN，OpenAssistant和Dolly，可以在聊天和问答任务中实现更高的性能。使用检索进行语言模型的预训练，例如Retro，已经显示出降低困惑度和提高事实准确性的潜力。然而，现有的检索增强模型需要更多的参数和训练数据，影响了它们在指令调整和其他大型语言模型典型任务中的性能。他们的研究引入了Retro 48B，这是最大的检索增强模型，继续用额外的令牌进行43B GPT模型的预训练。通过这个过程获得的InstructRetro，在零-shot问题回答方面显著改善，与传统GPT模型相比。当编码器取消时，InstructRetro的解码器实现了类似的结果，证明了检索增强预训练在上下文整合问题回答方面的有效性。他们的研究探索了一个包括预训练GPT模型来创建Retro 48B、指导其增强零-shot问题回答能力，并在各种任务中评估其性能的广泛过程。研究介绍了一个新颖的48B大小的检索增强语言模型InstructRetro，经过指令调整后，在零-shot问题回答任务中显著优于标准GPT模型。这种扩大规模的方法展示了更大的检索增强模型在自然语言理解方面的潜力。使用检索进行预训练的Retro 48B语言模型在困惑度上超过了原始GPT模型。经过指令调整后，即InstructRetro，它显著提高了零-shot问题回答的准确性，与GPT对应模型相比，短格式任务上平均提升7%，长格式提升10%。令人惊讶的是，仅仅使用InstructRetro的解码器骨干部分就能够达到类似的结果，表明检索增强的预训练在上下文整合问题回答方面的有效性。引入InstructRetro 48B，最大的检索增强语言模型，相对于GPT对应模型显著提高了在广泛的开放式QA任务中的零-shot准确性。使用Retro增强方法进行检索预训练提高了困惑度。研究结果表明，在指令调整之前持续进行恢复的预训练为增强GPT解码器在QA中的性能提供了一个有前景的方向。令人惊讶的是，解码器实现了可比较的准确性，展示了与上下文整合相关的预训练的有效性。InstructRetro在长格式QA任务中表现出色，突显了检索增强预训练在挑战性任务中的潜力。 “`

Leave a Comment

这个AI研究介绍了神经A*：一种新型的数据驱动搜索方法，用于路径规划问题

Published October 18, 2023 by 四海吧

路径规划是在环境地图中从初始点到目标点找到一条经济有效且有效的路径的过程。搜索型规划方法，包括著名的A*搜索，被广泛应用于解决路径规划挑战。这些技术已在包括自动驾驶和机器人臂操作在内的各个领域找到了应用。最近的研究突出了数据驱动路径规划在两个特定场景中的重要优势。第一个场景涉及在点对点最短路径搜索问题中相对于传统启发式规划器更高效地发现近似最优路径。第二个场景是对原始图像输入进行路径规划。在没有对环境进行语义像素级标注的情况下，传统规划器很难完成这一任务。在这项研究中，作者将传统的A*搜索算法进行了重新定义，并将其与卷积编码器结合，创建了一个完全可训练的端到端神经网络规划器。这种方法被称为神经A*，通过将给定的问题实例转化为一个引导地图，然后基于该地图进行可微分的A*搜索，解决路径规划问题。上面的图像展示了神经A*的两种路径规划场景。点对点最短路径搜索：在输入地图中找到一个近似最优路径（红色），并进行较少的节点探索（绿色）。基于原始图像输入的路径规划：在自然图像上准确预测人类轨迹（红色）。通过学习使搜索结果与专家提供的地面真实路径相对齐的过程，神经A*可以生成准确且高效地遵循地面真实路径的路径。该图示了神经A*的框图： (1) 一个路径规划问题实例被输入编码器来产生一个引导地图。 (2) 可微分的A*模块使用引导地图进行点对点最短路径搜索，并输出搜索历史和结果路径。 (3) 搜索历史和地面真实路径之间的损失被反向传播以训练编码器。全面的实验结果表明，神经A*超越了最先进的数据驱动规划器，在搜索最优性和效率之间取得了有利的平衡。此外，神经A*已经展示了将基于搜索的规划直接应用于自然图像上预测真实人类轨迹的能力。

Leave a Comment

个性化您的搜索结果与亚马逊个性化和亚马逊开放搜索服务集成

Published October 17, 2023 by 四海吧

亚马逊 Personalize 推出了与亚马逊 OpenSearch Service 的新集成，使您能够为每个用户个性化搜索结果，并帮助预测他们的搜索需求在 OpenSearch Service 中的亚马逊 Personalize 搜索排名插件可帮助您利用该功能从您的网站和应用搜索中提高最终用户的参与度和转化率

Leave a Comment

使用人工智能技术监测您的牛群

Published October 17, 2023 by 四海吧

在亚马逊网络服务（AWS）上，我们不仅热衷于为客户提供各种全面的技术解决方案，而且还非常重视深入了解客户的业务流程我们采用第三方的视角和客观的判断，帮助客户整理出他们的价值主张，收集痛点，并提出适当的解决方案，创造 […]

Leave a Comment

了解亚马逊药店如何使用亚马逊SageMaker创建了他们基于LLM的聊天机器人

Published October 17, 2023 by 四海吧

亚马逊药房是亚马逊网站上的一家全方位药房，提供透明的定价、临床和客户支持，以及免费将药品送到您的门口客户服务代理在快速准确地获取与药房信息相关的信息方面起着至关重要的作用，包括处方澄清和转移状态、订单和发药详细信息以及患者信息

Leave a Comment

出色表现：基于RTX的大型语言模型使用TensorRT-LLM在Windows上提速4倍

Published October 17, 2023 by 四海吧

生成式人工智能是个人计算历史上最重要的趋势之一，为游戏、创作、视频、生产力、开发等领域带来了进步。 GeForce RTX 和搭载了专用AI处理器Tensor Cores的NVIDIA RTX GPU，正在原生地将生成式人工智能的能力带到超过1亿台Windows PC和工作站上。如今，在Windows上通过TensorRT-LLM获得的生成式人工智能速度提高了4倍，该开源库可加速最新的AI大型语言模型（如Llama 2和Code Llama）的推理性能。上个月，TensorRT-LLM发布了适用于数据中心的版本。 NVIDIA还发布了帮助开发者加速LLMs的工具，包括使用TensorRT-LLM优化自定义模型的脚本、经过TensorRT优化的开源模型以及展示LLM响应的速度和质量的开发者参考项目。现在，通过Automatic1111发布的稳定扩散式混合生成式人工智能在流行的Web UI中提供TensorRT加速，它的速度比之前最快版本快2倍。此外，RTX Video Super Resolution (VSR) 1.5版本已经作为今天的Game Ready Driver发布的一部分，也将在下个月初发布的NVIDIA Studio Driver中提供。…

Leave a Comment