Month: November 2023

在充满活力的科技领域中，印度正在通过人工智能领域的一位有雄心的新参与者开辟自己的领域。Ola首席执行官Bhavish Aggarwal领导着这一最新创新，命名为“Krutrim”，旨在在本地和国际上引起轰动。这个本土解决方案旨在展示印度技术在全球舞台上的强大实力。 Krutrim的起源 Ola的成功背后的远见者Bhavish Aggarwal并不满足于现已颠覆了交通部门。Aggarwal现在把目光集中在AI驱动的通信领域上。Krutrim不仅仅是又一个聊天应用程序；它是一种意向的表达，是印度不断增长的技术能力的证明。带有特色的聊天应用程序 Krutrim不仅仅是一个消息传递工具。它是一个AI平台，承诺提供独特的用户体验。Krutrim致力于理解和处理自然语言，旨在直观且用户友好，满足各种用户需求。印度科技复兴印度的科技领域一直在上升轨道上发展，而Krutrim则是这一复兴的一个光辉例证。通过开发与全球巨头不相上下的AI聊天应用程序，印度传递出一个明确的信息：它准备领导，而不仅仅是跟随。Krutrim不仅仅是一个应用程序，而是印度创新和工程的展示。我们的观点 Krutrim代表了印度科技迈出的大胆一步。它是创新的标志，反映出印度企业家如Bhavish Aggarwal的雄心和技能。当全世界关注时，Krutrim很可能成为推动印度走向全球AI话题前沿的催化剂。

Leave a Comment

Google和MIT研究员推出了StableRep：通过合成图像实现AI训练的革命，以增强机器学习

Published November 28, 2023 by 四海吧

“` 研究人员探索了使用由文本到图像模型生成的合成图像来学习视觉表示并为更高效和减少偏见的机器学习铺平道路的潜力。这项来自麻省理工学院研究人员的新研究专注于稳定扩散，并表明在生成模型被适当配置的情况下，仅训练合成图像上的自监督方法可以达到或甚至超过其真实图像对应物的性能。所提出的方法名为StableRep，通过将从同一文本提示生成的多个图像视为彼此的正例，引入了一种多正对比学习方法。StableRep仅在合成图像上进行训练，在大规模数据集上的性能超越了SimCLR和CLIP等现有最先进的方法，甚至在与语言监督相结合时，其准确度也超过了通过五千万真实图像训练的CLIP模型。所提出的StableRep方法通过推进内部标题不变性引入了一种新颖的表示学习方法。通过将从同一文本提示生成的多个图像视为彼此的正例，StableRep采用了多正对比损失。结果显示，StableRep在ImageNet上取得了显着的线性准确性，超越了SimCLR和CLIP等其他自监督方法。该方法的成功归因于对合成数据取样的更大控制能力，利用了Stable扩散和文本提示等因素。此外，生成模型具有超越其训练数据进行泛化的潜力，相比仅使用真实数据，提供了更丰富的合成训练集。总之，研究证明了在稳定扩散生成的合成图像上训练自监督方法的意外有效性。StableRep方法通过其多正对比学习方法，在表示学习方面展现出卓越的性能，相比使用真实图像的现有最先进方法。该研究为通过文本到图像生成模型简化数据收集提供了可能性，为获取大规模且多样化的数据集提供了经济有效的替代方案。然而，必须解决合成数据的语义不匹配和偏见等挑战，并考虑使用非筛选网络数据进行生成模型训练的潜在影响。 “`

Leave a Comment

认识LEO：一种突破性的具有多模态特性的实体代理，用于高级3D世界互动和任务解决

Published November 28, 2023 by 四海吧

具备处理多个任务或领域而无需重编程或重新训练的AI系统被称为通用代理。这些代理旨在在各个领域泛化知识和技能，展现在解决不同问题时的灵活性和适应性。用于培训或研究目的的模拟通常涉及3D环境。这些模拟中的通用代理能够适应不同场景，并能够从经验中学习，在虚拟空间中执行任务。例如，在飞行员或外科医生的训练模拟中，这些代理可以复制各种场景并作出相应的反应。通用代理在三维世界中面临的挑战在于处理复杂的三维空间，学习能够在不同环境中泛化的健壮表示，并在考虑到环境的多维性的情况下进行决策。这些代理通常使用强化学习、计算机视觉和空间推理等技术来在这些环境中有效地导航和交互。中国北京普里什卡大学、泡菜大学和清华大学的研究人员提出了一个名为LEO的通用代理，该代理经过LLM-based架构进行训练。LEO是一个通用性的代理，具有多模态和多任务能力。LEO通过共享的模型架构和权重来感知、基于事实进行推理、规划和行动。LEO通过基于自我为中心的2D图像编码器和基于对象为中心的3D点云编码器来感知事物的体验和第三人称全局视角。 LEO还可以通过自回归训练目标利用任务无关的输入和输出进行训练。3D编码器为每个观测到的实体生成一个基于对象的令牌。这种编码器设计可以灵活地适应具有不同体现的任务。LEO基于3D视觉语言对齐和3D视觉语言行为的基本原理。为了获取训练数据，研究团队策划和生成了一个包含对象级和场景级多模态任务的大规模复杂数据集，需要对3D世界进行深入理解和交互。研究团队还提出了基于场景图的提示和细化方法，以及基于对象为中心的思维链（O-CoT），以提高生成数据的质量，大大丰富数据规模和多样性，并进一步消除LLM的幻觉。研究团队对LEO进行了广泛的评估，并展示了其在多个任务中的熟练程度，包括体验式导航和机器人操作。他们还观察到，仅仅扩大训练数据规模就能稳定提升性能。结果显示LEO的反应融合了丰富、信息量大的空间关系，并且准确地与3D场景相呼应。他们发现LEO包含的具体对象实际上出现在场景中，并对这些对象有具体的行动。LEO能够架起3D视觉语言和实体移动之间的桥梁，研究团队的结果显示了联合学习的可行性。

Leave a Comment

Python字面值的类型提示

Published November 28, 2023 by 四海吧

我要承认，我并不总是喜欢打字字面意义上来说，Literal 是一种在 Python 中创建字面类型的形式事实上，我不仅低估了字面类型，而且完全忽视了它们，拒绝使用它们…

Leave a Comment

塑造未來的工作：Meta的Arpit Agarwal的見解

Published November 28, 2023 by 四海吧

COVID-19疫情已经改变了工作场所的面貌，远程工作成为了持久的常态。在这一期的Leading with Data节目中，来自Meta的Arpit Agarwal讨论了未来工作涉及到的虚拟现实，使远程协作的经验更贴近面对面的体验。Arpit通过他的经历分享了自己的见解，强调了关键时刻和产品开发早期分析的挑战。你可以在诸如Spotify、Google Podcasts和Apple等流行平台上收听这一期的Leading with Data节目。选择你喜欢的平台，享受这些富有洞察力的内容吧！与Arpit Agarwal的对话中的关键见解未来工作依赖于虚拟现实进行远程协作。成立一个数据科学团队能促进创新和业务影响。在产品早期阶段的数据科学需要重视质量，使用内部测试和反馈。招聘数据科学人员需要技术能力、问题解决能力和坚强品格。数据科学职业发展需要广泛探索，然后才能专精于某个领域。参加我们即将举行的Leading with Data座谈会，与人工智能和数据科学领域的领导者进行深入讨论！现在，让我们来看看Arpit Agarwal关于他的职业经历和行业经验的问题回答。 COVID-19疫情如何改变我们工作的方式？这一疫情从根本上改变了我们的工作方式。我们从办公室为中心的环境转变为接受远程工作作为一种新的现实。即使在恢复到办公室政策的情况下，相当大一部分劳动力仍将继续远程运作。面临的挑战在于如何保持生产力和促进过去在办公室内建立的联系。现有的工具无法完全复制面对面的体验，这就是Meta愿景的发挥作用的地方。我们正在开发的产品可以提供并肩工作的感觉，理解彼此的肢体语言，并在虚拟空间中实现有效的协作。你可以分享一下从大学到成为数据科学领域领导者的旅程吗？我的旅程始于BITS Goa，我在那里攻读计算机科学学位。起初，我是以学术为重点，但BITS允许我探索其他兴趣，包括数据解释。我领导了一个解谜俱乐部，这激发了我对数据的兴趣。高中毕业后，我加入了Oracle，在数据仓库和商业智能方面工作，帮助客户做出数据驱动决策。这段经历巩固了我对分析和其在业务应用中的兴趣。我追求了MBA学位，加深了对商业的理解，并后来加入了Mu…

Leave a Comment

“首选云端的数据科学：一种现代化的数据分析和建模方法”

Published November 28, 2023 by 四海吧

数据科学是世界上增长最快的行业之一，利用现代先进的技术改善我们使用数据的方式但是，如果你在数据科学领域工作过，你可能…

Leave a Comment

推出三款基于NVIDIA GPU的亚马逊EC2实例

Published November 28, 2023 by 四海吧

亚马逊弹性计算云（Amazon EC2）加速计算产品系列为您的人工智能（AI）、机器学习（ML）、图形和高性能计算（HPC）工作负载提供了最广泛的加速器选择我们很高兴地宣布，该产品系列将通过三个全新的实例来扩展，这些实例采用了最新的NVIDIA GPU：亚马逊EC2 P5e实例搭载[…]

Leave a Comment

“‘前瞻解码’：一种加速LLM推理的并行解码算法”

Published November 28, 2023 by 四海吧

虽然像GPT-4和LLaMA这样的大型语言模型正在快速重新塑造现代应用，但它们的推理速度较慢且很难优化，因为它们是基于自回归解码的。LLM的请求延迟主要取决于请求的答案长度，或者等效地说，解码步骤的数量，因为每个自回归解码步骤一次只产生一个标记。不幸的是，当前的GPU并行处理能力通常没有得到充分利用，因为每个解码步骤没有利用它。这对于许多实际的LLM应用（如聊天机器人和个人助理）来说是个问题，它们依赖于即时响应，并因此经常产生具有低延迟的大序列。自回归解码可以通过使用像Medusa和OSD这样的猜测解码方法加速，这些方法使用“猜测和验证”的策略，其中初步模型对未来的几个可能标记进行预测，然后原始LLM并行地检查这些预测。这些方法可以通过利用需要更少解码步骤时的情况来减少延迟。然而，它们也有一些限制。首先，标记接受率，或者等效地说，草稿模型正确预测主模型输出的能力，是基于猜测解码方法能够实现的最大速度增加的上界。其次，开发可靠的初步模型并不容易，通常需要更多的训练和精心调整来应对随时间变化的流量变化。 LMSYS ORG的一项新研究提出了前瞻解码，这是一种新颖的精确解码技术，用于解决这些困难。虽然在单个步骤中解码许多连续标记在计算上是不可行的，但观察到LLM可以同时生成多个正交n-gram。这些n-gram有可能适应所创建序列的未来部分。传统的雅可比迭代方法被改进为并行解码，这样可以将自回归解码视为非线性方程的解。生成的n-gram被记录、检查，然后（如果合适）被并入序列。前瞻解码特别值得注意的是：它不使用初步模型，从而加速了推出速度。对于每个阶段，通过log(FLOPs)因子减少了总解码步骤的数量。研究人员证明了前瞻解码显著降低了延迟，达到了1.5倍到2.3倍的减少，而几乎没有增加计算负担。最重要的是，它允许在处理方面的权衡来减少延迟，尽管收益递减。研究人员已经创建了他们的实现，使前瞻解码与huggingface/transformers配合使用。HuggingFace提供了一个本地生成的函数，但用户可以通过几行代码显著提高其效率。雅可比迭代是一种解决非线性系统的历经验证的技术。LLM推理也可以用于并行生成标记，而无需预训练模型。由于雅可比解码的每个步骤都涉及对>1个标记的LLM前向计算，因此从所需的FLOPs角度来看，它比每个自回归解码步骤更昂贵。研究人员观察到，在尝试显着提高雅可比解码在实际应用中的墙钟性能时可能会遇到几个困难。虽然它可以在一系列步骤中解码多个标记，但它通常会错误地排列它们的顺序。即使正确地预测，标记也经常在下一个周期被替换。因此，很少有迭代成功地同时解码和正确放置多个标记。由于这一点，使用并行解码的整个目的被取消了。通常，它不会导致性能下降，因为图形处理单元具有并行处理能力。前瞻解码可以通过利用雅可比解码生成并行n-gram的能力来避免其缺点。在一个位置处，每个新标记都是使用之前迭代中该位置的值进行解码，就像雅可比解码中一样。由于这个过程，会形成许多n-gram，这在每个标记位置上建立了历史标记的时间线。为了使用这些，前瞻解码将根据它们的轨迹收集和缓存这些n-gram。前瞻解码同时从缓存中检查有希望的n-gram，并使用雅可比迭代进行未来标记的并行解码。每个前瞻解码阶段都被分为两个平行分支——前瞻分支和验证分支，以提高效率。为了从雅可比迭代轨迹中生成n-gram，前瞻分支保持一个大小恒定的二维窗口。同时，验证分支选择并检查显示潜力的n-gram候选项。由于内存带宽是LLM解码的主要瓶颈，研究人员将前瞻分支和验证分支合并为单个传递，利用GPU的并行处理能力，同时隐藏任何相关的开销。团队对LLaMA-2-Chat和CodeLLaMA在MT-bench、HumanEval和GSM8K上的不同尺寸进行了测试，以了解他们的前瞻解码技术的有效性。前瞻解码技术可以提供速度提升，无需微调或预备模型。在fp16精度下，他们在单个A100 GPU上评估了7B、13B和33B模型，以及在两个A100 GPU上使用流水线并行性评估了70B模型。 MT-Bench LLaMA讨论：在许多模型配置中，前瞻解码所实现的加速比约为1.5倍。 HumanEval的CodeLLaMA：在HumanEval上使用前瞻解码时，CodeLLaMA的延迟时间缩短了两倍以上。这是因为代码中包含了许多容易猜测的N-gram。 GSM8K的教学CodeLLaMA：通过前瞻解码，CodeLLama-Instructor在GSM8K的数学挑战中将延迟时间缩短了1.8倍。本文《‘前瞻解码’：一种并行解码算法加速LLM推断》首发于MarkTechPost。

Leave a Comment

麦克马斯特大学和FAIR Meta研究人员提出了一种新颖的机器学习方法，通过使用归一化流动的方法来参数化电子密度

Published November 28, 2023 by 四海吧

麦克马斯特大学和FAIR Meta的研究人员开发了一种新的机器学习（ML）技术，用于无轨道密度泛函理论（OF-DFT）。这种ML方法优化了总能量函数，并成功地复制了各种化学系统中的电子密度。该方法已被应用于模拟锂氢化物、氢气和水分子，并通过优化拉普拉斯算符和解决哈特里和外势泛函函数来提高准确性的内存有效的梯度优化方法。目前存在计算分子电子能量的方法，比如传统的Kohn-Sham密度泛函理论（KS-DFT），它依赖于分子轨道。然而，一个被开发出来的未经探索的方法叫做OF-DFT，它利用电子密度来最小化一个点，更适用于复杂的系统。 OF-DFT是一种以电子密度为中心的量子化学和凝聚态物理的计算方法，相对于KS-DFT在大系统中具有优势。它通过电子密度最小化来确定基态性质，符合Hohenberg-Kohn定理。它采用了一种独特的方法，使用归一化流载体来参数化和优化电子密度，成功地复制了多样的化学系统。 OF-DFT中优化总能量函数的提议方法涉及使用归一化流载体来参数化各种化学系统中的电子密度。这是通过使用神经网络解决普通微分方程来连续归一化流变换电子密度实现的。基于梯度的算法用于总能量优化，而蒙特卡罗采样用于相关量。此外，在OF-DFT中还采用了一种内存高效梯度优化方法，用于解决拉普拉斯算符以及与哈特里和外势泛函相关的问题。该方法成功地模拟了二原子分子，尤其是LiH，并对氢气和水分子进行了广泛的模拟。该模型准确地复制了各种化学系统中的电子密度，在H2和H2O分子的优化过程中展示了密度和势能面的变化。与使用STO-3G基组的Hartree-Fock模型进行比较分析表明，在连续归一化流模型中核周围的密度更高。密度泛函值在整个优化过程中使用指数移动平均值进行计算。总之，利用连续归一化流进行密度变换的OF-DFT方法是一种有前景的无限制解决方案，用于准确描述不同化学系统中的电子密度和势能面。它能够复制核周围的高密度，如通过LiH、氢气和水分子的研究所示，突显了进一步改进和应用的潜力。 OF-DFT电子结构计算的未来工作可能涉及：改进电子密度的归一化流载体。将连续归一化流方法扩展到更复杂的化学系统中。进行比较分析以评估CNF模型的准确性。将CNF模型与其他机器学习技术整合，以提高效率和精度。

Leave a Comment

20/11至26/11本周重要的计算机视觉论文

Published November 28, 2023 by 四海吧

每周都有几个顶级学术会议和期刊展示了计算机视觉领域中的创新研究，展示了在图像等各个子领域中的令人兴奋的突破

Leave a Comment

搭载FM技术能力的AWS AI服务增强版 (Dāzài FM jìshùnénglì de AWS AI fúwù zēngqiáng bǎn)

Published November 28, 2023 by 四海吧

人工智能（AI）继续改变我们的业务方式并为客户提供服务AWS提供一系列预训练的AI服务，为您的应用程序提供即用智能在这篇文章中，我们将探讨新的AI服务能力以及如何使用基础模型（FMs）进行增强我们将重点关注以下重大更新[…]

Leave a Comment

用无代码Amazon SageMaker Canvas在Salesforce Data Cloud上民主化机器学习

Published November 27, 2023 by 四海吧

本文由Salesforce Einstein AI产品总监Daryl Martis共同撰写这是一系列讨论Salesforce Data Cloud与Amazon SageMaker集成的第三篇文章在第一部分和第二部分中，我们展示了Salesforce Data Cloud和Einstein Studio与SageMaker的集成如何使企业能够访问他们的数据

Leave a Comment

使用新的Amazon SageMaker容器提升LLMs的推理性能

Published November 27, 2023 by 四海吧

今天，Amazon SageMaker推出了Large Model Inference (LMI) Deep Learning Containers (DLCs)的新版本（0.25.0），并新增了对NVIDIA的TensorRT-LLM Library的支持借助这些升级，您可以轻松访问最先进的工具，优化SageMaker上的大型语言模型（LLMs），并获得价格性能优势——Amazon SageMaker LMI TensorRT-LLM DLC将延迟降低了33% […]

Leave a Comment

Amir Haramaty, aiOla的CEO兼联合创始人-访谈系列

Published November 27, 2023 by 四海吧

Amir Haramaty 是 aiOla 的首席执行官兼联合创始人，aiOla 是一个旨在使语音可行，并以完全准确的方式优化特定行业流程的平台我们拥有的专利技术是多语言的，可以识别行话、缩写和首字母缩略词，并且即使在嘈杂的环境中也是无误的你的第一家初创公司是一家建造遥控器的公司[…]

Leave a Comment

用GPT-4揭示科学发现的前沿：大型语言模型在多个学科中的全面评估

Published November 27, 2023 by 四海吧

大型语言模型（LLMs）最近受到人工智能（AI）界的广泛赞赏。这些模型具有卓越的能力，在编码、数学、法律乃至理解人类意图和情感等领域都表现出色。基于自然语言处理、理解和生成的基本原理，这些模型在几乎每个行业中都具有巨大的潜力。 LLMs不仅能生成文本，还能进行图像处理、音频识别和强化学习，证明了它们的适应性和广泛的应用领域。由OpenAI最近推出的GPT-4因其多模态特性而变得非常受欢迎。与GPT 3.5不同，GPT-4既可以接受文本形式的输入，也可以接受图像形式的输入。一些研究甚至显示，GPT-4展示了人工通用智能（AGI）的初步证据。GPT-4在通用AI任务中的有效性已经引起科学家和研究人员对LLMs在不同科学领域的关注。在最新的研究中，一支研究团队研究了LLMs在自然科学研究背景下的能力，特别关注于GPT-4。该研究主要关注生物学、材料设计、药物开发、计算化学和偏微分方程等自然科学领域，以涵盖广泛的自然科学。利用GPT-4作为深入研究的LLM，该研究提供了关于LLMs的性能和其在特定科学领域中可能应用的全面概述。该研究涵盖了多个科学学科领域，如生物学、材料设计、偏微分方程、密度泛函理论和分子动力学在计算化学中的应用。团队分享称，已经对该模型在科学任务上进行了评估，以充分实现GPT-4在研究领域中的潜力，并验证其领域专业知识。LLM应加速科学进展，优化资源分配，并促进跨学科研究。研究团队分享称，根据初步结果，GPT-4已经显示出在一系列科学应用中有潜力，并展示了其处理复杂问题解决和知识整合任务的能力。该研究论文对GPT-4在多个领域的表现进行了全面考察，既强调了其优势，也指出了其劣势。评估包括GPT-4的知识库、科学理解能力、数值计算技能和多样化预测能力。研究表明，GPT-4在生物学和材料设计领域显示出广泛的领域专长，有助于满足某些需求。该模型展现了在药物研发领域预测属性的潜力。GPT-4在计算化学和偏微分方程研究领域中也有助于计算和预测，但对于定量计算任务，需要稍稍提高准确性。总之，这项研究非常具有启发性，因为它突显了大规模机器学习和LLMs的快速发展。它还关注了这一充满活力的课题未来研究的重点，即基本科学模型的构建以及LLMs与专业科学工具和模型的集成。

Leave a Comment