Press "Enter" to skip to content

这个AI时事通讯，正是您所需要的一切 #70

Published October 24, 2023 by 四海吧

本周AI动态

在AI领域，我们特别关注了两个新的代理模型的发布。Nvidia推出了Eureka，这是一个设计用于引导机器人自主执行复杂任务的AI代理。这个代理由GPT-4提供支持，能够独立生成超过83%任务中人类专家性能的奖励函数，平均提升了52%。该公司分享的令人着迷的演示展示了该代理训练机械手执行快速旋转笔技巧与人类的能力。正如其中一位作者在博客文章中提到的那样，这个库利用生成性AI和增强学习来解决复杂任务。

在代理领域的其他消息中，Adept研究人员推出了一个名为Fuyu的多模态架构的AI代理，拥有80亿个参数。该模型采用了仅解码器的架构，能够处理图像和文本，简化了网络设计、可伸缩性和部署。此外，与大多数现有模型不同的是，它接受不同尺寸的图像，成为用于代理的有价值的补充。该模型能够在仅100毫秒内为大尺寸图像生成响应。我们对物理和在线应用的AI代理的最新进展感到兴奋。虽然商业化还处于早期阶段，但能够独立与环境互动并执行复杂任务的代理为新的AI产品和应用创造了许多机会。

– Louie Peters – Towards AI联合创始人兼首席执行官

热门新闻

OpenAI暂停开发Arrakis模型

OpenAI计划开发的降低AI应用如ChatGPT的计算开销的AI模型Arrakis开发计划已经暂停。尽管遇到了这一挫折，OpenAI的增长势头仍在继续，预计年收入将达到13亿美元。然而，他们可能面临来自Google即将发布的AI模型Gemini以及在AI安全峰会上的审查的挑战。

2. 令人惊叹的IBM芯片加速AI速度

IBM开发了一款名为NorthPole的受大脑启发的计算机芯片，通过减少对外部内存的访问需求，大幅提高了AI的速度和效率。NorthPole由256个计算单元或核心组成，每个核心都有自己的内存。

3. NVIDIA的突破使机器人能够自学

NVIDIA研究人员创建了一个名为Eureka的AI代理，可以自动生成训练机器人的算法，使其能够更快地学习复杂技能。Eureka生成的奖励程序在80%以上的任务中优于人类专家编写的程序。

4. Fuyu-8B: 用于AI代理的多模态架构

Adept推出了Fuyu-8B，一个功能强大的开源视觉语言模型，设计用于理解和回答与图像、图表、图示和文档相关的问题。尽管参数少了20亿和40亿，Fuyu-8B在3个指标中有2个超过了QWEN-VL和PALM-e-12B的表现。

5. ChatGPT造成混乱后，Stack Overflow裁员28%

由于像ChatGPT这样的AI技术的进步，Stack Overflow将裁掉28%的员工。像ChatGPT这样的聊天机器人提供高效的编码辅助，并且严重依赖于Stack Overflow等网站上的内容。然而，一个重要问题涉及到没有为其数据来源带来利益的聊天机器人的可持续性。

学习保持的五个五分钟读物/视频

变压器数学101

本文提供了与大型语言模型（LLM）相关的重要数字和方程。文章涵盖了计算需求、计算优化、最小数据集大小、最小硬件性能以及推理内存需求等主题。

2.为什么LLaVa-1.5是开源人工智能的伟大胜利

LLaVa-1.5是OpenAI GPT-4 Vision的一个更小但功能强大的替代品，证明了开源模型在大型多模态模型（LMMs）中的潜力。它强调了在人工智能中理解多模态的重要性，驳斥了对开源方法可行性的怀疑。

3.GPT-4视觉提示注入

视觉提示注入是一种漏洞，允许攻击者通过OpenAI的GPT-4将有害数据注入提示中的图像。这会威胁系统安全，因为攻击者可以执行未经授权的操作或提取数据。对抗这种漏洞是复杂的，可能会影响模型的可用性。

4.GPT-4正在变得更快

GPT-4在响应速度方面正在迅速提高，特别是在第99百分位数，延迟时间减少。GPT-4和GPT-3.5保持低延迟与令牌比率，表明性能高效。

5.引入基金会模型透明度指数

斯坦福大学、麻省理工学院和普林斯顿大学的研究人员开发了一个透明度指数，以评估商业基金会模型的透明度水平。该指数被称为基金会模型透明度指数（FMTI），评估了透明度的100个不同方面，结果显示主要基金会模型公司有很大的改进空间。

论文和仓库

BitNet：扩展1位变压器用于大型语言模型

BitNet是一种为大型语言模型（LLMs）提高内存效率和减少能量消耗而设计的1位变压器架构。它胜过了8位和FP16量化方法，并显示出在保持效率和性能优势的同时，有效扩展到更大的LLMs的潜力。

2.超级注意力：近线性时间下的长上下文注意力

超级注意力是一种解决语言模型中更长上下文的计算挑战的新型解决方案。它使用局部敏感哈希（LSH）优于现有方法，显着提高速度。它在长上下文数据集上表现出色，使推理速度更快，同时保持合理的困惑度。

3.自RAG：通过自我反思学习检索、生成和评论

本文介绍了一个称为自RAG的新框架。它是一种增强的模型，通过使用“反思标记”使语言模型能够对段落进行反思，从而在知识密集型任务（如问答、推理和事实验证）中产生更好的响应。

4.PaLI-3视觉语言模型：更小、更快、更强

本文介绍了PaLI-3，这是一种更小、更快、更强的视觉语言模型（VLM），与大小为其10倍的类似模型相比具有优势。它利用对比目标进行训练的ViT模型，在多模态基准测试中表现出色。

5.DeepSparse：在CPU上实现GPU级别的推理

DeepSparse是一个强大的框架，通过包括稀疏内核、量化、修剪和注意力键/值的缓存，增强了在CPU上的深度学习。它在常用的CPU上实现了类似于GPU的性能，实现了没有专用加速器的高效和稳健的模型部署。

喜欢这些论文和新闻摘要吗？在您的收件箱中获取每日摘要！

学习AI Together社区部分！

本周的梗图！

这个AI时事通讯，正是您所需要的一切 #70 四海第1张

梗图由sikewalk分享

来自Discord的社区贴文精选

G.huy创建了一个包含使用CUDA-C进行并行计算的代码示例和资源的存储库。它为初学者提供起点，让他们了解并行计算的概念以及如何利用CUDA-C发挥GPU的强大计算能力。在GitHub上查看并支持社区成员。在此帖子中分享您的反馈和问题。

本周的AI投票！

这个AI时事通讯，正是您所需要的一切 #70 四海第2张

加入Discord上的讨论。

TAI精选部分

本周的文章

RAG应用设计中的实际考虑因素由Kelvin Lu撰写

RAG（检索增强生成）架构已被证明能有效克服LLM输入长度限制和知识截断问题。在今天的LLM技术堆栈中，RAG是基于本地知识对讨论的应用进行基础性支撑、减轻幻像并使LLM应用可审计的基石之一。本文讨论了RAG应用开发的一些实际细节。

我们的必读文章

解密生成AI：深入探索扩散模型由Youssef Hosni撰写

机器学习简介：探索其多种形式由RaviTeja G撰写

QLoRA：在16GB GPU上训练大型语言模型由Pere Martra撰写

如果您想与Towards AI一起发布作品，请查看我们的指南并注册。如果符合我们的编辑政策和标准，我们将在我们的网络上发布您的作品。

职位招聘

机器学习工程师，大型语言模型和生成AI @Hireio, Inc.（美国华盛顿州西雅图）

实习生：基于物理的科学机器学习 @三菱电机研究室（美国马萨诸塞州剑桥）

机器学习工程师 @Pixelynx（自由职业者/德国柏林）

初级机器学习工程师 @BreederDAO（远程岗位）

Tech Lead Machine Learning Engineer @Baubap (Remote)

Machine Learning Engineer @iTechScope (Remote)

Instructor, AI/Machine Learning, Simplilearn (Part-time) @Fullstack Academy (Remote)

有兴趣在这里分享工作机会吗？请联系 sponsors@towardsai.net。

如果您正在准备下一个机器学习面试，请不要犹豫，查看我们领先的面试准备网站 confetti！

https://www.confetti.ai/

Published in 四海

Leave a Reply

Web Analytics