这份AI通讯是你所需要的一切 #61

本周AI动态

近几个月来，我们继续看到大型语言模型(LLM)的进步和新技术的逐步引入，但我们还没有看到直接旨在取代GPT-4作为最先进（以及训练计算密集型）模型的竞争。谷歌今年早些时候通过合并Google Brain和Deepmind整合了其AI工作，并迅速扩大了其训练计算资源。它的Gemini模型很可能是这一新合并努力的首个重大新发布。谷歌通过访谈和受控媒体发布逐渐引发了对Gemini的期待。该公司很可能正准备将Gemini作为对GPT-4的回应，并希望在某些能力上超越后者。

据报道，该模型现在已经准备好于“今年秋季”发布，我们对Gemini带来的新创新和能力以及它与GPT-4的比较感到兴奋。这一努力由Oriol Vinyals、Koray Kavukcuoglu和Jeff Dean共同领导，Jeff Dean负责Gemini的数百名员工的开发。我们从管理层的直接引用和媒体泄露中听到了一些关于该模型的事情。“Gemini将AlphaGo类型的系统的优势与大型模型固有的优秀语言能力相结合，”—Demis Hassabis。我们还知道该模型在5月之前开始训练；“我们已经开始研发Gemini——我们下一个从头开始构建的多模态模型，具备高效的工具和API集成能力，并具备支持未来创新（如记忆和规划）的能力。Gemini目前仍在训练中，但已经展示出以前的模型从未见过的多模态能力。”——谷歌CEO博客，5月23日。该模型预计是多模态的，具备完整的图像生成能力，类似于Midjourney。我们还听说谷歌在选择训练集方面非常谨慎，并且可能已将来自YouTube的视频和音频数据整合到了Gemini中。

谷歌和OpenAI之间的持续竞争令人兴奋，观察这些发展如何展开，特别是AlphaGo Deepmind的哪些技术正在整合到LLMs中，将会很有趣。看起来，今年的LLMs将会有更加令人兴奋的进化！

– Louie Peters — Towards AI联合创始人兼首席执行官

特别鸣谢OVHcloud赞助本期内容：

这份AI通讯是你所需要的一切 #61 四海第1张

OVHcloud以无可匹敌的价格提供GPU，以满足您的AI需求。包括一系列的NVIDIA云实例，价格比常规价格低60%（库存有限）。OVHcloud的AI产品组合旨在加速数据处理，同时提供完整的数据可逆性和资源灵活性保证，还提供裸金属服务器和开源ML解决方案，如AI笔记本、AI培训和AI部署，所有这些都受益于OVHcloud的水冷技术，实现最低的能源消耗。

五个5分钟的阅读/视频，让你不断学习

Anti-Hype LLM阅读清单

在当前人工智能的炒作中航行可能是具有挑战性的，很难辨别什么是真正有实质性的。这个汇编包括了经过深思熟虑的基础论文的精选集，有趣的开放问题以及深入了解这个领域的指南。

2. 为什么你（可能）不需要对LLM进行微调

这篇文章详细阐述了为什么微调对于您的应用可能并非必要。它深入探讨了微调所涉及的全面解释，并探索了潜在的替代方案。这篇文章的内容针对那些专注于构建LLM应用的人。

3. LLM研究中的开放挑战

人工智能的快速发展引发了新的研究方向。本文整合了LLM研究中的一些挑战，如多模态性、GPU的替代方案、创新架构等。

4. AI2 Dolma：用于语言模型预训练的3万亿标记的开放语料库

AI2 Dolma是一个由各种来源的30万亿个标记组成的数据集，包括网络内容、学术出版物、代码仓库、书籍和百科全书材料。它的主要目标是为研究人员提供研究数据规模的影响的手段。可以在HuggingFace Hub上方便地下载。

5. 撰写NLP论文的技巧

这篇文章分享了如何建立一个标准化的NLP论文撰写流程。它介绍了包括内容结构、语言精确性、全面的文献综述、准确的引用等在内的基本组成部分。虽然某些指针是针对NLP研究量身定制的，但本文所提出的原则可以在各个领域中有效地应用。

论文和存储库

使用指令反向翻译进行自我对齐

本文介绍了一种可扩展的方法，通过自动为人类编写的文本标上相应的指令，来构建一个高质量的遵循指令的语言模型。它从一个在少量种子数据和给定网络语料库上进行微调的语言模型开始。

2. Neuralangelo：高保真度的神经表面重建

本文介绍了Neuralangelo，它将多分辨率3D哈希网格的表示能力与神经表面渲染相结合。使得这种方法能够使用数值梯度计算高阶导数，并在哈希网格上进行粗粒度到细粒度的优化。

3. 通过张量分解实现一致的协同过滤

这项工作开发了一种基于隐式反馈的协同过滤新模型Sliced Anti-symmetric Decomposition (SAD)。SAD在保持个性化推荐的高准确性的同时，产生了最一致的个性化偏好。

4. 大规模语言模型的高效引导生成

本文展示了如何通过有限状态机状态之间的转换来构造神经文本生成问题。它通过允许在语言模型的词汇表上构建一个索引，以正则表达式和上下文无关语法来引导文本生成。

5. neuml/txtai

Txtai是一个全能的开源嵌入式数据库，用于语义搜索、LLM编排和语言模型工作流。它可以在几分钟内设置，并在本地运行，占用资源低，并且可以处理从微型模型到大型语言模型的工作。

喜欢这些论文和新闻摘要吗？在您的收件箱中获得每日摘要！

一起学习人工智能社区的部分！

本周的梗图！

这份AI通讯是你所需要的一切 #61 四海第2张

由rucha8062分享的梗图

来自Discord的社区精选帖子

Marcklingen最近推出了“langfuse”，这是一个为LLM（大型语言模型）应用设计的开源可观测性和分析工具。该工具通过提供精确执行跟踪的详细视角，包括质量、成本和延迟等方面，帮助用户加速应用程序开发过程。目前，Langfuse Analytics处于封闭的α测试阶段，核心团队正在与用户群合作，构建对LLM应用最有益的分析平台。在GitHub上查看并支持这位社区成员。在这个帖子中分享您的反馈和问题。

TAI 精选专栏

本周文章

如何使用大型语言模型和向量数据库构建视频推荐系统，作者：Zoumana Keita

在本文中，您将了解如何利用大型语言模型、最先进的文本和语音分析工具以及向量数据库构建端到端的音频推荐解决方案。该解决方案将根据用户的兴趣推荐热门视频。

我们必读的文章

Metas 新的文本到图像模型 — CM3leon 论文解读，作者：Boris Meinardus

使用 LangChain 从文本中提取词典，作者：Eugenia Anello

忙碌？这是您打开扩散模型黑匣子的快速指南，作者：Paul Iusztin

如果您想在 Towards AI 上发表文章，请查看我们的指南并注册。如果符合我们的编辑政策和标准，我们将在我们的网络上发布您的作品。

职位招聘

高级技术作家（技术软件）@未来出版社（伦敦，英国）

初级软件工程师（React.js）— OP01114 @Dev.Pro（远程）

解决方案架构师（软件开发）@Uni Systems（华沙，波兰）

软件工程师 @Mention Me（远程）

全栈软件工程师 @Basetwo（远程）

高级数据工程师 @Hertility Health（远程）

人工智能工程师 @Plain Concepts（远程）

有兴趣在此分享工作机会吗？请联系 sponsors@towardsai.net。

如果您正在准备下一次机器学习面试，请不要犹豫，查看我们领先的面试准备网站 confetti！