四海吧 – Page 40 – 四海之内皆兄弟，四海带你涨姿势

希望的曙光首次从她的眼睛中显现出来：她能向上凝视表示“是”她的颈部肌肉很虚弱，但她逐渐开始有意识地直视着告诉我们她想要什么正是在她旅程的这个阶段，她接触到了配备凝视交互技术的计算机通过眼动追踪技术，她能够凝视屏幕键盘上的某些字母以输入文字但这样的速度很慢，也很累借助人工智能的进步，我们有巨大的潜力通过提高凝视检测的速度和准确性来改变这一点

高效沟通的道路远非一帆风顺这往往是一个令人沮丧和心碎的过程要使技术发挥作用，她必须集中注意力在每个字母上一段时间，但有很多时候她的注意力动摇，或是她的脖子无法保持稳定这个过程是缓慢的，充满错误，许多尝试都以苦恼告终

我表亲的困境并非个例对于像她这样因伤害而失去运动功能的许多人，以及患有脑性麻痹或多发性硬化等神经系统疾病的人来说，凝视交互是唯一有效的沟通方式虽然辅助技术（如眼球输入法）具有改变生活的潜力，但目前最好的眼球输入系统报告的文本输入速度相对较慢，约为每分钟7-20个单词，而典型的口语速度在每分钟125-185个单词之间这是一个显著的差距，它突出了改进辅助技术以提高依靠它们进行沟通的所有个人的生活质量和能力的需求

这就是我的研究目标目标是使通信对于无数运动障碍的人来说更高效、更可访问，对于他们来说，这些技术可以成为改变生活的现实通过理解如何最好地使用人工智能，我希望重新想象用户如何能够用眼睛高效地输入文字

我非常幸运能够在谷歌和剑桥大学人类启发人工智能中心（CHIA）的支持下追求这个目标今年初，我开始了博士学位，由Per Ola Kristennson教授指导，他的关于一种名为“非停驻”眼球输入法的人工智能技术的开创性工作打开了这些系统设计范式的可能性

眼球输入法系统在进展中存在一个显著的差距，即缺乏与最终用户本人的直接参与为了了解他们的需求、愿望和障碍，我已经开始对依靠眼球输入法进行日常沟通的非语言个体进行访谈，从而设计更好地帮助眼球输入法用户实现目标的技术这反映了CHIA在人工智能创新方面采取的方法，将将最受人工智能影响的人们置于开发过程的核心

通过将人工智能与凝视输入技术结合，我们的目标是赋予像我表亲这样的人们表达自己、与世界联系并恢复独立感的能力

Leave a Comment

“量子中继器利用钻石中的缺陷来连接量子系统”

Published October 17, 2023 by 四海吧

科学家现在利用钻石的缺陷来构建量子中继器

Leave a Comment

沃尔玛正在考虑使用人工智能技术来提供更加个性化的购物体验

Published October 17, 2023 by 四海吧

零售巨头沃尔玛正在寻求人工智能的帮助，为顾客提供更个性化的购物体验这并不是该公司首个利用生成式人工智能的项目，今年早些时候，他们在公司办公室开发了一款由人工智能驱动的应用程序根据Fox News的报道…

Leave a Comment

《纽约市推出人工智能行动计划》

Published October 17, 2023 by 四海吧

纽约市今天推出了一个AI行动计划作为首次行动，该市是美国首个大型城市制定了一个框架，用于评估AI工具以及使用AI工具带来的风险在市政厅揭幕时，官员们表示…

Leave a Comment

从零到英雄：AutoGen 如何重塑 LLM

Published October 17, 2023 by 四海吧

Autogen Microsoft是Microsoft的一个项目，允许您创建任意数量的自主代理并使它们协同工作以完成事务它是一个框架，允许代理进行…

Leave a Comment

CMU与Google DeepMind的研究人员介绍了AlignProp：一种基于直接反向传播的人工智能方法，用于微调文本到图像扩散模型以实现期望的奖励函数

Published October 17, 2023 by 四海吧

概率扩散模型已成为连续域生成建模的已确立规范。在文本到图像扩散模型方面，DALLE引领潮流。这些模型以其在广泛的网络规模数据集上进行训练以生成图像的能力而受到重视。本论文讨论了文本到图像扩散模型在图像生成的前沿地位方面的最新发展情况。这些模型是通过在大规模无监督或弱监督的文本到图像数据集上进行训练而获得的。然而，由于其无监督性质，控制它们的行为以优化人类感知图像质量、图像与文本的对齐或伦理图像生成等下游任务是一项具有挑战性的努力。最近的研究试图使用强化学习技术对扩散模型进行微调，但这种方法在梯度估计器中具有高方差。针对这一问题，本论文引入了“AlignProp”，一种通过回传奖励梯度在去噪过程中与下游奖励函数对齐的方法。 AlignProp的创新方法缓解了通常与现代文本到图像模型通过反向传播进行内存需求高的问题。它通过微调低秩适配器权重模块和实施梯度检查点来实现这一目标。本论文评估了AlignProp在微调扩散模型以实现各种目标时的性能，包括图像与文本的语义对齐、美学、图像可压缩性以及生成图像中对象数量的可控性，以及这些目标的组合。结果表明，AlignProp在更少的训练步骤中通过获得更高的奖励优于其他方法。此外，它因其概念上的简单性而备受关注，使其成为根据所关注的可微分奖励函数优化扩散模型的直接选择。 AlignProp方法利用从奖励函数获得的梯度来微调扩散模型，从而提高采样效率和计算效率。进行的实验一致表明AlignProp在优化各种奖励函数方面的有效性，甚至适用于仅通过提示难以定义的任务。未来的潜在研究方向可能涉及将这些原理扩展到基于扩散的语言模型，以改善其与人类反馈的对齐。

Leave a Comment

麻省理工学院的钻石光辉：量子中继器革命化网络交流

Published October 17, 2023 by 四海吧

现在科学家们正在利用钻石中的缺陷构建量子中继器

Leave a Comment

识别城市区域中的热门场所

Published October 17, 2023 by 四海吧

在本文中，我展示了一种快速且易于使用的方法，该方法能够基于从OpenStreeetMap（OSM）收集到的兴趣点（POI）来识别给定兴趣的热点

Leave a Comment

一个从Google地图空气质量API获取空气污染数据的Python工具

Published October 17, 2023 by 四海吧

2023年8月，谷歌宣布将空气质量服务添加到其地图 API 列表中您可以在这里阅读更多相关信息现在，这些信息似乎也可以从内部获取到了…

Leave a Comment

从2D到3D：通过对齐几何先验增强文本生成一致性

Published October 16, 2023 by 四海吧

“`html 将2D图像转换为3D对象用于文本到3D生成是一项艰巨的任务。这主要是因为2D扩散模型仅学习了与视图无关的先验，并且在提取时没有对3D空间的理解。这个限制的结果是多视角不一致的问题，即从所有视角看，3D对象是不一致的。例如，如果我们将一个2D图像的立方体提取到3D空间中，模型可能会生成一个在一个视角上完美而在其他视角上失真的立方体。为了解决几何不一致问题，一组研究人员提出了一种叫做SweetDreamer的新方法，该方法在提取过程中添加了明确定义的3D形状，并将扩散模型中的2D几何先验与之对齐。该模型通过微调2D扩散模型以具备视角感知能力（理解对象在不同视角下的变化）、生成具有规范方向的3D对象的特定视图坐标图来实现这一目标。这种方法非常有效地生成了从所有视角看一致的3D对象。研究人员意识到3D不一致结果的主要原因是几何不一致，因此他们的目标是赋予2D先验生成从各个视角看时外观相同且具备通用性的3D对象的能力。研究人员提出的方法利用了包含多样的规范方向和标准化的3D模型的全面3D数据集。从随机角度渲染深度图，并将其转换为规范坐标图。然后，他们微调2D扩散模型以生成与特定视图对齐的坐标图，最终将几何先验与2D扩散对齐。最后，对齐的几何先验可以平滑地集成到各种文本到3D系统中，有效减少不一致性问题并生成多样且高质量的3D内容。 DMTet和NeRF是文本到3D生成中常用的两种3D表示方法。在研究论文中，作者展示了他们的对齐几何先验可以集成到基于DMTet和NeRF的文本到3D流程中，以提高生成的3D对象的质量。这证明了他们方法的广泛适用性，以及提升多种文本到3D系统性能的潜力。由于缺乏评价文本到3D过程结果的成熟指标，研究人员主要关注评估3D结果的多视角一致性。他们从DreamFusion画廊随机选择了80个提示，并使用每种方法进行文本到3D生成。随后对3D不一致性进行手动检查以报告成功率。研究人员发现，他们的方法显著优于其他方法。在两种流程（DMTet和NeRF）中，他们的成功率都超过85％，而其他方法的得分约为30％。总之，SweetDreamers方法提供了一种实现文本到3D生成的最新技术的新颖方法。它可以从各种提示中生成不受多视角不一致问题困扰的结果。与其他先前方法相比，它具有更好的性能，研究人员认为他们的工作将开创使用有限的3D数据增强2D扩散先验以实现文本到3D生成的新方向。 “`

Leave a Comment