Press "Enter" to skip to content

Tag: Applications

这项深度学习研究揭示了注意力缺陷多动症青少年大脑变化的独特特征：磁共振扫描分析的突破

Published December 4, 2023 by 四海吧

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/3811637-1024×1024.jpg”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/3811637-150×150.jpg”/><p>在一项具有突破意义的研究中，研究人员利用人工智能（AI）的力量来解决青少年注意力缺陷多动障碍（ADHD）诊断中固有的挑战。长期以来，依赖于主观自我报告调查的常规诊断方式一直受到批评，因为它缺乏客观性。现在，一个研究团队引入了一种创新的深度学习模型，利用青少年大脑认知发展（ABCD）研究的脑成像数据，旨在革新ADHD的诊断方法。</p><p>目前的ADHD诊断方法由于其主观性和对行为调查的依赖而不足。为此，研究团队设计了一个基于AI的深度学习模型，研究了超过11,000名青少年的脑成像数据。该方法包括使用由扩散加权成像得出的关键指标——散度加权成像的分数各向异性（FA）测量训练模型。这种方法旨在发现与ADHD相关的独特脑模式，为诊断提供更客观和量化的框架。</p><p>这个深度学习模型旨在识别FA值的统计显著差异，结果显示在患有ADHD的青少年中，与执行功能、注意力和语言理解相关的九个白质束的测量值升高。这些研究结果在北美放射学会年会上发表，标志着一项重要的进步：</p><ul><li>与非ADHD个体相比，ADHD患者的FA值在30个白质束中有九个显著升高。</li><li>预测FA值与实际FA值之间的平均绝对误差（MAE）为0.041，与有无ADHD的受试者之间有显著差异（0.042对0.038，p=0.041）。</li></ul><p>这些量化结果凸显了深度学习模型的有效性，并突出了FA测量作为ADHD诊断的客观标志物的潜力。</p><p>研究团队的方法解决了当前主观诊断的局限性，并为发展脑成像生物标志物提供了一条更客观、可靠的诊断途径。白质束中的差异代表了在ADHD诊断中迈出的有希望的一步。随着研究人员继续通过更广泛的研究数据完善他们的发现，AI在未来几年内革新ADHD诊断的潜力似乎越来越大。</p><p>总之，这项开创性的研究不仅挑战了ADHD诊断的现状，还为利用AI进行客观评估开辟了新的可能性。神经科学和技术的交叉带来了希望，未来ADHD诊断不仅更准确，而且根植于脑成像的细微差别，提供了对这种普遍青少年障碍的全面理解。</p><p>本文发表在《这项深度学习研究揭示了青少年ADHD的独特脑变化：MRI扫描分析的突破性进展》上，首发于MarkTechPost。</p>

Leave a Comment

康奈尔大学研究人员揭示了语言模型提示的内在洞察力：深入了解下一个标记概率如何揭示隐藏文本的方法

Published December 4, 2023 by 四海吧

Translate this html (keep the html code in the result) to Chinese: 康奈尔大学的研究人员进行了一项研究，解决了语言模型逆推的问题。他们发现下一个标记的概率包含了有关前文的重要信息。为了解决这个问题，他们引入了一种方法，仅使用模型当前的分布输出来重构未知的提示，他们发现这种方法非常准确。语言模型逆推的方法是在计算机视觉中反转深度嵌入的先前研究基础上的一种新技术。它旨在通过从语言模型输出中恢复隐藏的提示来解决文本嵌入的隐私问题。这种方法是独特的，并与自然语言处理模型中的模型逆推、成员推理和模型窃取之前的研究相关。该研究强调提示恢复作为应对隐私问题的一种方法。该研究解决了语言模型逆推的问题，旨在从模型的下一个标记概率中恢复输入提示，这在用户无法访问原始提示的情况下至关重要。他们强调了语言模型预测的可逆性，并展示了相似或准确提示的恢复。该研究探索了包括仅文本访问在内的各种访问模式，证明了有限信息下的提示恢复的可行性。该研究引入了一种从语言模型的分布输出中恢复未知提示的方法。它使用了基于Transformer模型训练的条件语言模型，将下一个标记的概率映射到标记。使用编码器-解码器Transformer中的交叉注意力，将向量展开为伪嵌入。在Llama-2 7b数据集上的实验展示了反转提示的定性示例。他们建立了基线，包括越狱字符串，以进行性能比较。研究提出的逆推方法在Instructions-2M测试集中恢复提示方面表现出色，超过了few-shot提示和GPT-4。它在各种模型访问场景下取得了成功，实现了显著的BLEU分数和标记级别F1的Llama-2 7b数据集。还探讨了对不同大小的模型的可转移性，展示了在代码生成任务中的良好性能。定性分析显示，重构的提示与主题相关且句法相似，表明逆推方法在准确恢复语言模型输出的提示方面非常有效。总之，该研究显示语言模型逆推是一种可靠的方法，可以从模型的输出分布中恢复提示。为了防止逆推攻击，重要的是实施防御机制，如添加噪音和设置限制访问。实验证明模型概率分布可以通过启用采样进行重构。但建议限制对top-logits的访问，并为提示保护将温度设为0。结果证实，语言模型逆推是一种有效的方法，可以准确地从语言模型中恢复隐藏的提示。语言模型逆推的未来工作可以深入研究输入单个后缀以生成多个下一个标记预测，而不仅仅是在末尾。研究可以关注不同大小和领域的模型之间逆推的可转移性。研究对各种防御机制的影响，包括添加噪音和限制访问top-logits，提供了一个有价值的探索方向。将标记嵌入与概率值相结合的参数化可以提高逆推模型的性能。将该方法应用于代码生成等多样任务的探索将提供对其更广泛用途的洞察。进一步分析还需要了解提示恢复的限制和挑战，特别是在处理专有名词和改进句法相似性方面。

Leave a Comment

「见面SceneTex：室内场景高质量、风格一致的纹理生成的新型AI方法」

Published December 4, 2023 by 四海吧

高质量的3D内容合成对于许多应用来说是一个至关重要且具有挑战性的问题，比如自动驾驶、机器人模拟、游戏、电影制作以及未来的VR/AR场景。由于越来越多的3D内容数据集的可用性，3D几何建模这个领域已经引起了计算机视觉和图形界的广泛研究兴趣。尽管3D几何建模已经取得了很大的进展，但是创建物品的外观或纹理仍然需要大量的人力。开发和编辑通常需要很长时间，并且需要具备使用Blender等3D建模程序的丰富经验。因此，对于人类技能的高需求和相关成本阻碍了自主纹理设计和增强达到完全工业化。通过利用2D扩散模型的最新发展，特别是针对预定义形式的纹理合成方面的方法，已经在文本到3D创建方面取得了很大的进展。两个开创性的工作Text2Tex和Latent-Paint产生了高质量的物体外观，并实现了从输入提示中合成高保真度的纹理。虽然这些方法对于单个物体产生了有趣的结果，但要将它们扩展到为场景生成纹理仍然存在一些困难。一方面，纹理接缝、累积的伪影和循环闭合问题是将2D视图投影到3D物体表面的自回归算法的常见问题。当每个物体都有自己的纹理时，保持图片风格的一致性可能是一项具有挑战性的任务。相反地，纹理优化是在低分辨率潜空间中使用基于分数蒸馏的方法进行的，这经常导致错误的几何细节和朦胧的RGB纹理。因此，之前的基于文本的方法无法生成高品质的3D场景纹理。慕尼黑工业大学和Snap Research的研究团队提出了SceneTex，这是一个独特的设计，使用深度到图像扩散先验来为内部场景网格生成高质量且风格一致的纹理，以解决上述问题。该研究团队采用了一种独特的策略，将纹理创建视为使用扩散先验在RGB空间中进行纹理优化的挑战，而不是现有技术中反复将2D视图弯曲到网格表面上。基本上，研究团队引入了一个多分辨率纹理场，以细致地描绘网格的外观。研究团队使用多分辨率纹理以准确地呈现多种尺寸的纹理细节。因此，他们的设计现在可以适应低频和高频的外观信息。研究团队使用交叉注意力解码器来减少自遮挡引起的风格不一致，以确保所创建纹理的风格一致性。从实用的角度来看，每个解码后的RGB值都是通过与分布在每个物体上的预采样参考表面位置进行交叉参考生成的。因为每个可见位置都会获得整个实例外观的全局参考，所以研究团队可以进一步确保每个模型内部的全局风格一致性。研究团队通过全面的试验表明，SceneTex可以根据提供的语言信号准确而灵活地创建内部场景的纹理。研究团队通过对3DFRONT数据集的部分进行用户研究，证明了SceneTex在2D指标（如CLIP和Inception分数）方面优于其他基于文本的纹理创建算法。研究团队的技术贡献可以概括如下： • 使用深度到图像扩散先验，研究团队创建了一个独特的框架，用于生成高质量的高分辨率场景纹理。 • 研究团队使用多分辨率纹理通过提出隐式纹理场来准确捕捉丰富的纹理特征，以记录物体在多个尺度上的外观。 • 与以往的合成技术相比，研究团队通过使用交叉注意力纹理解码器，为3D-FRONT场景生成更美观和风格一致的纹理，以确保每个实例的全局风格一致性。

Leave a Comment

纽约大学和Meta公司的研究人员推出了Dobb-E：一个用于学习家庭机器人操作的开源通用框架

Published December 3, 2023 by 四海吧

“`html 纽约大学和Meta的研究团队旨在通过引入高度适应型的DobbE系统，解决家庭环境中机器人操作学习的挑战，能够从用户示范中学习和适应。实验展示了系统的效率，同时强调了现实世界环境中的独特挑战。研究中承认了积累大量机器人数据集的最新进展，强调了以家庭和第一人称机器人互动为中心的数据集的独特性。利用iPhone的能力，该数据集提供了高质量的动作和稀有的深度信息。与现有的自动化操作重点表示模型相比，强调了用于通用表示的域内预训练。他们建议使用非机器人家庭视频的非域内信息来增强数据集，承认这些增强对于他们的研究有潜在的改进。引言中提到了在创建全面家庭助手方面面临的挑战，主张从受控环境向真实家庭的转变。强调效率、安全和用户舒适性，并介绍了体现这些原则的DobbE框架。它利用大规模数据和现代机器学习来提高效率，利用人类示范来确保安全，并使用符合人体工程学的工具来提高用户舒适度。DobbE将围绕Hello Robot Stretch集成硬件、模型和算法。还讨论了纽约家庭数据集中来自22个家庭的多样化示范以及用于视觉模型的自监督学习技术。该研究采用行为克隆框架，一种模仿学习的子集，来训练DobbE模仿人类或专家行为。设计的硬件设置促进了无缝示范收集和转移到机器人实体，利用了包括iPhone视觉里程计在内的多种家庭数据。基本模型在这些数据上进行预训练。经过测试，训练模型在真实家庭中进行测试，消融实验评估了视觉表示、所需示范、深度感知、示范者专业知识以及系统中是否需要参数化策略。 DobbE在陌生的家庭环境中接受仅五分钟示范和15分钟适应家庭预先训练的表示模型后，显示出81%的成功率。在10个不同的家庭中经过30天的学习，DobbE成功学会了109项任务中的102项，证明了使用ResNet模型进行视觉表示和使用两层神经网络进行行动预测等简单方法的有效性。任务的完成时间和难度通过回归分析进行了分析，消融实验评估了不同系统组件，包括图形表示和示范者专业知识。总之，DobbE是一种经过测试的成本效益高且适用于各种家庭环境的机器人操作系统，具有令人印象深刻的81%的成功率。DobbE团队慷慨地开源了其软件堆栈、模型、数据和硬件设计，以推动家用机器人研究的发展，并促进机器人管家的广泛采用。DobbE的成功归功于其强大而简单的方法，包括行为克隆和用于行动预测的两层神经网络。该研究还提供了有关光照条件和阴影对任务执行的影响的见解。 “`

Leave a Comment

打破三维场景表示的界限：一种新的AI技术如何通过更快、更高效的渲染和更低的存储需求改变游戏

Published December 3, 2023 by 四海吧

NeRF将场景表示为连续的3D体积。它不是使用离散的3D网格或点云，而是为场景内的任何3D点计算颜色和密度值的函数。通过在从不同视点捕捉的多个场景图像上训练神经网络，NeRF学习生成与观察图像一致且准确的表示。训练完成NeRF模型后，它可以从任意相机视点合成场景的逼真新视图，创建高质量的渲染图像。NeRF旨在捕捉高保真的场景细节，包括复杂的光照效果、反射和透明度，这对传统的3D重建方法来说可能是具有挑战性的。 NeRF在生成高质量的3D重建和渲染场景的新视图方面展现出了有希望的结果，使其在计算机图形学、虚拟现实、增强现实和其他需要准确的3D场景表示的领域中非常有用。然而，NeRF也面临着计算上的挑战，因为它需要大量的存储和处理能力，特别是在捕获大型和详细的场景时。三维高斯点渲染需要大量的三维高斯点来保持渲染图像的高保真度，这需要大量的存储和内存。通过减少高斯点的数量而不损失性能并压缩高斯属性可以提高效率。成均馆大学的研究人员提出了一种可学习的掩码策略，可以显著减少高斯点的数量同时保持高性能。他们还提出了一种基于网格的神经场来紧凑但有效地表示视图相关颜色，而不是依赖于球谐函数。他们的工作提供了一个综合的3D场景表示框架，实现了高性能、快速训练、紧凑和实时渲染。他们广泛测试了紧凑的三维高斯表示在各种数据集上，包括真实和合成场景。在各种实验中，无论数据集如何，与三维高斯点渲染相比，他们始终发现存储量减少了十倍以上，渲染速度提高了，同时保持了场景表示的质量。点云方法已广泛用于渲染3D场景。最简单的形式是点云。然而，点云可能引起孔洞和走样等视觉伪影。研究人员提出了基于点的神经渲染方法，通过经过光栅化的点编码和可微分光栅化来减轻这些问题。 NeRF的未来有望革新3D场景理解和渲染，并且预计持续的研究工作将进一步推动边界，实现更高效、逼真和多样化的应用在各个领域中。

Leave a Comment

微软的研究人员提出了MAIRA-1：一种用于从胸部 X 光片（CXR）生成放射学报告的放射学特定的多模态模型

Published December 3, 2023 by 四海吧

微软的研究团队通过开发一种针对放射学的多模态模型MAIRA-1来解决生成高质量胸部X光（CXR）报告的问题。该模型利用了CXR特定的图像编码器和基于Vicuna-7B的微调LLM，以及基于文本的数据增强方法，重点关注Findings部分。研究意识到了其中的挑战，并提出未来的版本可以结合当前和之前的研究信息以减少信息幻觉。在研究中探索的现有方法包括使用具有多模态能力的LLM，如PaLM和Vicuna-7B，从胸部X光创建叙述性放射学报告。评估过程包括传统的NLP指标，如ROUGE-L和BLEU-4，以及聚焦于临床相关方面的放射学特定指标。研究强调提供详细的发现描述的重要性，同时强调了机器学习在生成放射学报告中的潜力，并解决了当前评估实践的局限性。 MAIRA-1方法结合了视觉和语言模型，从胸部X光中生成详细的放射学报告。这种方法针对临床报告生成的特殊挑战进行了处理，使用衡量质量和临床相关性的指标进行评估。研究结果表明，MAIRA-1方法可以提高放射学报告的准确性和临床实用性，代表了在医学成像中使用机器学习的一大步。所提出的MAIRA-1方法是一种针对放射学的多模态模型，用于生成胸部X光报告。该模型利用CXR图像编码器、可学习的适配器和微调的LLM（Vicuna-7B）来融合图像和语言，以提高报告质量和临床实用性。它使用GPT-3.5进行基于文本的数据增强，以进一步改进训练。评估指标包括传统的NLP测量指标（ROUGE-L、BLEU-4、METEOR）和放射学特定的指标（RadGraph-F1、RGER、ChexBert矢量），用于评估临床相关性。 MAIRA-1在生成胸部X光报告方面显示出显著的改进，具体表现为RadCliQ指标的提升和与放射科医生相关的词汇指标的改进。模型的性能因发现类别而异，存在成功和挑战。MAIRA-1有效地揭示了标准评估实践所未捕捉到的微妙失败模式，这一点在覆盖了语言和放射学特定方面的评估指标中得到了证明。MAIRA-1提供了对胸部X光报告的全面评估。总之，MAIRA-1是一种高效的生成胸部X光报告的模型，通过其特定于领域的图像编码器和流利准确地识别微妙发现的能力超越了现有模型。然而，考虑现有实践的局限性和临床背景的重要性在评估结果时是很重要的。建议考虑多样化的数据集和多个图像以进一步改进模型。 MAIRA-1的未来版本可能会将当前和之前的研究信息纳入，以减轻生成报告中的虚构需求，正如与GPT-3.5的先前工作中所示。为了优化临床相关性，未来的工作可以探索强化学习方法来解决对临床实体提取的依赖性。建议在更大范围和多样化的数据集上进行增强训练，并考虑多个图像和视图，以进一步完善MAIRA-1在生成微妙的放射学特定发现方面的性能。

Leave a Comment

见面梅迪特龙：基于LLaMA-2的一套开源医疗大语言模型（LLMs）

Published December 3, 2023 by 四海吧

最令人振奋的大型语言模型（LLM）应用之一是在医学领域的运用，其中一些用例包括医学研究、个性化健康计划、临床诊断等等。然而，考虑到该领域的安全性问题，有必要在各种用例中对这些模型进行安全测试，以确保它们可安全使用。此外，这些模型应该向公众发布，以供审查。因此，一组研究人员发布了一组名为 MediTron 的LLM，它们是基于 LLaMA-2 的领域适应型模型。该模型有两个变体 – 一个带有 7B 参数，另一个带有 70B 参数。MediTron 是一个基础模型，可用于使用 RLHF 或指令调节进行特定的下游任务，其一些用例包括医学考试答题、一般健康问题、疾病信息查询以及支持差异诊断。 MediTron 的训练数据集非常全面，包括临床实践指南、医学论文及其摘要以及一般领域的预训练数据。采用了 Megatron-LLM 分布式训练库来优化训练效率，并使用数据、管道和张量并行化方案来加快进程。研究人员对模型的真实性进行了初步评估。他们使用了 TruthfulQA 数据集作为基准，并对 7B 模型进行了单次评估和对…

Continue reading

Leave a Comment

这篇来自美国东北大学和麻省理工学院的AI论文开发了可解释概念滑块，以增强扩散模型中的图像生成控制

Published December 3, 2023 by 四海吧

艺术用户通常需要对生成的图片中所代表的视觉特征和概念进行更精细的控制，但目前这是不可实现的。使用简单的文本提示来准确修改连续的属性，如个人年龄或天气的强度，可能会面临挑战。这种约束条件使得制作者难以更好地反映他们的愿景来修改图片。东北大学、麻省理工学院和一位独立研究人员的研究团队在本研究中回应了这些需求，提出了可解释的“概念滑块”，它们可以在扩散模型内实现精细的概念操作。他们的方法为艺术家提供了高保真度的图片编辑和生成控制。研究团队将以开放源代码的形式提供他们训练的滑块和代码。概念滑块为其他方法需充分解决的问题提供了几种解决方案。许多图片属性可以通过修改提示来直接控制，但由于输出对提示-种子组合敏感，修改提示通常会显著改变图像的整体结构。通过后期方法如PromptToPrompt和Pix2Video，可以修改交叉注意力和翻转扩散过程，以在图像内部改变视觉概念。然而，这些方法只能容纳少数同时修改，并且需要为每个新概念进行独立的推断步骤。与学习简单、可推广的控制不同，研究团队必须为特定图像设计一个适当的提示。如果没有适当地提示，可能会造成概念纠缠，如在改变种族的同时改变年龄。另一方面，概念滑块提供了简单的即插即用适配器，它们轻量且适用于预训练模型。这使得可以在单次推断运行中准确而连续地控制所需的概念，同时减小纠缠和提高效率。每个概念滑块都是一个具有低秩的扩散模型修改。研究团队发现低秩约束是概念精准控制的重要组成部分：低秩训练确定了最小的概念子空间，并产生了高质量、精确且解耦的编辑结果，而没有低秩正则化的微调则会降低精度和生成图像质量。这种低秩框架不适用于基于后期的图片修改技术，后者针对的是单个照片而非模型参数。概念滑块与之前依赖于文本的概念编辑技术不同，可以改变不只是由书面描述表示的视觉概念。尽管研究团队可以为新的基于图像的概念引入新的标记，但以图片为基础的模型自定义技术对于图片编辑来说是具有挑战性的。另一方面，概念滑块允许艺术家使用几个成对的照片来指定所需的概念。然后，概念滑块将泛化这个视觉概念，并将其应用于其他图像，即使在无法用言语表达变化的图像上也可以。（见图1）以前的研究表明，其他生成式图片模型，如GAN，包括产生高度解耦控制的潜在区域。图1 显示了该技术如何在扩散参数空间中查找低秩方向，以实现对具有最小干扰其他特质的聚焦概念控制，给定一组有限的文本提示或匹配的图片数据。这些方向可以用于复杂的多属性控制，并可以通过由艺术家创建的对立文本概念或可视化的配对来形成。通过将解耦的StyleGAN潜变量转化为扩散模型并修复稳定扩散输出中的扭曲手，研究人员展示了他们方法的有效性。具体而言，已经证明StyleGAN样式空间神经元能够对难以言语表述的图片的几个重要特征进行精细控制。研究团队展示了将来自StyleGAN在FFHQ人脸照片上训练的样式空间的潜在方向转移到扩散模型中开发概念滑块的可行性，进一步展示了他们的技术的潜力。有趣的是，他们的方法成功地适应了这些潜变量，即使它们来自人脸数据集，也能提供对不同图片生成的微妙样式控制。这表明扩散模型可以表达GAN潜变量中复杂的视觉概念，即使这些概念没有书面描述。研究人员表明，概念滑块的表现力足以处理两个有用的应用：改善逼真度和纠正手部畸形。尽管生成模型在生成逼真图像合成方面取得了巨大进展，但最新的扩散模型（如Stable Diffusion XL）仍然容易产生变形的脸部、浮动物体和扭曲的视角，此外，手部也可能存在解剖学上不合理的额外或缺失的手指。研究团队通过感知用户研究确认，两个概念滑块，一个用于“固定手部”，另一个用于“逼真图像”，在不改变图像内容的情况下，显著增加了感知逼真度。概念滑块可以组装和拆卸。研究团队发现，即使创建超过50个不同的滑块，也不会牺牲输出质量。这种适应性为艺术家打开了微妙图片控制的新世界，使他们能够结合许多文本、视觉和GAN定义的概念滑块。他们的技术比仅限于文本的编辑功能更为复杂，因为它超越了正常提示令牌的限制。

Leave a Comment

谷歌DeepMind推出GNoME：一种新的深度学习工具，通过预测新材料的稳定性，大大提高了发现的速度和效率

Published December 3, 2023 by 四海吧

无机晶体对于许多当代技术至关重要，包括计算机芯片、电池和太阳能电池板。每一个新的、稳定的晶体都是经过数月的细致实验得到的，稳定的晶体对于推动新技术具有重要意义，因为它们不会溶解。研究人员进行了昂贵的试错实验，但只取得了有限的结果。他们通过修改现有的晶体或尝试其他不同的元素组合来寻找新的晶体结构。在过去的十年中，多亏了Materials Project和其他组织推动的计算方法，已经找到了28,000种新材料。到目前为止，新材料在实验上可行性可靠预测的能力一直是一个重大限制。劳伦斯伯克利国家实验室和Google DeepMind的研究人员在《自然》杂志上发表了两篇论文，展示了我们AI预测用于自主材料合成的潜力。该研究展示了2.2百万颗更多的晶体，相当于大约800年的信息。他们的新型深度学习工具，被称为Graph Networks for Materials Exploration（GNoME），可以预测新材料的稳定性，大大提高了发现速度和效率。GNoME展示了AI在大规模发现和开发新材料方面的潜力。全球各地不同实验室的科学家们同时进行了独立的努力，已经找到了736种这些新颖结构。得益于GNoME，技术可行材料的数量增加了两倍。在它的2.2百万个预测中，有380,000个由于稳定性而最有希望进行实验合成。其中一些有能力创造下一代电池，提高电动车的效率，以及用于强大超级计算机的超导体。 GNoME是一种先进的图神经网络模型示例。由于GNN的输入数据类似于原子之间的连接关系，因此GNN非常适合找到新的晶体材料。最初用于训练GNoME的晶体结构及其稳定性的数据可通过Materials Project公开获取。使用“主动学习”作为训练方法显著提高了GNoME的效率。研究人员使用GNoME生成新的晶体候选，并预测它们的稳定性。他们使用密度泛函理论（Density Functional Theory，DFT），这是物理学、化学和材料科学中广为接受的计算方法，用于理解原子结构——这对于评估晶体稳定性至关重要——以在不断进行的训练周期中反复检查模型的表现，以评估其预测能力。高质量的训练数据又回到了这个过程中。研究结果显示，这项研究将材料稳定性预测的发现率从50%左右提高到了80%，参考以前最先进模型设定的外部基准。对该模型效率的改进使发现率从不到10%提升到了80%以上；这些效率的提升可能对每一次发现所需的计算功率有重大影响。自主实验室使用Materials Project的成分和GNoME的稳定性信息，已经创造出了超过41种新的材料，为人工智能驱动的材料合成的进一步发展铺平了道路。 GNoME的预测结果已经向科学界发布。研究人员将这些化合物的分析结果和稳定性信息添加到Materials Project的在线数据库中，共计380,000种材料。借助这些资源，他们希望科学界能够进一步研究无机晶体，并认识到机器学习技术作为实验指南的潜力。

Leave a Comment

“认识 RAGs：一个使用自然语言从数据源创建 RAG 管道的 Streamlit 应用程序”

Published December 3, 2023 by 四海吧

GPT在自然语言处理任务中表现出色。然而，使用GPT构建和部署的流程可能会很长且复杂。这就是RAG的作用所在。 RAG是由Streamlit开发的一款应用程序，用于简化创建和部署GPT流程的过程。它提供了直观的界面，使用户可以指定任务和所需的RAG系统参数。然后，在RAG生成所需代码后，流程将自动部署。最好的部分是RAG还有一个全新的版本RAGs v2。RAGs v2是自其初始发布以来的一次重要升级，为构建和自定义ChatGPT提供了更灵活和用户友好的体验。用户现在可以轻松创建、保存和管理多个RAG流程，每个流程都可以使用不同的数据集或系统提示进行自定义。此外，还可以删除未使用的流程，提高整体可用性。集成了代码检查和CI工具，提高了开发质量。RAGs v2还支持各类大型语言模型（LLM），用于在每个RAG流程中构建和使用。此外，它还可以加载文件或网页，进一步扩展其功能。提供了一个详细的说明视频，以便轻松设置和使用这个高级工具。以下是该应用的三个主要部分：在主页上，通过指示“builder agent”构建RAG流程。可以在RAG配置部分中找到“builder agent”创建的RAG设置。您可以在此区域中自由更新或更改生成的设置，该区域具有用户界面。使用常规的聊天机器人界面生成RAG agent，您可以根据数据向其提问。如何使用RAGs 以下是使用RAGs的简单方法：运行RAGs：要运行RAGs，执行以下命令： pip install rags 安装完成RAGs后，可以执行以下命令构建RAG流程： rags create-pipeline Streamlit应用程序将启动，您可以选择任务和所需的RAG系统规格。完成创建RAG流程后，执行以下命令部署： rags…

Continue reading

Leave a Comment

迎接 PGXMAN：PostgreSQL 扩展管理器

Published December 3, 2023 by 四海吧

你能够将它们拖放到项目管理工作流中，而不是手动更新和独立管理每个Postgres扩展吗？那该多么棒啊！幸运的是，随着PGXMAN的推出，这个愿望成真了。想象一下，只需点击几下或输入几条命令，就可以安装、更新和卸载Postgres扩展。搜索新版本、管理依赖关系和手动更新都成为了过去的事情。有了Pgxman负责这一切，你可以专注于创建令人难以置信的应用。增强Postgres数据库最有效的方法之一就是使用扩展。而处理扩展可能是具有挑战性的。感谢PGXMAN，当安装和管理Postgres扩展时，Pgxman就是救星。什么是PGXMAN？ Pgxman是一个Postgres扩展程序包管理器。使用它可以轻松安装和更新扩展，并管理扩展之间的依赖关系。对于希望在应用程序中包含Postgres扩展的开发人员来说，PGXMAN是一个宝贵的工具。 PGXMAN：它是如何工作的？ Pgxman使用软件包存储库来存储扩展。每个扩展的详细信息，包括名称、版本和依赖关系，都存储在软件包存储库中。通过这些信息，Pgxman可以安装、更新和删除扩展。使用Pgxman的优点使用PGXMAN有许多优点，其中包括： PGXMAN简化了查找、安装和更新扩展的过程，易于使用。 PGXMAN可以自动处理扩展之间的依赖关系。使用PGXMAN可轻松保持扩展的最新状态。 PGXMAN社区强大而支持性良好，有许多用户和开发人员为该项目做出了贡献。开始使用Pgxman 下面的命令将安装pgxman并帮助你入门： pip install pgxman 以下命令将在安装pgxman后帮助你使用pgxman添加扩展： pgxman install <extension-name> 通过以下命令，您还可以使用pgxman更新扩展： pgxman update…

Continue reading

Leave a Comment

加州大学伯克利分校研究人员开发了ALIA：用于细粒度分类任务的自动语言引导图像增强的突破性技术

Published December 3, 2023 by 四海吧

“`html 精细化图像分类是一项计算机视觉任务，旨在将图像分类为更大类别中的子类别。它涉及对特定的、往往是稀有的动物进行复杂的识别。然而，它们在需要更多广泛的训练数据方面存在问题，导致分类器在适应领域中的不同方面时遇到困难，比如天气条件或地理位置的改变。数据增强是一种常用的方法，用于使训练数据多样化，在精细分类等专门任务中面临挑战。使用生成模型或传统的翻转或裁剪等方法的方法显示出一定的潜力，但通常需要进行大量的微调或生成对于此类任务不适当的图像。尽管有各种各样的提出的方法试图解决这些挑战，但该领域仍面临着在创建增强数据集方面的困难，这些数据集代表了多样的变化，同时保持与原始训练数据的视觉一致性和相关性。一种新颖的方法——自动语言引导图像增强（ALIA）应运而生，以克服这些持续存在的挑战。ALIA利用了与大型视觉模型结合使用的数据集领域的自然语言描述，通过语言引导的图像编辑以自动生成训练数据的多样化变化。与先前的方法不同，ALIA不依赖昂贵的微调或用户提供的提示。相反，它智能地过滤掉最小的编辑和可能破坏与分类相关信息的编辑，提供了一种有希望的解决方案，增强了数据集的多样性，并提高了专门任务（如精细化分类）分类器的泛化能力。该过程包括：生成领域描述：利用图像字幕生成和大型语言模型（LLM）将图像上下文总结为不超过十个领域描述。使用语言引导对图像进行编辑：使用文本条件下的图像编辑技术，创建与这些描述相符的多样化图像。过滤失败的编辑：使用CLIP进行语义过滤，并使用分类器进行基于置信度的过滤，以删除失败的编辑，确保任务相关信息和视觉一致性的保留。据作者称，这种方法可以扩展数据集20-100％，同时保持视觉一致性并涵盖更广泛的领域范围。研究团队进行了大量实验证明了ALIA数据增强方法在专门任务（领域泛化、精细化分类和鸟类分类中的上下文偏见）中的有效性。通过对ResNet50模型进行微调，并使用稳定扩散进行图像编辑，ALIA始终优于传统的增强技术，甚至优于实际数据增加在领域泛化任务中，显示出相对原始数据的17％的改进。在精细分类中，ALIA表现出了竞争性的性能，即使没有领域转移也能保持准确性。ALIA在涉及上下文偏见的功能中，在领域内外的准确性方面表现出色，尽管在图像编辑质量和纯文本修改方面面临挑战。这些实验证明了ALIA在增强数据集多样性和模型性能方面的潜力，尽管在一定程度上依赖于模型质量和图像编辑方法的选择。总之，作者介绍了ALIA，一种基于大型语言模型和语言引导的图像编辑技术的数据增强先进策略，利用广泛的领域知识。对于已提供的训练集中的领域描述和增强数据，该方法展示了在领域适应、偏见减少甚至在缺乏领域转移的情况下的出色能力。对于未来的研究，作者认为字幕、大型语言模型和图像编辑的进一步改进将极大地增强该方法的效果和适用性。使用从实际训练数据中得出的结构化提示可能在改善数据集多样性和解决当前方法中遇到的各种限制方面发挥关键作用。这为探索ALIA在更广泛的领域中的应用前景和潜在进展提供了有希望的途径。 “`

Leave a Comment

揭示语言模型中链式思维推理的力量：关于认知能力、可解释性和自主语言代理的综合调查

Published December 3, 2023 by 四海吧

上海交通大学、亚马逊网络服务和耶鲁大学的研究解决了理解语言代理中的思维链（CoT）技术的基础机制和合理性的问题。该研究强调了CoT推理在LLM（语言模型）中的重要性，并探索其与自治语言代理的先进性之间的复杂联系。研究还研究了CoT验证方法在提高推理性能和可靠性方面的作用和有效性。这个全面的资源适用于初学者和有经验的研究人员，帮助他们提高对CoT推理和语言代理的理解。该研究深入探讨了LLM中CoT推理的发展，以及保证模型可靠性和精确性的不同CoT验证方法。对于这一领域的新手和有经验的研究人员来说，它是一个有用的参考。该研究重点关注语言智能的发展以及语言模型（LLMs）如何在理解和推理方面取得显著进展，使其像人类一样思考。其中一种策略是CoT提示，它在模式、推理格式和应用方面得到了发展。LLM中的CoT推理将复杂问题有效地分解为可管理的步骤。它可以通过将CoT技术整合到语言代理中来理解和执行现实或模拟任务。该研究旨在探索CoT机制，分析范式转变，并研究以CoT技术驱动的语言代理的发展。建议的方法包括探索和分析CoT推理及其在语言代理中的应用。它包括利用各种CoT技术，如Zero-Shot-CoT和Plan-and-Solve提示，以提高语言代理的性能。该方法强调了CoT在生成说明和示例以及验证过程中的重要性。它还将指令生成方法进行分类，并讨论整合维基百科和Google等外部知识源以提高推理链准确性。 CoT提供了改进泛化、效率、定制化、可伸缩性、安全性和评估的解决方案。引言提供了初学者和有经验的研究人员的详细信息，强调了CoT推理和语言代理的基本原则和当前进展。综上所述，本评述全面地考察了从CoT推理到自动化语言代理的发展，强调了先进性和研究领域。CoT技术显著改进了LLMs，使语言代理能够理解指令并执行任务。该研究涵盖了模式优化和语言代理开发等基本机制，以及未来的研究方向，包括泛化、效率、定制化、扩展性和安全性。这篇评述适合该领域的初学者和有经验的研究人员阅读。

Leave a Comment

谷歌和UIUC的研究人员提出了ZipLoRA：一种新颖的人工智能方法，可以无缝地合并独立训练的风格和主题LoRA

Published December 2, 2023 by 四海吧

“`html 谷歌研究和UIUC的研究人员提出了ZipLoRA，它通过引入一种合并独立训练的风格和主题线性递归关注（LoRAs）的新方法，解决了文本到图像扩散模型中对个性化创作的有限控制问题。它允许更好地控制和提高生成任何内容的效果。该研究强调了概念个性化LoRA权重矩阵中稀疏性的重要性，并展示了ZipLoRA在内容-风格转换和重构等各种图像风格化任务中的有效性。现有的逼真图像合成方法通常依赖于扩散模型，例如稳定扩散XL v1，它使用正向和反向过程。像ZipLoRA这样的方法利用了潜在扩散模型中独立训练的风格和主题LoRAs，以提供对个性化创作的控制。这种方法提供了一个简化的、经济高效且无需超参数的主题和风格个性化解决方案。与基准和其他LoRA合并方法相比，演示表明ZipLoRA的实践在生成具有个性化风格的多样主题方面表现出色。生成用户指定主题和个性化风格的高质量图像一直是扩散模型面临的挑战。虽然现有方法可以针对特定概念或技术微调模型，但它们通常需要用户提供的主题和风格的帮助。为了解决这个问题，开发了一种无需超参数的名为ZipLoRA的方法。这种方法有效地合并了独立训练的风格和主题LoRAs，提供了前所未有的个性化创作控制。它还在各种LoRAs中提供了稳健性和一致性，并简化了对公开可用LoRAs的组合。 ZipLoRA是一种简化扩散模型中独立训练的风格和主题LoRAs合并的方法。它允许主题和风格的个性化，无需超参数。该技术使用了一种直接合并方法，涉及简单的线性组合和基于优化的方法。通过用户指定的标量权重调整实现了可控的风格化，同时保持模型正确生成个体对象和风格的能力。通过用户研究表明，ZipLoRA在风格和主题的忠实度方面表现出色，超越了竞争对手和基准，在内容-风格转换和重构等图像风格化任务中。验证了ZipLoRA的准确风格化和主题忠实度，使其成为生成以用户指定主题为个性化风格的有效且有吸引力的工具。在ZipLoRA中独立训练的风格和内容LoRAs的合并提供了对个性化创作的前所未有的控制。总之，ZipLoRA是一种高效且经济高效的方法，可以同时个性化主题和风格。通过用户研究验证了其在风格和主题忠实度方面的卓越性能，并分析了其LoRA权重稀疏性和对齐的合并过程。ZipLoRA提供了对个性化创作的前所未有的控制，并超越了现有方法。 “`

Leave a Comment

使用Langchain构建半结构化数据的RAG管道

Published December 2, 2023 by 四海吧

介绍检索增强生成（Retrieval Augmented Generation）已经存在一段时间了。许多工具和应用程序围绕这个概念进行了构建，比如向量存储、检索框架和LLMs，使得处理自定义文档尤其是具有Langchain的半结构化数据变得方便。处理长、密集的文本从未如此轻松而有趣。传统的RAG对于不结构化的文本重型文件（如DOC、PDF等）效果良好。然而，这种方法对于嵌入在PDF中的半结构化数据（如嵌入式表格）效果不佳。在处理半结构化数据时，通常有两个问题。传统的提取和文本分割方法无法处理PDF中的表格。它们通常会破坏表格，从而导致信息的丢失。嵌入表格可能无法转化为精确的语义搜索。因此，在本文中，我们将使用Langchain构建一个用于处理半结构化数据的检索生成（Retrieval Generation）流水线，以解决这两个半结构化数据的问题。学习目标了解结构化、非结构化和半结构化数据之间的区别。对检索增强生成和Langchain进行简要回顾。学习如何使用Langchain构建一个用于处理半结构化数据的多向量检索器。本文作为数据科学博文马拉松的一部分发表。数据类型通常有三种类型的数据：结构化数据、半结构化数据和非结构化数据。结构化数据：结构化数据是标准化的数据，遵循预定义的模式，例如行和列。SQL数据库、电子表格、数据帧等。非结构化数据：与结构化数据不同，非结构化数据没有数据模型。数据是随机的，例如PDF、文本、图像等。半结构化数据：它是前两种数据类型的结合。与结构化数据不同，它没有严格的预定义模式。然而，数据仍然基于某些标记保持着分层次的顺序，这与非结构化类型形成了对比。例如CSV、HTML、嵌入式PDF中的表格、XML等。什么是RAG？ RAG代表检索增强生成（Retrieval Augmented Generation）。这是为大型语言模型提供新信息的最简单方法。现在，让我们对RAG进行一个快速介绍。在典型的RAG流程中，我们有知识来源，如本地文件、网页、数据库等，一个嵌入模型，一个向量数据库和一个LLM。我们从各种来源收集数据，拆分文档，获取文本块的嵌入并将它们存储在向量数据库中。现在，我们将查询的嵌入传递给向量存储，从向量存储中检索文档，最后使用LLM生成答案。这是传统RAG的工作流程，适用于如文本等不结构化数据。然而，当涉及到半结构化数据时，例如嵌入在PDF中的表格，它通常无法表现良好。在本文中，我们将学习如何处理这些嵌入式表格。…

Continue reading

Leave a Comment

前苹果员工们如何将生成式人工智能带到台式机上

Published December 2, 2023 by 四海吧

在不断进化的科技领域中，三位前苹果员工康拉德·克雷默（Conrad Kramer），金·贝弗特（Kim Beverett）和阿里·温斯坦（Ari Weinstein）共同开始了一项重新定义桌面生产力的任务。通过他们的初创公司软件应用有限公司（Software Applications Inc.），他们正在利用生成 AI 的力量，创造工作流快捷方式，为全球用户提供更高效的流程。一家具有远见的初创公司的诞生软件应用有限公司不仅仅是又一家技术初创公司。这是一群前苹果科技先锋的创意，他们已经看到了桌面计算的未来，并决定让它变成现实。他们的目标简单而雄心勃勃：将生成 AI 整合到日常桌面应用程序中，使复杂任务对最终用户变得轻而易举。这三人已经从 OpenAI 的阿尔特曼（Altman）、Figma CEO 迪伦·菲尔德（Dylan Field）和硅谷其他知名人士那里筹集到了650万美元的资金。新的前沿生成 AI 是这家初创公司创新的基石。与传统的按照特定指令进行编程的 AI 不同，生成 AI 可以从数据中学习并创建从未明确编程的内容。这意味着这种技术的潜在应用是广泛的，从自动化琐碎任务到通过简单的指令生成复杂报告。…

Continue reading

Leave a Comment

这项AI研究提出了一种基于物理的深度学习技术，用于预测IFP和脂质体积累

Published December 1, 2023 by 四海吧

在癌症疗法的优化过程中，研究人员提出了一项划时代的解决方案，显著提升了我们对肿瘤动力学的理解。该研究聚焦于精确预测肿瘤内液流压力（IFP）和脂质体积累，揭示了一种开创性的物理信息深度学习模型。这种创新方法有望优化癌症治疗策略，准确揭示治疗药物在肿瘤内的分布情况。许多纳米治疗的基石在于增强的渗透性和滞留效应（EPR效应），利用肿瘤的特性，如增强的血管渗透性和经血管压力梯度。尽管其关键作用，EPR效应对治疗结果的影响表现不一致。这种不一致性促使对影响实体肿瘤内药物输送的因素进行更深入的探索。在这些因素中，间质流体压力（IFP）已经成为一个关键决定因素，严重限制脂质体药物输送到肿瘤中心区域。此外，升高的IFP是一个独立的预后标记物，显著影响特定实体癌症的放射治疗和化疗的疗效。针对这些挑战，研究人员提出了一个先进的模型，使用术前和术后的图像数据来预测体素级别的肿瘤内脂质体积累和IFP。他们的方法独特之处在于将物理信息机器学习与偏微分方程相结合的创新技术。通过将这种创新技术应用于来自合成肿瘤的数据集，研究人员展示了该模型在输入数据最小的情况下能够做出高度准确的预测的能力。现有的方法往往需要在肿瘤内提供一致且准确的脂质体分布和IFP的预测。这项研究通过引入一种前所未有的方法，将机器学习与基于物理的原则相结合，从而在研究中有所突破。这种创新模型不仅能够提供准确的预测，还对癌症治疗的设计具有直接的影响。预测脂质体和IFP在肿瘤内的空间分布能够为更深入地了解肿瘤动力学打开新的途径，为更有效和个性化的治疗干预铺平道路。该研究由滑铁卢大学和华盛顿大学的研究团队详细介绍了他们提出的方法。他们利用了物理信息深度学习以实现体素级别的预测。该模型依赖于合成肿瘤数据，凸显了其稳健性和高效性，并为应对癌症治疗中提出的IFP升高问题提供了潜在解决方案。通过展示该方法的可扩展性和适用性，研究人员强调了其在预测肿瘤进展和促进治疗计划方面的潜力。总之，这项开创性的研究为解决基于脂质体的癌症疗法所涉及的复杂问题提供了一种转变性的方法。他们的模型结合了物理信息机器学习，可以提供精确的体素级别的肿瘤内脂质体积累和间质流体压力预测。这种创新推进了我们对肿瘤动力学的理解，并对治疗设计有直接的影响。更有效和个性化的干预潜力凸显了这项工作的重要性，为优化癌症治疗策略提供了关键的进展，以提高可预测性和治疗成功率。

Leave a Comment

相遇‘DRESS’：一个大型视觉语言模型（LVLM），通过自然语言反馈与人类进行对齐和交互

Published December 1, 2023 by 四海吧

大型视觉语言模型（LVLM）能够解释视觉线索并为用户提供互动的简单回复。这是通过巧妙地将大规模语言模型（LLMs）与大规模视觉指令微调相结合实现的。然而，LVLMs只需要手工制作或LLM生成的数据集通过监督微调（SFT）来进行对齐。尽管将LVLMs从字幕生成器变成遵循指令的模型是行之有效的，但是LVLMs仍然可能产生伤害、恶意或无用的回复。这表明它们仍然需要更加与人类偏好保持一致。此外，尽管先前的研究鼓励将视觉指令微调样本组织成多轮形式，但是LVLMs的互动能力受到不同轮次之间薄弱的连接和相互依赖的限制。在这里，互动能力评估了LVLMs在多回合互动中如何使用先前的上下文调整其回复。这两个缺点限制了LVLMs作为视觉助手的实际应用。来自SRI International和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了DRESS，一种在本研究中使用LLMs生成的自然语言反馈（NLF）来独特教授LVLMs的方法（参见图1）。研究团队要求LLMs对LVLMs的回复提供细致的反馈，通过提供具体规则和广泛的照片注释来完成。与创建与人类对齐的LLMs的过程相一致，这种反馈注释考虑了三个H标准：有用性、诚实性和无害性。反馈以3H标准综合评估回复的整体质量，并提供数值分数和NLF。研究团队的方法将NLF分为批评和改进两个部分。改进NLF向LVLMs提供了改善回复以使其与参考标准保持一致的精确建议，而批评NLF评估了回复的优点和缺点。这种分类为两种类型的NLF的自然应用提供了可能，使LVLMs更能被人类接受并增强其互动能力。图1：研究人员指导DRESS使用自然语言输入，将其分为批评和改进两类，以增强其与人类偏好的一致性和互动能力。研究团队将条件强化学习技术推广到非可微的NLF特性上，并用这种反馈来训练LVLMs。具体而言，研究团队使用回复的语言建模（LM）损失对DRESS进行训练，以生成在两种NLF条件下的等效回复。通过分析和解释数值结果来进一步改进DRESS，以更好地匹配用户偏好。通过推理过程中的多轮互动，研究团队训练DRESS学习通过采用改进NLF来改善其原始回复的元技能。研究团队对DRESS进行了多轮互动、对无害性评估的对抗提示、用于诚实性评估的图片字幕以及用于有用性评估的开放式视觉问题回答的实验评估。实验结果表明，与早期的LVLMs相比，DRESS能够提供与人类价值观一致的回复，并具有更强的互动能力，可以高效地从反馈中学习并修改回复。据研究团队所知，他们的工作是首次同时考虑LVLMs的互动能力和全部三个3H标准。研究团队的贡献总结如下： • 研究团队建议使用自然语言反馈（NLF），可分为批评和改进NLF，以增强LVLMs的互动能力和与人类偏好的一致性。 • 通过训练模型，使其提供基于NLF的匹配回答，研究小组成功地将有条件的强化学习方法推广到了不可微分的NLF上。与之前的最佳模型相比，研究小组提出的模型DRESS在有益性、诚实性和无害性对齐的系统评估中分别表现出了相对改进的9.76%、11.52%和21.03%。 • 研究小组生成并公开了63K个带注释的NLF语言示例，包括3H特性。此外，研究小组还创建了一个公开可用的数据集，其中包含4.7K个用于无害对齐和LVLM评估的样本。

Leave a Comment

研究人员研究张量网络以解释性和高效的量子启发机器学习

Published December 1, 2023 by 四海吧

计算机视觉、自然语言处理和其他领域在深度机器学习（ML）方法方面取得了显著的成功，这些方法基于深度神经网络（NNs）。然而，解释性与效率之间长期存在的问题带来了一些难以克服的障碍。对深度ML方法的质疑、理解和信任能力取决于它们的可解释性，通常被描述为一个人能够理解结论来源的程度。贝叶斯网络、Boltzmann机器和其他概率ML模型被认为是“白箱”，因为它们本质上是可解释的。这些模型宣称的一种解释方式是通过使用概率推理来揭示隐藏的因果联系；这与人类思维在统计上的方式一致。遗憾的是，最先进的深度NNs在效率上超过了这些概率模型相当大的幅度。目前的ML模型似乎无法同时实现高效性和可解释性。由于量子计算和传统计算的指数增长，解决效率与可解释性困境的新工具出现了：张量网络（TN）。多个张量的收缩被称为TN。张量的收缩方式由其网络结构定义。中国首都师范大学和中国科学院大学的一篇新论文调查了TN在高效和可解释的量子启发式ML方面的有益发展。”TN ML butterfly”列举了TN对ML的好处。对于具有量子扭曲的ML的TN的好处可以归结为两个主要领域：量子理论的可解释性和量子过程的高效性。使用TN与如纠缠理论和统计学等量子理论构建超越描述经典信息或统计方法的可解释性的概率框架。相反，量子启发的TN ML方法将能够通过强大的量子力学TN算法和大幅改进的量子计算技术在经典和量子计算平台上高效运行。特别是，最近产生了具有开发潜力和挑战的生成预训练变换器，导致了前所未有的计算能力和模型复杂性的激增，这对TN ML而言既具有潜力又具有挑战。面对产生预训练变换器的新人工智能（AI），解读结果的能力比以往任何时候都更为重要，从而实现更有效的调查、更安全的控制和更好的利用。研究人员认为，随着我们进入真正的量子计算和当前的NISQ时代，TN迅速成为从各个角度研究量子人工智能的领先数学工具，包括理论、模型、算法、软件、硬件和应用。研究人员研究了张量网络用于可解释和高效的量子启发式机器学习文章首次出现于MarkTechPost。

Leave a Comment

平衡创新与可持续性：在病理学深度学习中对环境责任的务实方法

Published December 1, 2023 by 四海吧

“`html 这项研究深入探讨了病理学中存在的一个紧迫问题 – 深度学习所关联的显著二氧化碳当量（CO2eq）排放。这种环境影响可能成为普及医疗应用中深度学习的潜在障碍，迫切需要采取可持续的做法。随着世界日益依赖医疗技术进步，了解和缓解环境后果变得至关重要。当前深度学习模型架构的发展趋势表现出越来越复杂的特点。来自不同机构的研究人员审查了这一发展及其潜在的环境影响。然而，他们提出了一个有说服力的解决方案，主张在模型选择上进行战略性转变。研究人员建议不要只注重最新和最大的模型，而是优先选择计算要求较低的模型。这种战略方法可以减少能源消耗，并引入模型修剪的概念。该技术可以精确删除不必要的参数，提高计算效率，同时保持最佳的模型性能。所提出的解决方案包括几个关键策略，以平衡技术创新和环境责任。其中一个关键方面包括减少输入数据，特别是在病理学领域，大型全切片图像（WSIs）是常态。研究人员建议通过专用组织检测深度学习模型自动排除没有组织的区域。此外，该研究强调了在组织内选择最低需求的感兴趣区域（ROIs）的重要性，进一步简化流程并显著减少排放。选择计算要求较低的模型的重点对于深度学习的环境影响具有深远意义。研究人员认为，较新较大的模型天然优于其前辈的假设在特定任务中可能不成立。他们的先前研究结果表明，较简单的深度学习模型在各种病理学任务中的表现可与更先进的模型相当，甚至更好。值得注意的是，一个相对简单、可训练参数较少的深度学习模型在显著减少CO2eq排放的同时，表现优于一个更深的模型。此外，该研究引入了模型修剪的概念，作为增强可持续性的另一途径。模型修剪，也称为模型优化或压缩，涉及有策略地删除非必要的参数。研究团队的发现表明，经过修剪的分类模型在保持准确性的同时，产生的CO2eq排放比未经修剪的模型少20-30%。这一发现强调了战略模型开发的重要性，以确保深度学习在环境上的可持续性。总之，这项研究在病理学中揭示了技术进步和环境责任之间的重要交汇点。所提出的方法为解决深度学习的生态影响提供了务实和环保的方法，同时不影响效率。随着医学界在技术进步中前进，这项研究呼吁进行范式转变，敦促研究人员和产业界在追求创新时优先考虑可持续性。通过采用这种做法，推动医疗技术的发展与减轻环境影响之间的微妙平衡变得可行，确保医疗创新的可持续未来。 “`

Leave a Comment

首尔国立大学研究人员引入了LucidDreamer：一种突破性的人工智能方法，利用扩散建模在虚拟现实中实现领域无关的3D场景生成

Published December 1, 2023 by 四海吧

商业混合现实平台的发展和3D图形技术的快速进步使得高质量的3D场景的创建成为计算机视觉中的主要挑战之一。这需要将任何输入的文本、RGB和RGBD图片转换为各种逼真且多样的3D场景的能力。尽管已经尝试使用体素、点云和隐性神经表示等扩散模型直接构建3D对象和场景，但由于基于3D扫描的训练数据的限制，结果显示出有限的多样性和质量。使用预先训练的图像生成扩散模型（例如稳定扩散）生成各种优秀的3D场景是解决问题的一种方法。这样一个庞大的模型通过从大规模训练集中获得的数据驱动知识生成可信的图像，但无法确保生成的图像之间的多视点一致性。首尔大学的研究团队在本文中提出了一种名为LucidDreamer的流水线，它使用3D高斯喷洒和稳定扩散从多种输入（包括文本、RGB和RGBD）生成各种高质量的3D场景。通过交替重复进行Dreaming和Alignment两个步骤，使用LucidDreamer流水线创建一个单一的大点云。在开始这两个过程之前，原始图像和匹配的深度图创建了一个初始点云。创建几何一致的图像并将其投影到三维空间中是梦境体验的两个方面。在将可见点云区域在新的相机坐标系上投影到新的相机平面之前，研究团队沿着预定义的相机轨迹移动相机。随后，投影的图像被送入基于稳定扩散的修补网络，该网络利用图像创建整个概念。通过将修补的图像和预测的深度图提升到3D空间中，创建了一组新的3D点。然后，通过轻微移动新点在3D空间中的位置，建议的对齐技术将其平滑地与当前点云连接起来。研究团队使用通过重复执行上述过程得到的大型点云作为初始SfM点来优化高斯喷洒。与先前的表示相比，3D高斯喷洒的连续表示消除了点云中深度差异导致的间隙，使我们能够显示出更逼真的3D场景。图1展示了使用简单的LucidDreamer技术生成的3D生成结果。与当前模型相比，LucidDreamer显示出显著更逼真和令人震撼的结果。在研究团队比较基于ScanNet、NYUDepth和稳定扩散的图片条件下创建的3D场景时，所有数据集都显示出更好的视觉效果。图1：研究人员创建了LucidDreamer，这是一个基本框架，用于从文本、RGB和RGBD输入类型生成高质量、多视点一致的3D场景。在将RGBD图像映射到第一个点云以生成后，LucidDreamer重复进行两个过程来扩大和保持其世界模型：对齐和梦境。通过优化高斯喷洒表示，完成了3D场景。他们的模型可以创建各种风格的3D场景，包括逼真、动漫、乐高和室内/室外。他们的概念支持多个领域，并允许同时使用多个输入条件。例如，它根据文本创建一个3D场景并添加图片，将文本和图像条件在一起。这消除了完全从文本中创建预期场景的困难，并消除了大量生成样本的需求。此外，他们的方法允许在创建3D空间时修改输入条件。这些特点通过提供构建各种3D设置的机会来激发创造力。他们总结了以下贡献。 • 研究团队推出了LucidDreamer，这是一个领域无关的高质量3D场景生成工具，它使用显式3D表示、深度估计和稳定扩散来改进3D场景合成中的领域泛化。 • 他们的Dreaming方法通过生成点云作为每个图片生成的几何指引，利用稳定扩散生成多视角图像。使用他们的对齐技术巧妙地将生成的照片整合在一起，创建一个连贯的3D场景。 • 他们的方法允许用户通过支持多种输入类型（文本、RGB和RGBD）以多种方式生成3D场景，同时允许在生成过程中更换输入。

Leave a Comment

韩国大学的研究人员推出了HierSpeech++：一种具有突破性的人工智能方法，用于高保真度、高效率的文本转语音和语音转换

Published December 1, 2023 by 四海吧

韩国大学的研究人员开发了一种新的语音合成器，名为HierSpeech++。这项研究旨在创造出稳健、富有表现力、自然且类似人类的合成语音。团队的目标是在不依赖文本-语音配对数据集的情况下实现这一目标，并改善现有模型的缺点。 HierSpeech++旨在填补语音合成中的语义和声学表征差距，从而最终改善风格适应性。到目前为止，基于LLM的零样本语音合成存在一定的局限性。但是，HierSpeech++已经针对这些限制进行了解决，并改进了鲁棒性和表现力，同时解决了与慢推断速度有关的问题。通过利用基于文本和韵律提示的自监督语音和F0表示的文本到向量框架，已经证明了HierSpeech++优于基于LLM和扩散的模型的性能。这些速度、鲁棒性和质量的提升确立了HierSpeech++作为一种功能强大的零样本语音合成器。 HierSpeech++使用分层框架生成语音而无需预先训练。它采用文本到向量框架来开发基于文本和韵律提示的自监督地址和F0表示。使用分层变分自编码器和生成的向量、F0和语音提示来产生语音。该方法还包括高效的语音超分辨率框架。全面评估使用各种预先训练的模型和实现，采用log-scale Mel错误距离、感知语音质量评估、音高、周期性、有声/无声F1分数、自然度、平均意见分和语音相似性MOS等客观和主观指标。 HierSpeech++在零样本情况下实现了合成语音的优越自然度，提高了鲁棒性、表现力和说话者相似性。使用自然度平均意见分和语音相似性MOS等主观指标评估了语音的纯真性，并且结果显示HierSpeech++优于真实语音。进一步将语音超分辨率框架从16 kHz提高到48 kHz，进一步提高了地址的自然度。实验结果还证明，HierSpeech++中的分层变分自编码器优于基于LLM和扩散的模型，使其成为一种强大的零样本语音合成器。研究还发现，使用噪声提示的零样本文本到语音合成验证了HierSpeech++在生成未知说话者的语音方面的有效性。分层合成框架还可以实现多样化的韵律和语音风格转换，使合成语音更加灵活。总而言之，HierSpeech提供了一种实现零样本语音合成人级质量的高效而强大的框架。它在语义建模、语音合成、超分辨率和韵律和语音风格转换方面的解耦，提升了合成语音的灵活性。即使在小规模数据集的情况下，该系统也表现出鲁棒性、表现力、自然度和说话者相似性的改进，并且具有显著更快的推断速度。…

Continue reading

Leave a Comment

见证关系深度学习基准（RelBench）：一系列逼真、大规模且多样化的关系数据库机器学习基准数据集

Published December 1, 2023 by 四海吧

在人工智能（AI）和机器学习（ML）这两个快速发展的领域中，寻找有效的、自动化的和适应性强的方法变得极其重要。AI和ML方法的不断提升已经改变了机器可以完成的事情以及人类如何与机器交互的可能性。包括深度学习在内的AI领域完全依赖于数据，重要的数据存储在数据仓库中，通过主外键关系链接在多个表中分散存储。使用这样的数据开发ML模型存在许多困难，需要大量的时间和工作，因为现有的ML方法并不适合直接从跨越多个关系表的数据中学习。目前的方法要求将数据通过一种称为特征工程的过程转换成单个表。为了克服这一挑战，斯坦福大学、Kumo AI、耶鲁大学、马克斯普朗克学院和伊利诺伊大学厄巴纳-香槟分校的研究团队最近提出了关系深度学习。这种端到端的深度表示学习技术可以处理分散在多个表中的数据。该方法已经被开发成一种将关系表作为异构图的基本方法。该图模型中的每个表行代表一个节点，而主外键关系定义了边。使用消息传递神经网络（MPNNs），可以自动遍历并学习多个表，从而提取利用所有输入数据的表示，并且不需要任何手动特征工程。研究团队还提出了RELBENCH，这是一个包括基准数据集和关系深度学习实现的综合框架。这些数据集涵盖了各个领域，从亚马逊产品目录中的图书评论到像Stack Exchange这样的网站上的对话。 RELBENCH包含三个核心模块，具体如下：数据模块：RELBENCH的数据模块提供了有效使用关系数据集的框架。其中包括三个重要特性：时间数据划分、任务规范和数据加载。模型模块：该模块通过将未处理数据转换为图形表示来构建图神经网络（GNNs）的预测模型。使用强大的深度学习库PyTorch Geometric，RELBENCH对几种广泛使用的GNN架构进行了基准测试。该模块允许模型架构的灵活性，对于桥接预测模型和原始关系数据开发之间的差距至关重要。评估模块：该模块创建了一个统一的评估模型性能的过程。它以系统化的方式评估预测文件，提供了模型的有效性的量化指标。该模块与各种受欢迎的深度学习工具配合使用，因为它被设计为与深度学习框架无关。这种适应性使研究人员和从业者可以使用他们选择的框架，而不会牺牲评估过程。

Leave a Comment

这篇AI研究评论探讨了卫星图像和深度学习在衡量基于资产的贫困方面的整合

Published November 30, 2023 by 四海吧

“`html 来自隆德大学和哈尔姆斯塔德大学的研究人员通过卫星图像和深度机器学习对可解释的AI在贫困估计中进行了回顾。通过透明度、可解释性和领域知识强调，对32篇论文的分析显示，这些关键要素在可解释的机器学习中表现出变异性，无法完全满足对贫困和福利的科学洞察和发现的需求。这项研究通过分析32篇预测贫困/财富的论文，使用调查数据作为基准真实性，在城市和农村环境中应用它，并涉及深度神经网络，发现这些核心要素的状态存在变异性，不能满足对贫困和福利洞察的科学要求。该回顾凸显了解释性对于开发社区范围内的更广泛传播和接受的重要性。引言介绍了在识别弱势社区和了解贫困决定因素方面的挑战，指出了信息缺口和家庭调查的局限性。强调深度机器学习和卫星图像在克服这些挑战方面的潜力，并强调在科学过程中的可解释性、透明性、可解释性和领域知识的需求，并评估了使用调查数据、卫星图像和深度神经网络预测贫困/财富中的可解释的机器学习的状态。目标是在开发社区范围内增强更广泛的传播和接受。通过进行综合文献综述，该研究分析了满足特定标准的32项关于贫困预测、调查数据、卫星图像和深度神经网络的研究。文章讨论了解释深度学习成像模型的属性图的使用，并评估了其可解释性。本回顾旨在概述所审查论文中的可解释性，并评估它们在贫困预测的新知识中的潜在贡献。对论文的回顾揭示了可解释的机器学习的核心要素（透明度、可解释性和领域知识）的不同状态，无法满足科学要求。可解释性和可解释性较弱，很少有研究人员解释模型或解释预测数据的努力。在特征模型的选择中普遍使用领域知识，但在其他方面使用较少。实验结果突出了一些洞察，如模拟财富指数的局限性和低分辨率卫星图像的影响。其中一篇论文以其强有力的假设和领域知识的积极评价脱颖而出。在贫困、机器学习和卫星图像领域，可解释的机器学习方法中透明度、可解释性和领域知识的状态各不相同，并未达到科学要求。对于开发社区范围内更广泛传播的可解释性，超出了单纯的可解释性。论文中的透明度参差不齐，有些文件有很好的文档记录，而其他文件则缺乏可复现性。解释性和可解释性方面的不足仍然存在，很少有研究人员解释模型或解释预测数据。虽然在基于特征的模型中普遍使用领域知识进行选择，但在其他建模方面应用较少。在冲击要素中的排序和排名是一个重要的未来研究方向。 “`

Leave a Comment

伦敦大学学院的研究人员介绍了DSP-SLAM：一种具有深度形状先验知识的面向对象的SLAM

Published November 30, 2023 by 四海吧

在人工智能（AI）的快速发展领域中，深度学习变得越来越受欢迎，并且进入到每个行业，使生活变得更加便利。SLAM（Simultaneous Localization and Mapping，同时定位与地图构建）是AI中的一个重要组成部分，它在机器人、无人驾驶汽车和增强现实系统中得到了革命性的进展。 SLAM涉及重建周围环境并同时估计移动相机的轨迹。SLAM具有一些令人难以置信的算法，能够精确估计相机轨迹并产生出色的几何重建。然而，仅凭几何表示无法为需要场景理解的更复杂任务提供重要的语义信息。目前使用的语义SLAM系统对场景中物体的特定细节推理（例如数量、大小、形状或相对姿态）是一个挑战。在最近的研究中，伦敦大学学院（University College London）计算机科学系的研究团队引入了最新的面向对象SLAM系统，名为DSP-SLAM。 DSP-SLAM旨在构建一个全面而精确的联合地图；前景物体由密集的3D模型表示，而背景则由稀疏的地标点表示。该系统甚至可以很好地配合单目、双目或双目+LiDAR输入模态。团队表示，DSP-SLAM的主要功能是接收由基于特征的SLAM系统产生的3D点云作为输入，并通过密集重建已经被识别的物体来增强其稀疏地图的能力。使用语义实例分割来检测物体，并使用类别特定的深度形状嵌入作为先验来估计这些物体的形状和姿态。团队表示，DSP感知束调整是该系统的主要特点，因为它用于创建姿态图，实现相机姿态、物体位置和特征点的联合优化。通过使用这种策略，系统可以改进和优化场景的表示，同时考虑背景地标和前景物体。该系统在多种输入模态（如单目、双目和双目+LiDAR）下以每秒10帧的速度运行，展示了令人印象深刻的性能。已经在多个数据集上对DSP-SLAM进行了测试，包括来自KITTI轨迹数据集的双目+LiDAR序列和来自Freiburg和Redwood-OS数据集的单目-RGB序列，以验证其功能。结果显示，即使在观测不完整的情况下，该系统能够产生出色的完整物体重建并保持一致的全局地图。研究人员总结了主要贡献如下： DSP-SLAM将面向对象SLAM的语义映射丰富性与基于特征的相机跟踪的准确性相结合，通过使用稀疏特征点重建背景，与先前只表示物体的方法形成对比。 DSP-SLAM在定量和定性方面都优于依赖于密集深度图像的方法，因为它使用仅RGB单目流而不是Node-SLAM，并且可以通过仅使用50个3D点来准确估计物体的形状。 DSP-SLAM在对象形状和姿态估计方面，在定量和定性方面都优于基于先验的自动标记技术。 KITTI轨迹数据集的实验结果显示，使用DSP-SLAM的联合束调整在轨迹估计方面优于ORB-SLAM2，尤其是在使用双目+LiDAR输入时。

Leave a Comment

鸭子AI推出DuckTrack：一款多模态计算机交互数据收集器

Published November 30, 2023 by 四海吧

准确追踪用户交互行为是促进计算机智能能力提升的基石。这项任务在开发和训练智能系统中起着至关重要的作用。这些系统的有效性取决于对用户交互行为的仔细检查和系统记录。 Duck AI的研究人员开发了DuckTrack，以准确记录各种输入，以便能够将这些数据用于正确训练计算机智能代理。DuckTrack通过与主要操作系统兼容的用户友好型桌面应用程序提供了一种同步收集鼠标、键盘、屏幕视频和音频数据的方法。此外，DuckTrack启动了社区数据收集倡议。这一开源努力邀请贡献者参与收集多样化的计算机交互数据。DuckTrack在所有主要操作系统上运行流畅，并且使用Python创建。DuckTrack的特色概述展示了其对鼠标和键盘动作的精确记录和回放能力。研究人员表示，将屏幕录制与OBS集成可以进一步提升其多功能性。对于DeepTrack，在绘图任务中结构相似性指数（SSIM）始终超过0.9。每个事件都以0.03ms ± 0.4ms的较低误差范围进行记录，超过了市场上现有跟踪器的准确性。DuckTrack在性能指标方面具有卓越的表现，这使其成为追求顶级跟踪和回放解决方案的可靠选择。但DuckTrack也存在某些限制。在回放过程中模拟双击或三击实际上是一个挑战，影响了这些动作的准确性。此外，DuckTrack无法记录触控板手势，并且在涉及原始信息（如游戏）的情况下存在一些限制。开发人员正在积极努力解决这些限制，并通过持续与社区互动来提高DuckTrack的功能。研究人员在不同系统上进行了DuckTrack的测试，包括运行macOS Sonoma 14.0的M2 Pro MBP 14以及运行PopOS! 22.10（基于Ubuntu）和Windows 10 22H2的Intel i7-10510U System76 Lemur Pro 9。他们在ReCAPTCHA任务上测试了DuckTrack，这是人类运动的代理，结论是它在十次尝试中表现出100％的成功率。虽然硬件差异可能会略微影响性能，但跨操作系统的准确性一致性强调了DuckTrack的可靠性。研究人员将很快宣布有关贡献和设置数据收集的详细指南，鼓励集体努力来改进和完善DuckTrack的功能。 DuckTrack在收集计算机交互数据方面被证明是一项革命性的工具。凭借对精度的执着、不断的社区参与和对改进的重视，DuckTrack成为寻求卓越回放和跟踪功能的个人和企业的首要选择。DuckTrack正在为更精密和无缝的多模式计算机交互体验铺平道路。在此处下载适用于您的系统的预构建应用程序。

Leave a Comment

深度学习模型如何模仿大脑中的人类语音识别：解读听觉处理

Published November 30, 2023 by 四海吧

研究表明，将听觉数据转化为语言表示涉及到声音感知。当有人听到语音时，包括主要和非主要听觉皮层区域、听觉神经以及皮层下结构的听觉通路会被激活。由于环境条件和语言知觉单元的听觉信号会发生变化，自然语音知觉是一项艰巨的任务。尽管经典的认知模型能够解释许多语音知觉的心理特征，但在解释大脑编码和自然语音识别方面，这些模型还不够完善。深度学习模型在自动语音识别方面正接近人类的表现。为了提高人工智能模型的可解释性，并提供新的数据驱动的感知计算模型，加州大学旧金山分校的研究人员旨在将深度学习模型的计算和表示与人类听觉系统的神经反应相关联。它旨在识别人类听觉回路和最先进的语音神经网络模型之间的共同表示和计算。分析重点是与上行听觉通路中真实语音的神经反应相关联的深度神经网络（DNN）语音嵌入，并使用神经编码框架。详细比较了听觉回路和深度神经网络（DNN）模型的各种计算架构（卷积、循环和自注意）和训练过程（有监督和无监督目标）。此外，检查DNN的计算能提供有关神经编码预测的基本过程的信息。与之前针对单一语言（主要是英语）的建模尝试不同，他们在研究中使用了跨语言范式来揭示语音知觉的语言特定和语言不变特征。令人着迷的是，研究人员展示了最新的DNN如何紧密模拟人类听觉系统中的关键信息处理要素。当预测整个听觉通路中对真实语音的神经反应时，DNN的特征表示比基于理论驱动的声学-语音学特征集表现得更好。此外，他们还检查了深度神经网络（DNN）中基本的上下文计算。他们发现，完全无监督的自然语音训练是这些网络获取与语言相关的关键时间结构（如音素和音节上下文）的方式。这种获取特定于语言的语言信息的能力预测了非主要听觉皮层中DNN-神经编码的相关性。线性STRF模型无法揭示在跨语言知觉期间STG中的特定于语言的编码，而基于深度学习的神经编码模型可以。总之使用比较方法，研究人员展示了语音学习的深度神经网络（DNN）与人类听觉系统之间的重要的表征和计算相似性。从神经科学的角度来看，基于经典特征的编码模型在从统计结构中提取中间语音特征方面被数据驱动的计算模型所超越。通过与神经反应和选择性进行对比，他们为理解AI方面DNN的“黑箱”表示提供了一种方法。他们展示了如何使现代DNN可能选择类似于人类听觉系统信息处理方式的表示。根据研究人员的说法，未来的研究可以使用更广范围的AI模型和更大更多样的人群来调查和验证这些结果。本文发表在《解读听觉处理：深度学习模型如何在大脑中模拟人类语音识别》一文中，首发于MarkTechPost。

Leave a Comment

理解GPT-4V(ision)的概念：新的人工智能趋势

Published November 30, 2023 by 四海吧

OpenAI一直处于人工智能领域的最新进展前沿，拥有像GPT和DALLE这样高效的模型。GPT-3推出时是一种独特的模型，具有出色的语言处理能力，如文本摘要、句子补全等等。其继任者GPT-4的发布标志着我们与人工智能系统互动方式的重大转变，它提供了多模态能力，即能够处理文本和图像。为了进一步增强其功能，OpenAI最近发布了GPT-4V（ision），允许用户利用GPT-4模型分析图像输入。近年来，多模态LLM的发展越来越多，这些模型能够处理不同类型的数据。GPT-4就是这样一种模型，它在许多基准测试中展示了与人类水平相媲美的成果。GPT-4V（ision）建立在GPT-4现有特性的基础上，提供可视化分析以及现有的文本交互特性。使用上限，需要通过订阅GPT-Plus才能访问该模型。此外，还必须加入API的等待列表才能获得访问权限。 GPT-4V（ision）的关键特性该模型的一些关键能力包括：它可以接受用户的视觉输入，如屏幕截图、照片和文档，并执行各种任务。它可以执行对象检测，并提供有关图像中不同对象的信息。另一个引人注目的特点是它可以分析以图表、图形等形式表示的数据。此外，它能够阅读和理解图像中的手写文字。 GPT-4V（ision）的应用数据解释是GPT-4V（ision）最令人兴奋的应用之一。该模型能够分析数据可视化，并根据其提供关键洞见，从而提升数据专业人士的能力。该模型还可以根据网站设计编写代码，这有望极大加快网站开发的过程。 ChatGPT已被内容创作者广泛使用，以帮助他们克服缺乏灵感并快速生成内容。然而，GPT-4V（ision）的出现将事情推向了一个完全不同的水平。例如，我们首先可以使用该模型创建提示以生成DALLE 3的图像，然后使用该图像写博客。该模型还可以帮助处理多种条件处理（如分析停车情况）、解密图像中的文本、对象检测（以及对象计数和场景理解等任务）等。该模型的应用不限于上述提到的点，几乎可以应用于各个领域。 GPT-4V（ision）的局限性尽管该模型具有高度的能力，但需要记住它容易出现错误，并且有时可能基于图像输入产生不正确的信息。因此，在处理数据解释时应避免过度依赖，并且在复杂推理的领域，例如数独问题，GPT-4可能面临挑战。隐私和偏差是使用该模型所涉及的另一组主要问题。用户提供的数据可能被用于重新训练该模型。与其前身一样，GPT-4也会强化社会偏见和观点。因此，考虑到这些限制，处理高风险任务（如科学图像和医疗建议）时应避免使用GPT-4V（ision）。结论总之，GPT-4V（ision）是一种功能强大的多模态LLM，为人工智能能力树立了新的标杆。通过处理文本和图像的能力，它为使用人工智能的应用开辟了新的可能性。尽管仍然存在一些局限性，但OpenAI一直在努力使该模型安全可用，我们可以将其用于增强分析能力，而不是完全依赖它。本文《理解GPT-4V（视觉）的概念：新的人工智能趋势》首次出现在MarkTechPost。

Leave a Comment

这项来自麻省理工学院和Meta AI的AI研究揭示了一种创新且价格实惠的先进手持物体重定向机器人控制器

Published November 30, 2023 by 四海吧

来自麻省理工学院和Meta AI的研究人员开发了一种物体重新定向控制器，可以利用单个深度摄像机实时重新定向各种形状的物体。这项开发所解决的挑战是需要一个多功能且高效的物体操纵系统，能够适应新条件，而无需保持不同物体之间关键点的一致姿态。该平台还可以拓展至其他熟练操纵任务，未来研究还在进一步改进方面存在机会。目前用于物体重新定向研究的方法存在一些局限性，例如侧重特定物体、操纵范围有限且操纵速度慢、依赖昂贵的传感器以及只能产生模拟结果。这些方法必须有效地解决从模拟环境到真实环境的转移挑战。成功率通常由误差阈值决定，而该阈值因任务而异。学生视觉策略网络已经经过训练，以解决这些局限性，并且已经证明在数据集之间存在最小的泛化差距。本研究提出了一种提高机器手灵活性的方法，解决了手中物体重新定向的挑战。以往的方法会施加限制，并需要昂贵的传感器，从而限制了它们的多功能性。为了克服这些限制，通过强化学习在模拟环境中训练了一个控制器，并成功地实现了对新形状的真实世界泛化。还讨论了使用视觉输入训练控制器和实现有效的模拟到真实环境转换的挑战。所提出的方法涉及利用强化学习在模拟环境中训练基于视觉的物体重新定向控制器，然后直接在真实世界中进行零样本转移。训练使用具有增强容量的卷积网络和门控循环单元，在Isaac Gym物理模拟器的桌面设置中进行。奖励函数包括成功标准和额外的形状术语。为了评估该方法的有效性，进行了在3D打印和真实世界物体上的测试，并基于误差分布和成功率对比模拟和真实世界的结果，以定义的阈值进行评估。在真实世界上，单个在模拟中训练的控制器成功地重新定向了150个物体，并在三指和修改后的四指D’Claw操纵器上实现了实时性能，使用了标准工作站以12 Hz的速度。采用OptiTrack运动捕捉系统进行的评估展示了其准确的物体重新定向能力，并且能够推广到新的物体形状上。通过对误差分布和成功率在定义的阈值内的分析，证明了该系统在解决模拟到真实世界转换的挑战和潜在精度改进方面的有效性，而无需额外假设。总之，该研究成功地通过强化学习开发了一个能够在真实世界中有效重新定向物体的实时控制器。尽管系统的中位重新定向时间约为七秒，但它引发了关于在重新定向任务中形状信息的重要性的问题。它强调了从模拟结果到真实世界的转移挑战。尽管存在这些挑战，该控制器在手中灵巧操纵方面具有潜在应用，特别是在不太结构化的环境中，并强调了在不做额外假设的情况下需要精度改进的需求。未来研究的一个潜在方向是探索如何将形状特征纳入控制器，特别是在精细操纵和对新形状的泛化方面，这可能会提高控制器性能。值得探索通过视觉输入进行训练的可能性，这可以解决当前依赖于完整状态信息模拟的强化学习控制器的局限性。最后，与先前作品的比较研究可以帮助将研究结果置于现有文献中的背景中，并且还需要进一步研究使用开源硬件进行灵巧操纵的问题。

Leave a Comment

“Bing聊天如何在提供最新实时知识方面超越ChatGPT？认识检索增强生成（RAG）技术”

Published November 29, 2023 by 四海吧

随着近年来大语言模型（LLMs）的发展，这些模型在人工智能和机器学习领域带来了范式转变。这些模型引起了大众和人工智能社区的极大关注，推动了自然语言处理、生成和理解方面的显著进展。最著名的LLM示例是基于OpenAI的GPT架构的ChatGPT，它已经改变了人类与基于AI技术的科技互动方式。虽然LLMs在文本生成、问答、文本摘要和语言翻译等任务中显示出强大的能力，但它们仍然有自己的缺点。这些模型有时会产生形式不准确或过时的输出信息。甚至缺乏正确的来源归属也会使验证LLMs生成的输出的可靠性变得困难。什么是检索增强生成（RAG）？一种称为检索增强生成（RAG）的方法解决了上述限制。RAG是一种基于人工智能的框架，它从外部知识库中收集事实，让大语言模型获得准确和最新的信息。通过集成外部知识检索，RAG已经能够改变LLMs。除了精确性，RAG通过透明地揭示LLMs的生成过程细节，为用户提供透明度。RAG解决了传统LLMs的局限性，通过平稳地结合外部检索和生成方法，确保了更可靠、具有上下文意识和知识的基于人工智能的通信环境。 RAG的优势提高响应质量 – 检索增强生成着眼于LLM生成的响应不一致性问题，保证更准确和可信的数据。获取最新信息 – RAG将外部信息集成到内部表示中，以确保LLMs获得当前和可信的事实。它确保答案建立在最新知识之上，提高模型的准确性和相关性。透明度 – RAG的实施使用户能够检索基于LLMs的问答系统中模型的来源。通过使用户能够验证陈述的完整性，LLM促进了透明度，并增加了对其提供的数据的信心。减少信息丢失和产生虚像 – RAG通过基于独立、可验证的事实建立LLMs，降低了模型泄漏机密信息或产生错误和误导性结果的可能性。它通过依赖更可靠的外部知识库，减少了LLMs对信息的错误解释的可能性。降低计算开销 – RAG减少了对不断变化的条件进行参数调整和训练的需求。它减轻了财务和计算压力，提高了LLM驱动的聊天机器人在商业环境中的成本效益。 RAG如何工作？检索增强生成（RAG）利用所有可用的信息，如结构化数据库和非结构化材料（如PDF）。这些异构材料被转换成一种通用格式，并组装成一个知识库，形成一个生成人工智能系统可以访问的存储库。关键的一步是使用嵌入语言模型将该知识库中的数据转换为数字表示。然后，使用具有快速高效搜索功能的向量数据库来存储这些数字表示。一旦生成人工智能系统发出提示，这个数据库可以快速检索到最相关的上下文信息。 RAG的组成部分…

Continue reading

Leave a Comment

Web Analytics