Press "Enter" to skip to content

四海吧 Posts

未来人工智能将如何与医疗账单员相互补充?

在我们迅速发展的数字时代,医疗行业对变革并不陌生在突破性技术的影响下,传统的医疗程序正在稳定地转变在这些创新中,人工智能(AI)作为一个强大的改变游戏规则者,正在塑造医疗账单等多个专业领域的未来本篇旨在探讨AI在未来如何补充医疗账单员的作用阅读更多 »

Leave a Comment

现代生成式人工智能应用中的矢量数据库的作用

为了使大规模生成性AI应用程序能够良好运行,需要一个能够处理大量数据的良好系统其中一个重要的系统是向量数据库该数据库的特殊之处在于它能够处理多种类型的数据,例如文本、声音、图片和视频,并以一种数字/向量形式存储什么是向量数据库?向量数据库[…]

Leave a Comment

UCSD和字节跳动的研究人员展示了ActorsNeRF:一种新颖的可动画人类角色NeRF模型,可以在几个样本的情况下推广到未见过的角色

神经射线场(NeRF)是一种基于神经网络的强大技术,用于从2D图像或稀疏3D数据中捕捉3D场景和物体。NeRF采用由两部分组成的神经网络架构:“NeRF in”网络输入像素的2D坐标和相关的相机姿势,生成一个特征向量。“NeRF out”网络以此特征向量作为输入,并预测相应3D点的3D位置和颜色信息。 要创建基于NeRF的人物表现,通常需要从多个视点捕捉人物主题的图像或视频。这些图像可以来自相机、深度传感器或其他3D扫描设备。基于NeRF的人物表现有几个潜在的应用,包括游戏和虚拟现实的虚拟化形象、动画和电影制作的3D建模,以及用于创建患者的三维模型进行诊断和治疗计划的医学成像。然而,这可能需要大量的计算资源和训练数据。 它需要结合同步多视图视频和针对特定人体视频序列进行训练的实例级NeRF网络。研究人员提出了一种新的表示方法称为ActorsNeRF。它是一种类别级的人类角色NeRF模型,可以泛化到少量瞬间情境中的未见主角。只需从单眼视频中采样得到几张图像,例如30帧,ActorsNeRF可以在AIST++数据集中合成具有未见姿势的新角色的高质量新视图。 研究人员遵循了2级规范空间的方法,对于给定的身体姿态和渲染视点,3D空间中的采样点首先通过线性混合蒙皮转换为规范空间,蒙皮权重通过在各种人物之间共享的蒙皮权重网络生成。蒙皮权重控制角色表示人物动画时的变形。蒙皮权重网络在实现3D计算机图形中的逼真角色动作和变形方面至关重要。 为了实现对不同个体的泛化,研究人员对多样化的个体集合进行了类别级NeRF模型的训练。在推理阶段,他们只使用目标演员的少量图像对预训练的类别级NeRF模型进行微调,使其适应演员的特定特征。 研究人员发现ActorsNeRF明显优于HumanNeRF方法,并且相较于HumanNeRF系统,它在更不可见的身体部分上保持了有效的形状。ActorsNeRF可以在流畅合成人体的未观察部分之前利用类别级信息。当ActorsNeRF在ZJU-MoCap和AIST++数据集等多项基准测试中进行测试时,它能在多个少量瞬间情境中优于具有未见姿势的新角色。

Leave a Comment

探索社交虚拟现实:超越虚拟现实的基础

介绍 欢迎来到从商业角度探索社交虚拟现实(Social VR)和虚拟角色。社交虚拟现实可以让你在虚拟空间中像面对面那样互动,而虚拟角色则给这个数字世界增添了个性。企业应该关注它们,因为它们有助于全球连接、降低成本和个性化体验。虚拟现实的未来光明,硬件进步、人工智能整合和元宇宙的出现为商业提供了新的机会。 这些技术不仅局限于娱乐,还应用于教育和医疗领域。然而,硬件兼容性和数据隐私等技术挑战必须得到解决。在这个探索中,我们将揭示一个充满可能性的世界,并探讨使用虚拟现实时的道德考虑。 学习目标: 了解社交虚拟现实的概念及其在商业应用中的潜力。 探索逼真度、定制化和个性化在创造沉浸式虚拟体验中的作用。 认识社交虚拟现实在教育和医疗领域的影响,作为其转变潜力的实际案例。 什么是社交虚拟现实? 首先,让我们了解一下社交虚拟现实和虚拟角色是什么。想象一下,进入一个数字领域,在那里你可以与他人进行互动,就像他们就在你身边一样。这就是社交虚拟现实的本质,它是一个提供共享体验、互动和参与的虚拟空间。就像是终极的虚拟聚会场所,你和同事或朋友可以聊天、玩游戏、参加活动,甚至进行商务会议,同时沉浸在数字环境中。 那么,虚拟角色又是什么?它们是你在社交虚拟现实和其他虚拟环境中遇到的数字存在。它们有各种形态,一些由先进的人工智能算法驱动,而其他一些则代表真实个体。这些角色在虚拟体验中充当你的导游、伙伴或对手,给数字世界增添了个性和生命力。 但为什么企业应该关注社交虚拟现实和虚拟角色呢?因为它们在商业世界中具有巨大的潜力。它们不仅仅是娱乐工具,更是增长工具,使企业能够与全球受众建立联系、降低成本并建立有意义的连接。让我们来探索一下如何做到这一点。 元宇宙中的商业机会 想象一下,进入一个数字领域,在那里你可以与他人进行互动,就像他们就在你身边一样;这就是社交虚拟现实或Social VR的本质。它是一个虚拟聚会场所,你和朋友或同事可以聊天、玩游戏,甚至参加活动,同时沉浸在数字环境中。但为什么企业要关注这种数字娱乐呢?因为社交虚拟现实和虚拟角色提供了重要的商业机会。 逼真度和互动在社交虚拟现实中的作用 在社交虚拟现实中,逼真度和互动水平对于创造令人难忘的体验至关重要。环境和互动越真实,用户的参与感和沉浸感就越强。这种沉浸式的体验是社交虚拟现实与传统在线沟通方式(如视频通话或聊天)的区别所在。企业可以利用这种逼真度来构建品牌体验,建立客户信任,并建立有意义的联系。 虚拟世界中的定制化和个性化 在社交虚拟现实中,你有能力创建自己的数字身份。无论你是想成为科幻英雄、神秘生物,还是简单地展现自己的精致形象,你都可以相应地塑造你的虚拟形象。企业利用这种定制化能力,根据个人偏好量身定制虚拟体验,使每位客户感到独特的价值。提供全天候可用性和多语言支持的能力还可以增强客户参与度和包容性。 案例研究:社交虚拟现实在教育中的成功应用 现在,让我们深入了解社交虚拟现实如何产生影响的真实例子。虚拟现实有潜力彻底改变教育,使学习更具沉浸感和吸引力。想象一下,带领学生进行虚拟旅程,探索历史事件或海洋生态系统,甚至走进细胞中了解生物。可能性是无限的。 在一个YouTube视频中,我们可以看到虚拟现实在教育中的各种应用: 纪录片:通过沉浸式的虚拟现实纪录片,学生可以更深入地了解各种科学和社会问题,通过亲身体验内容。 虚拟旅行:学生可以在虚拟世界中环游世界,探索不同的城市和自然奇观,拓宽视野而不离开教室。 艺术和创造性:虚拟现实使学生可以在三维空间中与艺术互动和创作,培养创造力和对艺术表达的深层连接。…

Leave a Comment

谷歌研究人员在JAX上推出了一个用于在球面上进行深度学习的开源库

深度学习是机器学习的一个子集,可以自动从输入中学习复杂的表示。它的应用广泛应用于图像和语音识别、自然语言处理、物体检测和医学影像诊断等众多领域;金融领域的算法交易和欺诈检测;使用卷积神经网络进行实时决策的自动驾驶车辆;以及个性化内容的推荐系统。 卷积神经网络(CNN)和视觉变换器(ViT)是计算机视觉领域的深度学习模型的两个例子,可以通过假设平面(平坦)区域来分析信号。例如,数字照片被呈现为平面表面上的像素网格。然而,这种数据类型仅代表科学应用中遇到的各种数据的一小部分。 然而,使用平面方法处理球面信号可以改善一些问题。首先,存在采样问题,即无法在球面上定义均匀的网格,这对于平面CNN和ViT是必要的,而且可能造成严重的扭曲。其次,球面上的旋转经常会混淆信号和局部模式。为了确保模型准确学习特征,我们需要对3D旋转具有等变性。因此,模型参数的使用更加有效,可以使用更少的数据进行训练。 从直观上讲,球面CNN应该对分子属性预测和气候预测问题有益处。分子的内在属性对3D结构(原子位置)的旋转不变,因此旋转等变表示将为编码这种对称性提供一种自然的方式。 因此,研究人员基于JAX开发了一个面向球面的深度学习开源库。它在分子属性预测和天气预测的基准测试中优于现有技术结果,这些测试通常由变压器和图神经网络处理。 研究人员指出,这些模型能够解决采样和旋转稳健性的问题。这是通过利用球面卷积和互相关运算来实现的。球面CNN在医学研究和气候分析这两个关键领域中具有潜在的应用前景,有望推动社会的变革性进展。 球面CNN在应对预测化学性质和理解气候状态等挑战方面具有理论上的优势。利用旋转等变表示特别适用于捕捉分子结构的固有对称性,其中属性对于3D旋转(原子位置)是不变的。 由于大气数据自然地以球面显示,球面CNN非常适合这个任务。它们还可以有效地管理该类数据中的重复模式的各个位置和方向。 研究人员表示,他们的模型在一些天气预测基准测试上超过或与基于传统CNN的神经天气模型相匹配。该模型可以提前六小时预测多个大气变量的数值,并在测试环境中展示了相关结果。随后,模型在训练期间可进一步评估高达五天的预测并进行三天的预测。 此外,该模型在各种天气预测场景中表现出色,证明了球面CNN作为神经天气模型的有效性,这是一项突破性的成就。该研究概述了扩展球面CNN的最佳策略,并提供了实际数据来支持其在特定应用中的适用性。

Leave a Comment

麻省理工学院的一项新的机器学习研究表明,大型语言模型(LLM)是如何理解和表示空间和时间概念的

大型语言模型(LLM)在最近展现出了一些令人难以置信的能力。著名的ChatGPT是基于GPT的转换器结构构建的,因其模仿人类特点的能力而广受欢迎。从问答和文本摘要到内容生成和语言翻译,它具有许多用途。由于它们的极高人气,这些模型在训练期间真正学到了什么是值得质疑的。 根据一种理论,LLM在察觉和预测数据中的模式和相关性方面非常出色,但在理解产生数据的基本机制方面则存在不足。从原则上讲,它们类似于非常有能力的统计引擎,尽管实际上可能并没有理解力。另一种理论认为,LLM学习相关性,并且构建了更加简洁、连贯和可理解的底层训练数据生成过程模型。 最近,两位来自麻省理工学院的研究人员对大型语言模型进行了研究,以更好地了解它们的学习方式。研究特别探讨了这些模型是否真正构建了一个连贯的底层数据生成模型,通常称为“世界模型”,或者它们只是记忆了统计模式。 研究人员使用探测测试来分析一系列LLM Llama-2模型,创建了涵盖不同时空尺度的六个数据集,包括地名、事件以及相关的空间或时间坐标。这些数据库中的位置涵盖了整个世界,包括美国纽约市、艺术和娱乐作品首次发布的日期,以及新闻头条首次发布的日期。他们对LLM层的内部激活使用线性回归探测来研究LLM是否创建了空间和时间的表示。这些探测预测了与每个数据集名称对应的真实世界中的精确位置或时间。 研究表明,LLM在不同尺度上学习了空间和时间的线性表示。这意味着模型以结构化和有序的方式学习了空间和时间的相关性和模式。它们以一种有条不紊的方式理解和把握了空间和时间中的关系和模式,而不仅仅是记忆数据项。研究还发现,LLM的表示对指令或提示的变化是具有弹性的。即使信息提供的方式不同,模型仍然始终展示了对空间和时间信息的良好理解和表示。 根据该研究,这些表示并不仅局限于特定的实体类别。城市、地标、历史人物、艺术品或新闻头条在空间和时间上均被LLM统一地表示,由此可以推断出模型对这些维度产生了综合性的理解。研究人员甚至发现了特定的LLM神经元,他们称之为“空间神经元”和“时间神经元”。这些神经元准确地表示了空间和时间坐标,证明了模型中存在专门处理和表示空间和时间的组件。 总之,这项研究的结果强化了当代LLM超越机械记忆统计数据的观点,而是学习了关于重要维度(如空间和时间)的结构化和有意义的信息。可以明确地说,LLM不仅仅是统计引擎,它们能够表示训练数据背后的数据生成过程的底层结构。

Leave a Comment

新 – 现在在Amazon SageMaker Canvas中提供无代码生成AI能力

上线于2021年的Amazon SageMaker Canvas是一个视觉化、点对点服务,允许业务分析师和市民数据科学家使用现成机器学习(ML)模型,并构建自定义ML模型生成准确的预测,无需编写任何代码现成模型使您能够从文本、图像和文档中立即获取洞察力

Leave a Comment