Press "Enter" to skip to content

四海吧 Posts

这项人工智能研究揭示了照片SLAM:提升便携式设备上的实时逼真地图制作水平

在计算机视觉和机器人技术中,使用相机进行同时定位与地图构建(SLAM)是一个关键的主题,旨在使自主系统能够导航并理解其环境。传统SLAM系统主要强调几何映射,可以产生精确但审美基础的环境表示。然而,最近神经渲染的进步表明,可以将逼真的图像重建融入SLAM过程中,从而提高机器人系统的感知能力。 现有方法在很大程度上依赖于隐式表示,使其计算要求高,并且不适用于资源受限的设备上部署,尽管神经渲染与SLAM的融合产生了有希望的结果。例如,ESLAM使用多尺度紧凑的张量组件,而Nice-SLAM使用分层网格来保存反映环境的可学习特征。随后,它们合作估计相机位置并通过减少多条射线样本的重建损失来增加特征。优化过程非常耗时。因此,为了确保有效的收敛,它们必须集成来自多个源的相关深度信息,例如RGB-D相机、密集光流估计器或单目深度估计器。此外,由于多层感知器(MLP)解码隐式特征,通常需要精确指定边界区域以规范射线采样以取得最佳结果。这限制了系统的潜力扩展。这些限制表明,在使用便携式平台进行SLAM实时探索和未知区域的建图能力中,无法实现其中一个主要目标。 在本文中,香港科技大学和中山大学的研究团队提出了Photo-SLAM。这个新颖的框架在解决目前方法的可扩展性和计算资源限制的同时,执行在线逼真的建图和精确的定位。研究团队跟踪一张点云的超基本地图,其中包括旋转、缩放、密度、球谐系数和ORB特征。通过在原始图片和渲染图片之间反向传播损失,超基本地图使系统能够学习相应的映射并使用因子图求解器优化跟踪。而不是使用射线采样,采用三维高斯喷洒来生成图像。虽然引入三维高斯喷洒渲染器可以降低视角重建的成本,但在在线增量建图中无法产生高保真度的渲染,特别是在单目情况下。此外,研究团队提出了一种基于几何的加密技术和基于高斯金字塔(GP)的学习方法,以实现无需依赖密集深度信息的高质量建图。 图1:Photo-SLAM是一种革命性的实时框架,支持RGB-D、立体和单目相机进行同时定位和逼真地图构建。它的渲染速度高达每秒1000帧,可以重建高保真度的场景视图。 重要的是,GP学习使得多级特征逐渐获取变得更加容易,显著提高了系统的建图性能。研究团队在其漫长的试验中使用了各种由RGB-D、立体和单目相机拍摄的数据集来评估他们提出的方法的有效性。实验结果清楚地表明,PhotoSLAM在渲染速度、逼真地图质量和定位效率方面达到了最先进的性能。此外,Photo-SLAM系统在嵌入式设备上的实时操作展示了它在有用的机器人应用中的潜力。图1和图2显示了Photo-SLAM的操作概述。 图2:显示了Photo-SLAM的四个关键组成部分,它维护一个具有超基本元素的地图,包括定位、显式几何映射、隐式逼真映射和闭环组件。 本作品的主要成果如下: • 研究团队基于超原生地图和同时定位技术创建了首个逼真的测绘系统。这个新的框架适用于室内和室外的单目、双目和RGB-D相机。 • 研究团队提出了使用高斯金字塔学习的方法,使得模型能够有效快速地学习多层次的特征,从而实现高保真度的测绘。该系统即使在嵌入式系统上也能以实时速度运行,并通过完全的C++和CUDA实现实现了最先进的性能。代码将公开提供。

Leave a Comment

上海人工智能实验室和麻省理工学院的研究人员公布了层次化门控循环神经网络(RNN):高效长期依赖建模的新领域

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-05-at-3.51.10-PM-1024×594.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-05-at-3.51.10-PM-150×150.png”/><p>上海人工智能实验室和MIT CSAI的研究人员开发了层次化门控循环神经网络(HGRN)技术,它通过将遗忘门加入线性RNN中,解决了增强序列建模的挑战。其目的是使上层能够捕捉长期依赖关系,同时允许下层专注于短期依赖关系,特别是处理非常长的序列时。</p><p>该研究探讨了Transformers在序列建模中的优势,由于并行训练和长期依赖能力,但同时也注意到了使用线性RNN进行高效序列建模的兴趣再度增加,强调了遗忘门的重要性。它考虑了线性递归和长卷积作为处理长序列的自注意力模块的替代方法,并强调了长卷积中的挑战。论文还探讨了RNN在建模长期依赖性和使用门控机制方面的局限性。</p><p>序列建模在自然语言处理、时间序列分析、计算机视觉和音频处理等各个领域都至关重要。在Transformers问世之前,RNN经常被使用,但面临训练速度慢和建模长期依赖关系的挑战。Transformers在并行训练方面表现出色,但对于长序列具有二次时间复杂度。</p><p>该研究提出了用于高效序列建模的HGRN模型,由具有令牌和通道混合模块的堆叠层组成。线性递归层中的遗忘门使得上层能够建模长期依赖性,而下层能够建模局部依赖性。令牌混合模块采用了受状态空间模型启发的输出门和投影。门控机制和动态衰减率解决了梯度消失问题。在语言建模、图像分类和长距离基准测试中的评估结果表明了HGRN的高效性和有效性。</p><p>所提出的HGRN模型在自回归语言建模、图像分类和长距离基准测试中表现出色。在语言任务中,它优于高效变体的原始Transformer、基于多层感知机和基于RNN的方法,与原始Transformer的性能相当。在常识推理和Super GLUE等任务中,它在使用更少令牌的情况下与基于Transformer的模型相匹配。HGRN在处理长期依赖性方面在长距离基准测试中取得了有竞争力的结果。在ImageNet-1K图像分类中,HGRN优于先前的方法(如TNN和原始Transformer)。</p><p>总之,HGRN模型在各种任务和模态中都证明了其高度有效性,包括语言建模、图像分类和长距离基准测试。其使用遗忘门以及对其值的下界设置使得对长期依赖关系的高效建模成为可能。在语言任务中,HGRN优于变体的原始Transformer、基于多层感知机和基于RNN的方法,并在ImageNet-1K图像分类中表现出色,超过了TNN和原始Transformer等方法。</p><p>HGRN模型的未来发展方向包括在各个领域和任务中进行广泛的探索,以评估其泛化能力和有效性。研究不同超参数和架构变化的影响旨在优化模型的设计。通过评估额外的基准数据集并与最先进的模型进行比较,可以进一步验证其性能。将探索辅助注意力或其他门控机制等潜在改进方法,以增强对长期依赖关系的捕捉。将研究更长序列的可扩展性以及并行扫描实现的益处。对可解释性的进一步分析旨在深入了解决策过程并提高透明度。</p>

Leave a Comment

日内瓦大学的研究人员调查了一种基于图形的机器学习模型,用于预测多重耐药(MDR)肠道杆菌感染住院风险

机器学习在医疗保健领域已经成为一种非常重要的工具,革新了该行业的各个方面。其中之一的主要应用是诊断,机器学习算法分析包括医学图像、基因信息和患者记录在内的大量数据集,以识别模式并进行准确预测。 以前,机器学习模型被用于检测易感染患者并支持感染预防和控制(IPC)计划。这些模型使用了定期收集的大量医学数据,包括电子健康记录(EHR)。虽然经典的机器学习模型在有限的使用案例中可能会显示出有效的结果,但它们无法推广到大规模和长期的EHR数据。 日内瓦大学的研究人员在医疗技术方面取得了突破性进展。他们在医疗保健领域使用了图神经网络(GNN)来检测抗菌药物耐药性(AMR)和多药耐药性(MDR)的肠道杆菌感染。 肠道杆菌通常存在于健康人的肠道中,但如果它们在其他部位定殖并引起感染,对健康非常危险。许多因素导致了医疗环境中这些病原体的增多。 研究人员通过使用图结构对患者和医务人员之间的相互作用进行建模,其中节点及其相互作用形成了描述患者的边。然后,使用图神经网络(GNN)模型对富含临床和时空特征的患者网络进行训练,以学习定植模式。 来自日内瓦大学的教授道格拉斯·特奥多罗表示,核心目标是对医疗环境中的复杂相互作用进行建模,以预测医疗相关感染(HAIs)的传播。该预测结合了关于患者和医务人员的网络信息。他还表示,该研究最重要的信息是分析医疗网络相互作用以提高对HAIs的预测的潜力。该方法可能显著推动医疗环境中的感染预防和控制技术。 特奥多罗还表示,鉴于该方法的基于数据驱动的方法,他们预计其适用性可扩展到具有类似传播动态的其他病原体和各种医疗环境。 该研究包括一个名为基于图的医院感染预测的图片,展示了团队如何应用图神经网络来模拟传播多药耐药性肠道杆菌的复杂模式。该研究旨在改变医院预测和处理感染风险的方式。 这些模型使用了用于重症监护中心的医学信息市场(MIMIC-III)数据集进行训练和评估,并与传统的机器学习基准进行比较。值得注意的是,与基准模型相比,GNN模型在对抗菌敏感(AMS)、AMR和MDR肠道杆菌的早期检测方面表现更好。 研究人员测试了该模型,并发现在使用时空特征识别出由耐万古霉素的肠球菌定植的患者时,接收器操作特性曲线下方的面积(AUROC)性能超过88%。研究人员发现,GNN模型在接收器操作特性曲线下方的面积(AUROC)方面的表现范围为0.91到0.96。这种性能比逻辑回归基准高8%,基准得分为0.88。

Leave a Comment

使用由Amazon Comprehend创建的自定义元数据,通过Amazon Kendra智能地处理保险理赔事务

结构化数据是按照固定模式进行定义的数据,例如存储在数据库中的列信息;而非结构化数据则没有具体的形式或模式,例如文本、图像或社交媒体帖子等这两种数据类型不断增长,因为它们被各种组织所生产和使用例如,根据国际数据公司(IDC)的统计,[…]

Leave a Comment

使用亚马逊SageMaker数据并行库实现更快的训练

在过去一年中,大型语言模型(LLM)的训练变得越来越流行,因为发布了一些公开可用的模型,如Llama2,Falcon和StarCoder现在,顾客们正在训练规模空前的LLM,参数数量从10亿到超过1750亿不等训练这些LLM需要大量的计算资源和时间,通常需要数百台机器并运行数周甚至数月

Leave a Comment

巴文·沙阿(Bhavin Shah)是Moveworks的首席执行官和创始人——硅谷,企业家之旅,AI扩展挑战,创新文化,战略伙伴关系,克服监管障碍,用户AI交互,企业未来愿景

在这个富有洞察力的采访中,我们探索了Moveworks的首席执行官兼创始人Bhavin Shah的创业之旅 Bhavin详细讲述了他在硅谷的根源,包括与Steve Wozniak的难忘邂逅,如何让他走上创办Moveworks的道路对话涵盖了他职业生涯的各个阶段,从最初的风险投资到…Moveworks的首席执行官和创始人Bhavin Shah——硅谷,创业之旅,人工智能规模化挑战,创新文化,战略合作伙伴关系,克服监管障碍,用户与人工智能的互动,企业的未来愿景 阅读更多 »

Leave a Comment

人工智能和工作的未来:在人工智能时代进行员工再培训

“AI正在改变我们的工作方式,而且发展速度比您想象的要快每周已经有超过1亿用户使用ChatGPT,并且超过一半的员工表示他们在工作中使用AI工具虽然毫无疑问AI将帮助某些人更好地完成工作,但也有许多人[…]”

Leave a Comment

彼得·王,Anaconda首席执行官兼联合创始人——访谈系列

Peter Wang是Anaconda的CEO兼联合创始人在创办Anaconda(前身为Continuum Analytics)之前,Peter在软件设计和开发领域拥有15年经验,在包括3D图形、地球物理学、大数据模拟和可视化、金融风险建模以及医学影像学等广泛领域进行工作作为PyData社区和会议的创始人之一,[…]

Leave a Comment

这篇AI论文提出了“伟大的倡议”道德框架:以军事启发的方法来确保医疗中负责任的人工智能

一组来自匹兹堡大学、威尔·康奈尔医学院、远程医疗与先进技术研究中心、统一服务大学、布鲁克陆军医学中心和匹兹堡医疗中心的研究人员,对健康领域中生成性人工智能的伦理原则进行了研究,特别关注透明度、偏见建模和伦理决策问题。 他们提出了一个名为GREAT PLEA原则的框架,代表着治理性、可靠性、公平性、问责制、可追溯性、隐私性、合法性、移情和自律性。 该框架倡导积极采纳和扩大这些原则在健康领域中,以应对从生成性人工智能整合中可能出现的伦理困境。 该研究将军事和医疗服务进行了对比,强调了迅速决策的共同需求。它探讨了生成性人工智能在健康领域的变革潜力,承认了透明度和偏见等伦理关切。它引入了军事伦理所启发的实践框架,旨在积极应对生成性人工智能与健康领域整合中的伦理挑战,强调治理、公平和移情在决策过程中的重要性。 人工智能在军事和医疗等各个领域的不断发展,凸显了伦理考虑的必要性。它提及了美国国防部和北约对军事人工智能伦理的披露。探索人工智能对医疗的影响,包括潜在的临床部门替代品,它重点关注生成性人工智能的变革潜力。它强调了健康领域中生成性人工智能缺乏特定伦理原则的现状,强调了军事和医疗部门在人工智能优先事项上的汇聚。 该研究提出了源于军事的生成性人工智能伦理原则。通过对比军事和医疗领域中的伦理关切,形成了GREAT PLEA原则,解决了治理性、可靠性、公平性、问责制、可追溯性、隐私性、合法性、移情和自律性等问题。研究人员强调透明度和文档记录的重要性,强调对健康领域中生成性人工智能系统的最终用户进行教育,确保对能力和限制的了解,以优化信任和伦理使用。研究团队还强调了提升医疗中人类创造力、生产力和问题解决能力的道德意义,同时改善患者护理。 总之,该研究建议以军事为灵感,提出了一个名为GREAT PLEA的伦理原则框架,将生成性人工智能融入到健康领域中。该框架强调了透明度、文档记录和可追溯性在增强信任和维护健康实践中的伦理标准的重要性。教育最终用户并积极应对生成性人工智能中的伦理挑战,以改善患者护理至关重要。 本文来自这篇人工智能论文提出了“GREAT PLEA”伦理框架:用于负责任的医疗人工智能的军事灵感方法,最早发表于MarkTechPost。

Leave a Comment

CMU研究人员揭示了扩散-TTA 通过生成反馈提升有区分性的人工智能模型,实现无与伦比的测试适应性

扩散模型用于从复杂的数据分布中生成高质量的样本。鉴别性扩散模型旨在利用扩散模型的原理来进行分类或回归等任务,其中目标是预测给定输入数据的标签或输出。通过利用扩散模型的原理,鉴别性扩散模型具有处理不确定性、对噪声的稳健性和捕捉数据之间复杂依赖关系的潜力等优势。 生成模型可以通过量化新数据点与学习到的数据分布的偏差来识别异常或异常值。它们可以区分正常和异常数据实例,有助于异常检测任务。在传统上,这些生成和鉴别模型被视为相互竞争的选择。卡内基梅隆大学的研究人员在推理阶段将这两个模型耦合起来,以利用生成反演的迭代推理和鉴别模型的拟合能力的好处。 该团队构建了一种基于扩散的测试时间适应(TTA)模型,通过使用图像分类器、分割器和深度预测器的输出来调节图像扩散模型的条件并最大化图像扩散,从而使其适应各个未标记图像。他们的模型类似于编码器解码器架构。一个预训练的鉴别模型将图像编码为假设,如对象类别标签、分割地图或深度地图。这被用作预训练的生成模型的条件生成图像。 扩散-TTA能够有效地适应图像分类器在ImageNet及其变体等已建立基准上的内部和外部分布示例。他们使用图像重构损失对模型进行微调。通过将扩散似然梯度反向传播到鉴别模型权重,对测试集中的每个实例进行适应性处理。他们表明他们的模型优于以前的最先进TTA方法,并且在多个鉴别性和生成性扩散模型变体中都有效。 研究人员还对各种设计选择进行了剖析分析,并研究了扩散-TTA与扩散时间步长、每个时间步长样本数和批量大小等超参数的变化情况。他们还学习了适应不同模型参数的效果。 研究人员表示,扩散-TTA始终优于扩散分类器。他们猜测鉴别模型不会过度拟合生成损失,因为(预训练的)鉴别模型的权重初始化防止其收敛到这个平凡解决方案。 总之,以前已经使用生成模型对图像分类器和分割进行测试时间适应;通过在联合鉴别任务损失和自监督图像重构损失下共同训练扩散-TTA模型,用户可以获得高效的结果。

Leave a Comment

人类活动识别中的深度学习:这项AI研究利用树莓派和LSTM引入了自适应方法,以提高地点无关的准确性

Translate this HTML (keep the HTML code in the result) to Chinese: 人体行为识别(HAR)是一项研究领域,专注于开发基于来自各种传感器收集的数据自动识别和分类人类活动的方法和技术。HAR旨在使智能手机、可穿戴设备或智能环境等机器能够实时理解和解读人类活动。 传统上,使用可穿戴传感器和基于摄像头的方法。可穿戴传感器对用户来说不舒适且不方便。基于摄像头的方法需要侵入性安装,引发隐私问题。现有的HAR技术面临位置依赖性、对噪声敏感性以及在各种应用中识别多样化活动时需要更多灵活性等挑战,从智能家居到医疗保健和物联网(IoT)等应用。UTeM采用的方法提供了精确、适应性强且与位置无关的解决方案。 马来西亚梅尔卡大学(UTeM)的研究人员制定了一种人体活动识别(HAR)方法,以应对传统限制。他们引入了一种利用信道状态信息(CSI)和先进深度学习技术的系统。 该系统结合了信道状态信息(CSI)和长短时记忆(LSTM)网络。该系统提取无线通信信道状态的重要指标,实现实时分类和绝对位置无关的感知。LSTM网络通过对活动特征进行顺序学习,简化识别过程并适应不同人和环境中的活动变化。 研究人员强调,首先使用树莓派4和专用固件进行数据收集和预处理,以获取原始信道状态信息(CSI)数据,然后使用MATLAB进行优化,以提高质量和应用。 长短时记忆(LSTM)网络被用于从CSI数据中提取关键特征,从而实现对复杂人类活动的准确识别。他们对LSTM模型和分类流程进行了严格的训练,其中包括用于模式识别的在线阶段和用于增强性能的离线阶段。 该系统引入了使用LSTM算法的信号分割方法,以准确确定人类活动的起点和终点。 研究人员测试了该系统,并发现它在人类活动识别方面达到了令人印象深刻的97%的准确率。它展示了在适应新环境方面的能力,标志着HAR技术的重大进步。 研究人员强调了他们系统的卓越适应性。它可以轻松融入不同的环境,而无需进行大量的重新训练或主要更改。这种灵活性使其成为各个领域的实用解决方案,有效应对各种实际需求。这种方法代表了HAR技术的重大进步,具有在智能家居、医疗保健和物联网等多个行业产生重大影响的潜力。

Leave a Comment

2024年要使用的前5个生成AI库

介绍 在不断发展的技术领域中,人工智能(AI)已成为一股变革力量。从最初的基本算法到现代机器学习模型的复杂性,AI的发展之路确实是一场革命。现在,随着生成AI库在搜索中的出现,一个引人入胜的篇章展开了。但是,到底什么是genAI呢? 跨入未来,体验生成AI的魅力!与传统模型不同,genAI能够创建新的数据,重塑产业。像ChatGPT这样的工具引领着变革商业格局的道路。探索“2024年的前5个生成AI库”,揭示尖端AI工具的力量和潜力。从重新定义创新到革新用户体验,这些库标志着AI进化的前沿。让我们一起踏上这个激动人心的未来生成AI之旅! 什么是生成AI库? 生成AI库是生成人工智能的基石,作为预训练模型和算法的存储库。本质上,这些库赋予开发者和企业利用AI的创造潜力,而无需从头开始。通过提供学习模式和数据的基础,生成AI库可以生成各种输出,从文本和音乐到视觉。利用这些库可以简化开发过程,促进创新和效率。生成AI库使得广泛范围的应用和行业能够轻松获取先进的AI能力,实现了普惠性。 通过实践学习,提升你的生成AI技能。通过我们的GenAI Pinnacle Program,探索向量数据库在高级数据处理中带来的奇迹! 2024年使用的前5个生成AI库 1. Open AI OpenAI的API是生成AI中的一项突破性工具,为深入参与到生成AI领域的专业人士提供了一种变革性的解决方案。该API以灵活的“输入文本,输出文本”界面脱颖而出,允许生成AI专业人士将其无缝集成到日常工作和项目中。它对于几乎任何英语语言任务都具有适应性,为实验、开发和探索提供了广阔的空间。 该API在理解和执行任务时表现出色,只需少量示例即可。这是生成AI编程的直观选择,使专业人士能够简化工作流程,将精力集中在创造性输出上,而不是复杂的系统问题。该API的灵活性还包括通过任务特定训练来提高性能,使用户可以根据自己提供的数据集或反馈进行定制。OpenAI对简洁性的承诺确保了对广泛用户群体的易用性,而对技术的持续升级则表明了对快速发展的机器学习领域保持步伐的承诺。 此外,OpenAI对负责任的AI使用的强调在其对有害应用的谨慎监控和终止访问中体现出来。私人测试版的发布反映了对用户安全的承诺,并伴随着对语言技术与安全相关方面的持续研究。使用OpenAI的API的生成AI从业者创造了一个有力的工具,为积极的AI系统做出贡献。这个API不仅仅带来收入方面的效益,还推动了通用AI的进步,消除了障碍,推动着生成AI社区朝着无限可能的未来迈进。 2. PandasAI PandasAI是一款革命性的生成AI驱动的数据分析库,它重新塑造了生成AI专业人士日常任务的格局,为数据分析和处理带来了范式转变。建立在广泛使用的Pandas库的基础上,PandasAI通过融合生成AI模型来提高生产力。通过自然语言界面,传统的Pandas任务,如预处理和数据可视化,得到了提升。 PandasAI的吸引力在于它能够将复杂的编码过程转化为自然语言界面。生成AI消除了对广泛编码知识的需求,使数据科学家可以通过与数据集进行对话来查询数据集。这一创新极大地加快了预处理和分析阶段,是传统编码实践的一次离开。该库开启了新的可能性,使得技术和非技术专业人士都能够轻松地与数据集进行交互。 PandasAI的核心是生成式人工智能(GenAI),这是一种通过识别现有数据中的模式来产生多样数据类型的子集。通过利用GenAI,PandasAI引领了一个新时代,用户无需编写复杂的代码,而是可以用自然语言表达他们的意图,并见证他们的指令精确执行。这种转变的方法不仅简化了日常任务,还为生成式人工智能领域的数据分析过程铺平了道路,使其更具包容性和高效性。 3. HuggingFace Transformers HuggingFace Transformers为GenAI专业人士提供了一套改变日常任务和项目的转型工具集。该库提供超过20,000个预训练模型的即时访问,所有这些模型都基于最先进的Transformer架构,为数据科学家、人工智能从业者和工程师们提供了民主化的自然语言处理(NLP)工具。…

Leave a Comment