Press "Enter" to skip to content

Author: 四海吧

揭秘语言模型中的逆向缩放

一个重要的方面是要考虑到反比例缩放问题,这可能会影响更大的LLM的表现虽然这可能会带来挑战,但也为改进和优化提供了机会通过解决这个问题,我们可以增强这些模型的整体能力,使它们更有效地处理各种任务这些潜在的改进突显了更大的LLM在人工智能领域的价值和潜力

Leave a Comment

拜登政府提出的人工智能医疗应用标签系统的建议

美国拜登政府推出了一种新的标记系统,用于评估具有人工智能功能的医疗应用程序,旨在优先保障这些应用程序的安全可靠性这一举措将有助于提升医疗应用程序的质量,使其更加可靠和安全,为用户提供更好的医疗体验

Leave a Comment

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas

这是与MongoDB的Babu Srinivasan共同撰写的客座文章随着今天快节奏的商业环境中行业的发展,无法进行实时预测给那些高度依赖精准及时洞察力的行业带来了重大挑战在各个行业中缺乏实时预测存在着紧迫的业务挑战,这可能会对决策产生重大影响

Leave a Comment

特雷·杜瓦格,Pathlight的首席技术官兼联合创始人–访谈系列

Trey Doig是Pathlight的联合创始人和首席技术官Trey在科技行业拥有超过十年的经验,在IBM、Creative Commons和Yelp公司担任工程师Trey是Yelp预订的首席工程师,负责将SeatMe功能整合到Yelp.com上Trey还领导了SeatMe网页应用程序的开发[…]

Leave a Comment

2024 年值得关注的前 12 位数据科学领袖

在蓬勃发展的数据科学领域,2024年的到来标志着关键时刻,我们将聚焦于一群杰出人物,他们推动创新,塑造着分析学的未来。《2024年十二位数据科学领袖榜单》作为一个指路明灯,庆祝这些人的卓越专业知识、远见领导力以及在该领域的重要贡献。让我们一起探索这些开创性思想家的故事、项目和有前瞻性的观点,他们承诺将塑造数据科学的发展轨迹。这些杰出领导者不仅是先驱者,更是引领我们进入一个无与伦比的创新和发现时代的先锋。 2024年十二位数据科学领袖榜单 随着我们临近2024年,我们将关注一群具有显著专业知识、领导能力和卓越贡献的人士。《2024年十二位数据科学领袖榜单》旨在承认和关注这些人,将他们视为思想领袖、创新者和预计在未来一年取得重大里程碑的影响者。 随着我们深入了解细节,明显地看到这些人的观点、举措和倡议能够改变我们在解决各个行业面临的复杂挑战时的方法和数据利用。无论是在预测分析方面的进展,还是对伦理人工智能实践的倡导,或者是开发尖端算法,这些名单上的人士都有望在2024年影响数据科学领域。 1. 吴恩达 “如今人工智能的主要挑战在于找到合适的业务背景来适应它。我热爱技术,它为我们提供了许多机会。但是最终,技术需要被融入到业务使用案例中。” 吴恩达博士是一位拥有机器学习(ML)和人工智能(AI)专业知识的英裔美籍计算机科学家。在谈到他对AI发展的贡献时,他是DeepLearning.AI的创始人,Landing AI的创始人兼首席执行官,AI Fund的普通合伙人,并且是斯坦福大学计算机科学系的兼职教授。此外,他曾是Google AI旗下Google Brain深度学习人工智能研究团队的创始领导者。他还曾担任百度的首席科学家,指导了一个由1300人组成的人工智能团队,并发展了公司的全球AI战略。 吴恩达先生负责领导斯坦福大学的大规模在线开放课程(MOOC)的发展。他还创办了Coursera,并为超过10万名学生提供机器学习(ML)课程。作为机器学习和在线教育的先驱者,他拥有卡内基梅隆大学、麻省理工学院和加州大学伯克利分校的学位。此外,他在机器学习、机器人学和相关领域发表了200多篇研究论文,并入选了《时代》杂志评选的全球最具影响力人物100人。 网站:https://www.andrewng.org Twitter:@AndrewYNg Facebook:Andrew Ng、Google Scholar。 2. Andrej Karpathy “我们本应让人工智能做所有工作,而我们玩游戏,但我们在做所有工作,而AI在玩游戏!” Andrej Karpathy是一位来自斯坦福大学的斯洛伐克-加拿大双博士学位获得者,在OреոΑӏ负责构建一种JARVIS。他曾担任特斯拉的人工智能和自动驾驶视觉总监。Karpathy对深度神经网络充满热情。他从多伦多开始,修读计算机科学和物理学的双学位,之后前往哥伦比亚深造。在哥伦比亚,他与Michiel van…

Leave a Comment

触类旁通 探索适用于各种开发需求的顶级20个Docker容器

介绍 Docker容器已成为软件开发和部署快速发展的必不可少的工具,提供了一种轻量级和高效的方式来打包、分发和运行应用程序。本文深入探讨了在各种类别中排名前20的Docker容器,展示了它们的特点、用途和对简化开发工作流程的贡献。 Web服务器和内容管理 Web服务器 Nginx Nginx是一种多用途的Web服务器和反向代理,以其出色的性能和可扩展性而倍受赞誉。其轻量级结构和对并发连接的灵活管理使其成为开发人员追求高效率的首选。显著特点包括强大的负载均衡能力、高效处理静态内容和先进的安全功能。其应用范围涵盖各种功能,从为静态网站提供服务到为微服务实现负载平衡,以及作为应用服务器的反向代理。 Apache HTTP服务器 Apache HTTP服务器是Web服务器领域的先驱者,仍然是提供动态内容的可靠选择。以其模块化设计和广泛的可配置性而闻名,轻松适应各种应用。其主要特点包括全面的模块支持、出色的可配置性和强大的社区支持。其多功能应用领域包括托管动态网站、运行PHP应用程序和作为各种基于Web的应用程序的后端服务器。 Traefik 另一个Docker容器是Traefik。Traefik是一个面向微服务架构而专门定制的现代反向代理和负载均衡器。其吸引力在于动态配置和自动服务发现,使其成为容器化环境的理想选择。其关键特点包括自动服务发现、与容器编排工具的无缝集成以及支持Let’s Encrypt,实现自动配置SSL/TLS证书。其应用领域包括负载均衡微服务、根据指定规则进行流量路由,以及通过自动管理SSL/TLS证书实现安全通信,是现代基础架构设置中的重要工具。 内容管理系统 WordPress WordPress是一种主流的内容管理系统,支撑着互联网的大部分内容。将WordPress容器化可以简化部署,为内容管理需求提供可扩展和隔离的环境。其庞大的插件生态系统、用户友好的界面和强大的社区支持是其关键特点。其多功能跨越从促进博客和内容创作到构建企业网站和监督在线社区,为各种与web相关的努力提供了一种灵活的解决方案。 数据库和数据存储 关系型数据库 MySQL MySQL是一种广泛使用的开源关系型数据库,以其速度和可靠性备受赞誉。将MySQL容器化可以简化跨不同应用程序管理和配置数据库。其主要特点包括ACID兼容性、强大的复制和集群支持以及高性能能力。其应用范围从作为Web应用程序的后端存储到管理电子商务平台的数据存储和支持内容管理系统,展示了其适应不同领域不同存储需求的灵活性。 PostgreSQL PostgreSQL是一种强大的开源关系型数据库,以其可扩展性和严格遵循标准而受到赞誉。将PostgreSQL容器化提供了一个便携和可复制的数据库环境,实现了部署的灵活性。其关键特点包括通过自定义函数和运算符实现可扩展性、确保数据可靠性的ACID兼容性以及强大的复杂查询支持。其应用领域包括支持地理信息系统(GIS)、支持数据仓库需求以及满足金融应用程序的复杂性,展示了其在需要严格的数据处理和查询能力的各种领域的适应性。 MariaDB MariaDB源自MySQL系列,注重高性能和可靠性。容器化MariaDB可确保在开发和生产阶段间的统一环境,提高部署的一致性。值得注意的特点包括与MySQL的无缝兼容性、高性能存储引擎以及来自活跃社区的强大支持。其应用包括作为Web应用程序的事务性数据库、支持数据分析和报告需求,并驱动内容管理系统,展示了其在可靠和可扩展数据库解决方案方面的多功能性,适用于各种领域。 Microsoft…

Leave a Comment

这篇AI论文提出了一种不需要已知摄像机参数的COLMAP-Free 3D高斯飞溅(CF3DGS)方法,用于新视角合成

神经渲染的进展在重建场景和生成新视点方面取得了显着突破。然而,其有效性很大程度上取决于相机姿态的精确预计算。为了减少这个问题,许多努力已经被做出来,以无需预计算相机姿态来训练神经辐射场(NeRFs)。然而,NeRFs的隐式表示使得同时优化3D结构和相机姿态变得困难。 来自UC San Diego、NVIDIA和UC Berkeley的研究人员引入了COLMAP-Free 3D Gaussian Splatting(CF-3DGS),它增强了两个关键要素:从视频中的时间连续性和显式的点云表示。CF-3DGS不是一次优化所有帧,而是以连续的形式构建场景的3D高斯,随着摄像机的移动,逐个“增长”一个结构。CF-3DGS为每个帧提取一个局部3D高斯集,并维护整个场景的全局3D高斯集。 https://arxiv.org/abs/2312.07504 使用不同的3D场景表示来生成真实的图像,包括平面、网格、点云和多平面图像。由于其出色的逼真渲染能力,NeRFs(神经辐射场)在该领域中备受关注。3DGS(三维高斯喷溅)方法利用纯显式表示和差分点基喷溅方法实现对视图的实时渲染。 CF-3DGS合成未知相机参数的视图。它同时优化3D高斯喷溅(3DGS)和相机姿态。它使用局部3DGS方法从附近帧中估计相对相机姿态,使用全局3DGS过程从未观察到的视图中逐步扩展3D高斯。CF-3DGS利用显式的点云来表示场景,并利用视频流中的连续性。它按顺序处理输入帧,逐步扩展3D高斯以重建场景。这种方法实现了快速训练和推理速度。 https://arxiv.org/abs/2312.07504 CF-3DGS方法在姿态估计和新视图合成的稳健性方面优于先前最先进的方法。该方法在CO3D视频上进行验证,这些视频呈现了更复杂和具有挑战性的相机移动,并且在视图合成质量方面胜过了Nope-NeRF方法。该方法在CO3D V2数据集上的相机姿态估计的所有指标上一直超过Nope-NeRFe,表明它在估计相机姿态方面的稳健性和准确性,尤其是在具有复杂相机移动的场景中。 综上所述,CF-3DGS是一种有效且稳健的方法,利用视频的时间连续性和显式点云表示合成视图,无需进行结构运动(SfM)预处理。它同时优化相机姿态和3DGS,主要适用于视频流或有序图像集合。它还具有未来扩展的潜力,以适应无序图像集合。

Leave a Comment

全球通用模型:Runway AI研究启动新的长期研究工作

“`html 世界模型是一种旨在构建对环境的内部了解并利用这些知识来预测该空间内未来事件的人工智能系统。研究人员主要在受控环境中测试这些世界模型,如视频游戏或特定任务,例如驾驶。最终目标是雄心勃勃的 – 创建可以处理遇到的各种情况的模型,这些情况在不可预测的现实世界中发生。 早期尝试创建这种系统的一个例子是Gen-2视频生成系统。它就像一个初入行的艺术家,试图制作展示基本物体运动理解的短视频。然而,它在更复杂的任务中有困难,对于涉及快速相机移动或复杂物体行为的情景挣扎不已。这揭示了当前世界模型的局限性,促使研究人员深入研究和改进这些系统。 构建有效的世界模型之路面临着几个挑战。一个关键方面是这些模型需要生成准确一致的环境地图。它不仅仅是识别运动,还要在给定空间内进行导航和互动。此外,这些模型不仅必须理解世界的动态,还必须理解和模拟其居民的行为,包括真实的人类行为。这个多方面的挑战需要不断的研究和创新。 研究人员正在积极努力克服这些挑战,致力于增强世界模型的适应性和能力。就像升级视频游戏中的角色一样 – 这些模型需要在生成可靠的地图和在不同复杂情景中进行导航时进行升级。目标是使它们具备处理现实世界的不可预测性的能力。 为了衡量这些世界模型的有效性,研究人员采用了一些度量标准。这些度量标准衡量了模型生成一致准确地图的能力,其在不同环境中导航的熟练程度以及其对人类行为的逼真模拟。这些可量化的测量方法作为基准,让研究人员评估这些不断发展的世界模型的进展和能力。 总之,开发通用世界模型是一个充满挑战和令人兴奋前景的持续过程。随着研究人员不断完善这些模型,承诺在各种现实情景中进行更好的模拟和预测。这些模型的演变不仅推动了人工智能能力的界限,还有可能深入理解复杂环境并改进人工智能与我们的动态世界的互动。 The post General World Models: Runway AI Research Starting a New Long-Term Research Effort…

Leave a Comment

谷歌Deepmind研究介绍了FunSearch一种在数学和计算机科学中寻找新解决方案的新人工智能方法

LLMs擅长理解和生成人类般的文本,使其能够理解并生成模仿人类语言的回应,改善机器与人类之间的沟通。这些模型在语言翻译、摘要、问答、文本生成、情感分析等各种任务中具有多样性和适应性。它们的灵活性使其可以在各行各业和各种应用中使用。 然而,LLMs有时会出现错觉,导致产生可信的错误陈述。GPT模型等大型语言模型在语言理解和生成方面非常先进,但由于多种原因,仍然可能产生虚构的响应。如果向模型提供的输入或提示是模糊的、矛盾的或误导性的,模型可能会基于它对输入的理解生成错误的响应。 Google DeepMind的研究人员通过提出一种称为FunSearch的方法来克服这一限制。它将预训练的LLM与评估器相结合,可以防止虚构和错误的想法。FunSearch通过组合多个重要因素,将初始评分较低的程序演变为评分较高的程序,以发现新知识。FunSearch生成能够解决问题的程序。 FunSearch作为一个迭代过程运行,在每个周期中,系统从当前程序池中选择特定的程序。然后,这些选定的程序经过LLM处理,LLM在其基础上进行创新性扩展,生成经过自动评估的新程序。其中最有前景的程序被重新引入现有程序池中,建立起一个自我增强的循环。 研究人员抽样表现较好的程序,并将其作为提示输入LLMs以改进它们。他们从一个初始程序开始,作为骨架,并只发展管控部分的关键程序逻辑。他们设置一个贪婪的程序骨架,并通过在每一步上放置优先级函数来做决策。他们使用基于岛屿的进化方法来维持一个多样化的程序池。他们异步地扩展它,以扩大他们的方法的适用范围,寻找新的结果。 FunSearch使用与装箱问题相同的一般策略。它不是将物品放入容量最小的箱子中,而是仅当放置物品后适应度非常紧密时才将物品分配给容量最小的箱子。这种策略消除了不太可能填充的小箱隙。FunSearch的一个关键组成部分是,它在程序空间中运行,而不是直接搜索构造。这使得FunSearch具有真实世界应用的潜力。 当然,这只是初始阶段。FunSearch的进展将自然地与LLMs的整体发展相一致。研究人员致力于扩展其功能,以解决社会中的各种重要科学和工程挑战。

Leave a Comment