Press "Enter" to skip to content

四海吧 Posts

字节跳动和CMU的研究人员推出了AvatarVerse一种新颖的AI管道,用于生成由文本描述和姿势指导控制的高质量3D头像

3D头像在游戏开发、社交媒体与通信、增强与虚拟现实以及人机交互等行业中有广泛应用。高质量的3D头像建模一直备受关注。传统上,这些复杂的3D模型是由训练有素的艺术家手工建造的,这是一项耗时且劳动密集的过程,需要几千小时的时间和丰富的美学和3D建模知识。因此,他们的目标是仅使用自然语言描述自动创建高质量的3D头像,因为这具有重要的研究潜力和资源节约能力。 最近,从多视角电影或参考照片重建高保真度的3D头像引起了很大关注。这些技术无法根据复杂的文本提示构建富有想象力的头像,因为它们依赖于从电影或参考图片中获取的限制性视觉先验知识。扩散模型在创建2D图像时表现出色,主要是因为有许多大规模的文本-图像组合可用。然而,缺乏多样性和3D模型的短缺使得充分训练3D扩散模型变得困难。 最近的研究探索了优化神经辐射场以使用预训练的文本-图像生成模型生成高保真度的3D模型。然而,创建具有不同位置、外观和形式的坚固3D头像仍然具有挑战性。例如,仅使用常规评分蒸馏采样而没有额外的控制来指导NeRF优化可能会引入Janus问题。除此之外,目前的方法创建的头像经常显示出明显的粗糙和模糊,导致缺乏高分辨率的局部纹理细节、配饰和其他重要方面。 字节跳动和CMU的研究人员提出了AvatarVerse,这是一个专为使用文本描述和位置指导生成高质量可靠的3D头像的独特框架,以解决这些限制。他们首先使用800K或更多人类DensePose图片训练了一个全新的ControlNet。然后,在ControlNet之上,实施了基于2D DensePose信号的SDS损失条件。他们可以在每个2D视图和3D空间之间以及许多2D视图之间实现精确的视图对应关系。他们的技术消除了困扰大多数以前方法的Janus问题,同时还能够对创建的头像进行姿势控制。因此,它为头像的生成过程提供了更可靠和一致的保证。通过DensePose提供的精确和可调整的监督信号,生成的头像还可以与SMPL模型的关节对齐,使得骨骼绑定和控制变得简单高效。 他们提出了一种渐进式高分辨率生成技术,以提高局部几何的逼真度和细节,而仅依赖于DensePose条件的ControlNet可能会产生局部伪像。他们使用平滑度损失,在计算上高效的显式神经辐射场中促进密度体素网格的平滑梯度,以减少生成头像的粗糙度。 以下是总体贡献: • 他们介绍了AvatarVerse,一种只使用文字描述和参考人体姿态就能自动创建高质量3D头像的技术。 • 他们提供了基于DensePose条件的评分蒸馏采样损失方法,这种方法使得创建具有姿势意识的3D头像更加容易,并成功缓解了Janus问题,提高了系统的稳定性。 • 通过一种系统的高分辨率生成过程,他们提高了生成的3D头像的质量。这项技术通过严格的由粗到细的精炼过程,创建了具有出色细节的3D头像,包括手部、配饰等。 • AvatarVerse在质量和稳定性方面表现出色,优于竞争对手。通过深入的用户研究和细致的定性评估,展示了AvatarVerse在创建高保真度3D头像方面的卓越性。 这为可靠的零次试验3D头像生成设立了新的标准。他们在GitHub网站上提供了他们技术的演示。

Leave a Comment

见AgentBench:一个多维基准,旨在评估各种环境中的大型语言模型作为代理的能力

大型语言模型(LLMs)已经出现和发展,为人工智能领域增加了一种新的复杂性。通过密集的训练方法,这些模型已经掌握了一些惊人的自然语言处理、自然语言理解和自然语言生成任务,例如回答问题、理解自然语言推理和总结材料。它们还完成了与NLP不常见相关的活动,例如理解人类意图和执行指令。 像AutoGPT、BabyAGI和AgentGPT这样的应用程序利用LLMs实现了自主目标,这些应用程序的实现得益于所有NLP的进步。尽管这些方法引起了公众的浓厚兴趣,但评估LLMs作为代理的标准基线的缺失仍然是一个重大障碍。虽然过去已经使用基于文本的游戏环境来评估语言代理人,但由于其有限和离散的动作空间,它们经常存在一些缺点。此外,它们主要评估模型的常识基础能力。 大多数现有的代理人基准测试都专注于特定的环境,这限制了它们在各种应用场景中对LLMs进行全面评估的能力。为了解决这些问题,清华大学、俄亥俄州立大学和加州大学伯克利分校的研究人员提出了AgentBench,这是一个多维基准测试,旨在评估LLMs作为代理的能力在各种环境中。 AgentBench包含了八个不同的环境,其中五个是全新的:侧面思考难题(LTP)、知识图谱(KG)、数字卡牌游戏(DCG)、操作系统(OS)和数据库(DB)。最后的三个环境——家政(Alfworld)、在线购物(WebShop)和网络浏览(Mind2Web)——是从现有数据集进行改编的。这些环境都经过精心设计,以代表文本化的LLMs可以扮演自主代理的交互情境。它们严格评估LLM的关键能力,如编码、知识获取、逻辑推理和遵循指示,因此AgentBench成为评估代理和LLMs的全面测试平台。 利用AgentBench,研究人员对包括基于API和开源模型在内的25个不同的LLMs进行了深入分析和评估。研究结果显示,像GPT-4这样的顶级模型擅长处理各种现实世界的任务,这意味着可以创建高效能并不断适应的代理人。然而,这些顶级的基于API的模型在性能上明显不如它们的开源替代品。开源LLMs在其他基准测试中表现良好,但当他们面对AgentBench的困难任务时,它们表现不佳。这强调了进一步改进开源LLMs学习能力的需求。 研究的贡献可以总结如下: AgentBench是一个全面的基准测试,定义了标准化的评估程序,并引入了将LLMs作为代理进行评估的创新概念。它通过整合八个模拟现实世界情境的真实环境,为评估LLMs的各种能力提供了一个有用的平台。 该研究利用AgentBench对25个不同的LLMs进行了全面评估,揭示了领先的商业API型LLMs和开源替代品之间的显著性能差距。这种评估突出了LLM作为代理的当前状况,并确定了需要改进的领域。 该研究还提供了一个基于“API&Docker”交互范式的集成工具集,使定制AgentBench评估过程更加容易。这个工具集对更广泛的研究社区可用,结合相关数据集和环境,促进了LLMs领域的合作研究和开发。

Leave a Comment

切萨皮克保护协会的保护创新中心已经成立10年了

成立于2013年,得到英特尔和数字能源与可持续解决方案运动的安纳波利斯(马里兰州)的资助,切萨皮克保护协会的保护创新中心(CIC)今年已经成立了10年CIC成立于2013年,最初只有两名员工,目前已经发展到13名员工,帮助改变保护工作的方式,利用尖端技术实现基于数据的保护和恢复工作的成功通过与当地、区域和全国合作伙伴建立伙伴关系,CIC使数据更易获取…切萨皮克保护协会的保护创新中心已经成立10年了阅读更多 »

Leave a Comment

印度储备银行采用对话人工智能和离线支付方式,使用统一支付接口(UPI)

印度储备银行(RBI)在数字支付领域开创新局,计划推出先进的统一支付接口(UPI)功能。RBI整合对话式人工智能和离线支付的举措旨在提升数字交易的可访问性、便利性和包容性。 同时阅读:印度如何利用尖端人工智能应对支付欺诈 利用NFC技术增强离线交易能力 RBI行长Shaktikanta Das提议将近场通信(NFC)技术纳入考虑范围,以适应互联网连接有限或无连接的地区。这一开创性举措将彻底改变UPI交易的格局,即使在网络连接较弱或无连接的地区也能实现无缝支付。 同时阅读:利用人工智能轻松完成KYC注册 UPI-Lite引领潮流 继2022年9月推出的在设备上的UPI-Lite电子钱包取得成功后,RBI最新的政策声明强调了这一功能的强劲增长。通过NFC技术促进离线交易,RBI预计进一步推动其发展。这种新颖方法解决了连接性挑战,并承诺快速、安全的交易,大大降低交易失败的风险。 包容性和可访问性的愿景 行业专家和领导者赞赏RBI的前瞻性举措。Kuhoo的首席执行官Prashant A Bhonsle称赞此举对于提升金融包容性和可访问性的潜力。NFC启用的离线交易的推出预计将为商业开辟新的途径,特别是在服务不足地区。BANKIT的首席运营官兼执行董事Amit Nigam强调了这一举措对于互联网连接不可靠的农村和偏远地区的转型影响。 对话式支付的未来 RBI的远见卓识延伸到了对话式支付,这是一种有望重塑UPI格局的创新概念。通过整合AI技术,用户将通过安全对话发起和完成交易。该功能在智能手机和功能手机的UPI渠道上均可使用,旨在加深数字支付在全国的普及程度。最初提供印地语和英语服务,该服务最终将涵盖更多印度语言。 同时阅读:2023年银行和金融领域机器学习和人工智能的应用 人工智能的变革潜力 对话式人工智能具有极大的潜力,可以提升用户体验,推动数字支付的普及,特别是在老年人和残障人士中。BankBazaar.com的首席执行官Adhil Shetty指出,拟议中的基于人工智能的界面可以简化交互,使UPI更易访问和用户友好。 同时阅读:谷歌云协助麦格理银行增强人工智能银行能力 我们的观点 随着RBI采用对话式人工智能和离线支付,印度的数字支付生态系统正处于转型的关键时刻。这些创新功能彰显了RBI在提升数字包容性、可访问性和安全性方面的承诺。通过整合人工智能和NFC等尖端技术,UPI将成为一个为所有人提供便利、简单和赋能的典范。

Leave a Comment

OpenAI推出GPTBot:一个用于自动从整个互联网上提取数据的网络爬虫

OpenAI通过引入一种名为GPTBot的新型网络爬虫工具,回应了在采集公共网站上的数据时出现的隐私和知识产权问题。这项技术旨在透明地收集公共网络数据,并将其用于训练他们的AI模型,一切都在OpenAI的旗帜下进行。 GPTBot的用户代理旨在收集有助于改进未来AI模型的数据。在此过程中,GPTBot将省略需要付费的来源。然而,需要注意的是,一些收集到的数据可能无意中包含可识别的信息或文本,从而违反了OpenAI的政策。 OpenAI认识到需要为网站管理员提供有关GPTBot平台访问的选项。授予访问权限被视为在提高AI模型的准确性、增强其功能和加强安全措施方面的一种合作方式。与此相反,OpenAI还为那些不希望将其网站包含在GPTBot数据收集工作中的人提供了一套程序。该指南包括将GPTBot指令整合到网站的robots.txt文件中,并配置其访问特定内容段。 为了更加透明,OpenAI已发布了与GPTBot活动相关的IP地址范围。此举不仅有助于识别机器人的行为,还提供了必要时阻止其访问的手段。 这些透明度举措突显了OpenAI对AI模型运营商所面临的批评的回应,这些运营商被指控在未经明确同意的情况下收集数据。普遍的观点认为,该行业的做法可能侵犯了知识产权和隐私保护,通过未经适当授权从公共网站收集内容。这反过来促使AI实体提供更全面的选择加入和退出机制,允许网站所有者和数据保管人对其内容的使用发表意见。 在相关发展中,Kickstarter的筹款平台最近引入了AI项目规定。这些规定包括一个重要要求,即利用外部数据源的项目必须提供来自源网站的适当许可协议和获得的同意的证据。未能履行此义务的项目将无资格在Kickstarter上列出。 预计在接下来的一周,OpenAI将进行一次重大改革,其中包括将基础ChatGPT层转换为GPT-4。此外,对Code Interpreter插件的增强将包括支持上传多个文件到提示,反映了OpenAI对持续改进和创新的承诺。

Leave a Comment

中国的一项新的人工智能研究介绍了RecycleGPT:一种生成式语言模型,其解码速度为1.4倍,通过回收预生成的模型状态而无需运行整个模型的多个步骤

在各种应用领域中创建令人满意的文本时,大型语言模型(LLMs)在自然语言生成方面带来了革命性的变化。尽管扩大模型规模(100B+参数)会显著提高性能,但事实仍然是,完成单个解码步骤所需的时间随着模型大小的增加而增长。更大的模型引入了大量的计算和更大的内存占用,这两者都对LLM的推理速度缓慢产生重要影响。KV缓存和训练模型参数以及推理所需的临时状态的内存需求是相当大的。 由于系统的内存访问速度较慢,LLMs的令牌生成速度较慢。至于产生每个标记所需的时间,它大致与模型参数的总数相关。 有几项工作旨在使推理更加高效。这些研究的基本重点是最小化内存使用量和缓解内存流量拥塞。无锡国家超级计算中心和清华大学的一项新研究调查了有效的解码技术,以最大化标记生成,并同时保持内存处理预算不变。为了实现快速解码,他们引入了一种名为RecycleGPT的新的语言模型架构,它可以重复使用先前创建的模型状态。 他们的策略是通过将一个新的可回收模块纳入原始语言模型中来进行微调,该模块基于先前生成的状态预测接下来的几个标记,而无需重复运行完整的模型。可回收模块由几个基于Transformer的层构建,这些层一起允许在进行预测时进行更好的表示。RecycleGPT可以与传统的解码技术以多种不同的方式结合使用,以进行推理。本研究循环使用它们(即,每生成两个标记需要运行一次整个模型),留下其他方式的研究以供未来参考。可回收模块的目的是加快解码过程,它之所以能够做到这一点,是因为尽管其结构简单,但该模块能够有效地表示上下文信息并生成正确的预测。 团队对RecycleGPT进行了多项测试,与几个行业标准进行了比较。研究结果显示,该模型的速度比最先进的语言模型快1.4倍,参数仅增加15%,同时在下游任务上保持类似的性能。研究人员计划很快展示不同规模的RecycleGPT模型。 由于其适应性和可扩展性,我们的回收技术可以与各种预训练模型一起使用。此外,可以修改创作技术和可回收模块的大小以达到所需的加速性能。

Leave a Comment

“遇见隔离扩散模型(CDM):一种用于在不同数据源上训练不同扩散模型或提示的人工智能方法”

随着技术和人工智能领域的最新进展,取得了许多进步和提升。无论是使用众所周知的ChatGPT模型进行文本生成,还是文本到图像的生成;现在一切都是可行的。扩散模型因其能够让人们使用简单的口头建议或草图制作引人注目的视觉效果而引起了很大的兴趣。庞大的训练数据量使得确认每个图像的来源变得困难,因此这些模型甚至引发了关于准确识别生成照片来源的问题。 已经提出了许多策略来处理这个问题,包括在使用训练样本之前限制其影响,解决使用后不正确的训练示例的影响,并限制样本对训练输出的影响。另一个目标是确定哪些样本对模型的训练产生了最大影响,以避免创建与训练数据过于相似的图像。尽管在这些领域进行了持续研究,但这些保护策略在扩散模型中并没有显示出有效性,特别是在大规模环境中,因为模型的权重结合了来自多个样本的数据,使得像取消学习这样的任务变得困难。 为了克服这一问题,亚马逊云服务(AWS)人工智能实验室的研究人员提出了最新的方法论,称为分区扩散模型(CDM),它可以在各种数据源上训练各种扩散模型或提示,然后在推理阶段无缝地将它们组合起来。通过使用这种方法,每个模型可以在不同的时间和使用不同的数据集或领域进行单独训练。这些模型可以组合在一起,提供与同时在所有数据上进行训练的理想模型相当的性能。 CDM的独特之处在于,每个单独的模型只知道它在训练过程中接触到的特定数据子集。这种特性为保护训练数据提供了各种方法的机会。在扩展扩散模型的背景下,CDM是第一个能够同时实现选择性遗忘和持续学习的方法,因此模型的各个组成部分可以被更改或遗忘,提供了更灵活和安全的方法来改变和发展模型。 CDM还具有根据用户访问权限创建唯一模型的好处,这意味着模型可以根据特定用户要求或约束进行修改,提高其实用性并保持数据隐私。除了这些特点,CDM还提供了对理解产生特定样本的特定数据子集的重要性的洞察。这意味着模型可以提供关于对给定结果产生最大影响的训练数据部分的信息。 总之,分区扩散模型无疑是一个强大的框架,允许在各种数据源上训练不同的扩散模型,然后无缝集成以产生结果。这种方法有助于保护数据并促进灵活学习,同时扩展扩散模型的能力以满足各种用户需求。

Leave a Comment

释放领域特定LLMs的潜力

介绍 大型语言模型(LLMs)已经改变了整个世界。特别是在人工智能社区中,这是一个巨大的飞跃。几年前,建立一个能够理解和回复任何文本的系统是不可想象的。然而,这些能力是以牺牲深度为代价的。通才型的LLMs是万能的,但却无所专精。对于需要深度和精确性的领域来说,如幻觉等缺陷可能是代价高昂的。这是否意味着医学、金融、工程、法律等领域永远无法享受到LLMs的好处?专家们已经开始构建专门针对这些领域的专用领域LLMs,利用了与自监督学习和RLHF相同的基本技术。本文探讨了专用领域LLMs及其产生更好结果的能力。 学习目标 在我们深入技术细节之前,让我们概述本文的学习目标: 了解大型语言模型(LLMs)的概念,了解它们的优势和好处。 了解流行通才型LLMs的局限性。 了解什么是专用领域LLMs以及它们如何帮助解决通才型LLMs的局限性。 探索构建专用领域语言模型的不同技术,并通过示例展示它们在法律、代码补全、金融和生物医学等领域的性能优势。 本文作为数据科学博文的一部分发表。 什么是LLMs? 大型语言模型(LLM)是一个包含数亿到数千亿个参数的人工智能系统,旨在理解和生成文本。训练过程涉及将模型暴露于来自互联网文本(包括书籍、文章、网站和其他书面材料)的许多句子,并教导它预测句子中的掩码词或后续词。通过这样做,模型学习了其训练文本中的统计模式和语言关系。它们可以用于各种任务,包括语言翻译、文本摘要、问答、内容生成等。自从Transformer被发明以来,已经构建和发布了无数个LLMs。最近流行的LLMs的一些例子包括Chat GPT、GPT-4、LLAMA和Stanford Alpaca,它们取得了突破性的性能。 LLMs的优势 LLMs已经成为语言理解、实体识别、语言生成等问题的首选解决方案。在GLUE、Super GLUE、SQuAD和BIG基准测试等标准评估数据集上取得的出色表现反映了这一成就。BERT、T5、GPT-3、PALM和GPT-4发布时都在这些标准测试中取得了最先进的结果。GPT-4在BAR和SAT等方面的得分超过了普通人。下图(图1)显示了大型语言模型出现以来在GLUE基准测试中的显著改进。 大型语言模型的另一个主要优势是其改进的多语言能力。例如,训练了104种语言的多语言BERT模型在不同语言上展现出了很好的零-shot和few-shot结果。此外,利用LLMs的成本变得相对较低。出现了一些低成本的方法,如提示设计和提示调整,可以确保工程师可以以较低的成本轻松利用现有的LLMs。因此,大型语言模型已成为基于语言的任务的默认选择,包括语言理解、实体识别、翻译等。 通才型LLMs的局限性 大多数流行的LLMs,如上述提到的那些,是训练于互联网文本、书籍、维基百科等各种文本资源的通才型LLMs。这些LLMs有多种应用,包括搜索助手(使用GPT-4的Bing Chat,使用PALM的BARD)、内容生成任务(如编写营销邮件、营销内容和销售演讲稿)以及问答任务(如个人聊天机器人、客户服务聊天机器人等)。 尽管通才型人工智能模型在理解和生成各种主题的文本方面表现出色,但它们有时需要更深入、更细致的专业领域知识。例如,“债券”是金融行业的一种借贷形式。然而,通用语言模型可能无法理解这个独特的短语,并将其与化学中的债券或两个人之间的债券混淆。相反,专门针对特定使用案例的LLMs对与特定行业相关的术语有专门的理解,能够正确解释行业特定的概念。 此外,通用语言模型(LLMs)存在多个隐私挑战。例如,在医学LLMs的情况下,患者数据非常重要,将此类机密数据暴露给通用LLMs可能会违反隐私协议,因为RLHF等技术的存在。另一方面,专业领域的LLMs采用封闭框架,以避免数据泄露。 同样,通用LLMs容易出现严重的幻觉问题,因为它们往往是为创意写作而量身定制的。而专业领域的LLMs在领域特定的基准测试中表现更加精确,并且性能显著更好,如下面的应用案例所示。 专业领域的LLMs 在特定领域的数据上训练的LLMs被称为专业领域的LLMs。领域这个术语可以涵盖从特定领域(如医学、金融等)到特定产品(如YouTube评论)的任何内容。专业领域的LLMs旨在在领域特定的基准测试上表现最佳;通用基准测试不再关键。构建专用语言模型的方法有多种。最常见的方法是将现有的LLMs进行微调以适应特定领域的数据。然而,对于追求在利基领域中达到最先进性能的用例来说,预训练才是正确的选择。…

Leave a Comment