Press "Enter" to skip to content

428 search results for "回归"

这篇人工智能论文探讨了利用深度学习解决神经运算中的自回归错误,以实现高级时空预测

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-14-at-1.29.58-AM-1024×635.png”/> <img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-14-at-1.29.58-AM-150×150.png”/> <p>本研究探讨了自回归神经算子领域中一个艰巨的挑战:延长预测时间范围的能力受限。虽然自回归模型有着很大的潜力,但其不稳定性问题严重影响了其在时空预测中的有效性。这个普遍存在的问题涉及从相对平滑的领域到以ERA5等数据集为代表的复杂的大规模系统的各种情况。 <p>当前的方法在试图延长自回归神经算子的时间预测范围时面临着严峻的障碍。鉴于这些局限性,研究团队提出了一种革命性的解决方案来增强可预测性。该方法通过对频谱神经算子进行根本性的架构转变,以缓解不稳定性问题。与现有方法形成鲜明对比的创新方法赋予这些算子无限的预测时间范围,标志着一个重大的飞跃。 <p>目前,自回归神经算子在预测能力方面遇到了一个重大障碍,无法超越有限的时间范围。传统方法的不稳定性问题限制了其在复杂的时空预测场景中的有效性。针对这个问题,研究团队提出了一种新颖的解决方案,从根本上重塑了频谱神经算子的架构,开启了预测时间范围的潜力。 <p>提出的方法的核心在于重构神经算子块。为了解决混叠和不连续性等挑战,研究人员引入了一个新颖的框架,其中非线性函数始终紧随可学习的滤波器之后,这些滤波器能够有效处理新生成的高频分量。一个关键的创新是引入动态滤波器,取代静态卷积滤波器,并根据特定的数据进行调整。这种适应性通过频率域中的模式多层感知器(MLP)实现。 <p>提出的方法的精髓在于重新构想神经算子块。为了解决混叠和不连续性等挑战,研究人员引入了一个复杂的框架,其中非线性函数始终紧随可学习的滤波器之后,这些滤波器擅长处理新生成的高频分量。一个开创性的元素是将动态滤波器与传统的静态卷积滤波器替换,以适应特定数据的复杂性。这种适应性通过频率域中的模式多层感知器(MLP)实现。 <figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/pJ92lyIAeUqFKKoR7NqTsQ7V5yn9_1PlJBbl4xX6XG-kBZQWZWFaO0Yja8oPN0xANRMvBMyimdjeKHYFMTWEtItS4KliuxsGGdt_28T045Ildl2zyjCX1XFHx8E2d7xIwczLogd46TPgu5UJnvJV9Tw”/><figcaption>https://openreview.net/forum?id=RFfUUtKYOG</figcaption></figure> <p>实验结果突显了该方法的功效,显示了显著的稳定性改善。当将该方法应用于旋转浅水方程和ERA5数据集等场景时,这一点尤为明显。通过频率自适应MLP生成的动态滤波器对于确保模型对多种数据集的适应性至关重要。通过将静态滤波器替换为动态对应物,该方法能够灵活处理与数据相关的混叠模式,这是固定策略无法实现的。 <figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/ui3wefz0SoNWsJo9njj6tWnCZncx0EtcpS76P1ZRRrFRCk2-wlyfi6sMB9gUo9ks3smjjfdjfJI_3tRbF9uG_vGmh2x6mHpvuY9StcgE2hQQzYzUkaY2Ik9NFgkCO2zE-cgpvLd6_FVKxHrNljpBAkU”/><figcaption>https://openreview.net/forum?id=RFfUUtKYOG</figcaption></figure> <p>总结起来,本研究对于克服自回归神经算子中延长预测时间范围的持久挑战具有开创性的意义。通过重构神经算子块,引入通过频率自适应MLP生成的动态滤波器,是一种高效的策略,可以缓解不稳定性问题,实现无限的预测时间范围。在研究界处理预测的复杂性时,这项工作可以作为一个指南,引领未来努力朝着更健壮和可靠的时空预测模型前进。

Leave a Comment

Google AI揭示了Mirasol3B:一种跨音频、视频和文本模式学习的多模自回归模型

在机器学习这个广阔的领域中,解码嵌入在不同模态(音频、视频和文本)中的复杂性是一个巨大的挑战。时间对齐和不对齐模态之间的复杂同步以及视频和音频信号中的庞大数据量促使研究人员寻求创新的解决方案。这就是Google专门团队开发的Mirsol3B,一种巧妙的多模自回归模型。这个模型解决了不同模态的挑战,并且在处理更长的视频输入方面表现出色。 在深入了解Mirsol3B的创新之前,了解多模机器学习的复杂性是至关重要的。现有的方法在同步时间对齐的模态(音频和视频)和不对齐的模态(如文本)之间存在同步困难。这种同步挑战在视频和音频信号中的大量数据的情况下会更加复杂,通常需要压缩。越来越明显的是,需要能够无缝处理更长视频输入的有效模型。 Mirsol3B标志着在应对这些挑战方面的范式转变。与传统模型不同,它采用了多模自回归架构,将时间对齐和上下文模态的建模分开。Mirsol3B由用于时间对齐模态(音频和视频)的自回归组件和用于不对齐模态(如文本信息)的独立组件组成,提出了一种新颖的观点。 Mirsol3B的成功取决于其对时间对齐和上下文模态的熟练协同。视频、音频和文本具有不同的特点;例如,视频是一种具有高帧率的时空视觉信号,而音频是一种具有更高频率的一维时间信号。为了桥接这些模态,Mirsol3B采用了交叉注意机制,促进自回归组件之间的信息交流。这确保了模型全面理解不同模态之间的关系,而无需精确同步。 Mirsol3B的创新优势在于将自回归建模应用于时间对齐模态,保留了关键的时间信息,尤其是在长视频中。视频输入被智能地分割成较小的块,每个块包含可管理的帧数。组合器是一个学习模块,会处理这些块,生成联合的音频和视频特征表示。这种自回归策略使模型能够了解各个块及其时间关系,这对于有意义的理解是至关重要的一个方面。 组合器是Mirsol3B成功的核心部分,它是一个学习模块,旨在有效地协调视频和音频信号。该模块通过选择较少的输出特征来应对处理大量数据的挑战,从而有效地减少了维度。组合器表现出各种风格,从简单的基于Transformer的方法到Memory Combiner(如Token Turing Machine,支持具有可微分内存单元)。这两种风格都有助于模型能够高效处理广泛的视频和音频输入。 Mirsol3B的性能令人印象深刻。该模型在包括MSRVTT-QA、ActivityNet-QA和NeXT-QA在内的各种基准测试中始终优于最先进的评估方法。即使与拥有800亿参数的更大模型(如Flamingo)相比,Mirsol3B凭借其3,000亿参数的紧凑性能表现出卓越能力。值得注意的是,该模型在开放式文本生成环境中表现出色,展示了它的泛化能力和生成准确的响应的能力。 总的来说,Mirasol3B在解决多模态机器学习挑战方面迈出了重要的一步。其创新的方法,结合自回归建模、时间对齐模态的战略分割以及高效的Combiner,为该领域设定了新的标准。研究团队优化性能的能力,即使使用相对较小的模型也不损失准确性,使Mirasol3B成为在需要强大多模态理解的实际应用中有希望的解决方案。随着追求能够理解我们世界复杂性的AI模型的探索继续进行,Mirasol3B在多模态领域脱颖而出,成为进步的标志。

Leave a Comment

CatBoost回归:为我解析一下

CatBoost,即Categorical Boosting,是一种强大的机器学习算法,擅长处理分类特征并产生准确的预测结果传统上,在处理分类特征时,通常会遇到一些挑战,比如数据稀疏性、高基数特征和缺失值处理等然而,CatBoost能够处理这些问题,并通过使用特征组合和目标编码等技术,提高模型性能它还具有自动处理缺失值、无需进行特征缩放以及对异常值和噪声具有鲁棒性等优点因此,CatBoost在实际应用中非常受欢迎,并在许多竞赛和实际项目中取得了令人印象深刻的结果

Leave a Comment

解锁神经网络中的多样性力量:自适应神经元在图像分类和非线性回归中胜过同质性

神经网络是人工智能中的一种方法,它教会计算机以类似于人脑的方式处理数据。它使用连接的节点或神经元构成的分层结构,类似于人脑。人工神经元被排列成层级结构形成神经网络,用于各种任务,如模式识别、分类、回归等。这些神经元通过在训练过程中改变数字权重和偏差来形成稳固的连接。 尽管这些神经网络取得了进展,但它们也有限制。它们由大量相似类型的神经元组成。这些相同神经元之间的连接数量和强度可以在网络学习过程中发生变化。然而,一旦网络被优化,这些固定的连接定义了其架构和功能,无法改变。 因此,研究人员开发了一种可以提升人工智能能力的方法。它允许人工智能内部审视其结构并微调其神经网络。研究表明,通过多样化激活函数可以克服限制,并使模型能够高效工作。 他们在多样性上对人工智能进行了测试。北卡罗来纳州立大学物理学教授、北卡罗来纳州立大学非线性人工智能实验室主任威廉·迪托表示,他们创建了一个测试系统,其中包含一种非人类智能,即人工智能(AI),以查看人工智能是否会选择多样性而不是缺乏多样性,并且其选择是否会提高人工智能的性能。此外,他表示关键在于允许人工智能内部审视并学习其学习方式。 允许神经元自主学习激活函数的神经网络往往表现出快速多样化,并在图像分类和非线性回归等任务中表现优于同质神经网络。另一方面,迪托的团队赋予了他们的人工智能在其神经网络中自主确定神经元数量、配置和连接强度的能力。这种方法允许创建由网络内的各种神经元类型和连接强度组成的子网络。 迪托表示,他们赋予了人工智能内部审视并决定是否需要修改其神经网络组成的能力。实质上,他们给了它大脑的控制旋钮。因此,它可以解决问题,查看结果,并改变人工神经元的类型和混合直到找到最有利的一种。他将其称为人工智能的元学习。他们的人工智能还可以在多样或同质神经元之间进行选择。他进一步表示,他们发现在每个实例中,人工智能都选择多样性以增强其性能。 研究人员在一个标准的数字分类任务上测试了该系统,并发现该系统的准确性随着神经元数量和多样性的增加而提高。研究人员表示,同质人工智能在数字识别方面的准确率为57%,而元学习的多样性人工智能则达到令人印象深刻的70%准确率。 研究人员表示,未来他们可能会通过调整超参数来优化学习到的多样性,以提高性能。此外,他们将在更广泛的回归和分类任务中应用获得的多样性,使神经网络多样化,并评估其在不同情景下的鲁棒性和性能。

Leave a Comment

爱奇艺会员+京东PLUS 联名会员回归,一年118元,

爱奇艺+京东plus会员下架好久了,之前活动续费到期了,一直没有合适的续费。 京东plus会员确实挺香啊,现在x宝都放弃了,有了京东plus全在京东消费了,免运费,还有红包补贴。 现在回归的最新活动内容更多了: 1:黄金会员+京东plus=118/年 2:黄金会员+喜马拉雅年卡=118/年 3:黄金会员+酷狗会员=34/季 活动地址:点击跳转,或扫码下方图片二维码

Comments closed

智友论坛已经回归开放注册

之前智友论坛关闭,新的论坛通知说在筹备中,然后经过一段时间的布置,新的智友论坛已经重新开放注册了,现在的体验貌似没有之前的流畅,可能还需要慢慢的优化吧。不过该有的栏目也已经完善了上去,大家最喜欢的软件下载分类也慢慢的开始更新手机APP软件了,其他的不再说介绍,需要的注册看看,也可以等等养大了在玩。 智友论坛新地址:http://bbs.zhiyoo.net/forum.php

Leave a Comment

《哈利波特》召集原班人马2020年回归拍新电影?

2001年开启的英国魔法电影系列《哈利波特》(Harry Potter)风靡全球,由于作者J·K·罗琳原著小说一共只推出了7集,因此丹尼尔雷德克里夫(Daniel Radcliffe)、艾玛华森(Emma Watson)和鲁伯特葛林特(Rupert Grint)三大主角主演的电影版,也就在2011年上映的《哈利波特-死神的圣物2》正式大结局。 不过现在饰演「奈威隆巴顿」的本尊演员马修路易斯(Matthew Lewis )居然宣告要开拍全新的《哈利波特》电影了? ▼在全球哈利波特迷的热情呼喊之下,J·K·罗琳在2016年又再度参与制作哈利波特全新衍生前传电影《怪兽与它们的产地》(Fantastic Beasts and Where to Find Them )。就在这个月华纳官方宣布《怪兽3》已获拍摄许可,上一集主要演员将全数回归演出!令许多书迷都期待能够看到更多书中所未表现过的邓不利多、葛林戴华德的禁忌之恋。 ▼不过没想到就在这周,「奈威隆巴顿」演员马修路易斯突然无预警发出了一则推特贴文,直白宣告:「《哈利波特》原班卡司将会在明年2020开拍新电影。」不过当哈利波特粉丝兴奋点进马修路易斯附上的网址后,却会发现内容居然是英国选民注册网站?原来为了鼓励全民参与投票,英国网友最近就很流行用这种「钓鱼标题」让大家点进网址,马修路易斯也开了一个同样的善意小玩笑。 许多被马修路易斯骗到的网友不禁在底下纷纷表现出失望的表情,并留言:「我不是英国人,这里也没有真正的新哈利波特电影,所以我一无所有…」、「葛莱分多扣10分!」、「你真的骗到我点进去网址了!」、「不敢相信奈威你居然是这种骗子!」不过回想最近我们才看见「跩哥马份晒出苍老对比照,年仅32岁自嘲老化速度太快」,要让《哈利波特》电影原班人马的演员回归演出实在是有点不切实际的点子。

Leave a Comment

欧美圈的大新闻,麻辣鸡宣布退出娱乐圈回归家庭 ​​​​

麻辣鸡Nicki Minaj今天发推宣布将退出娱乐圈,回归家庭。同时让粉丝们继续一直支持她,“直到我死去”。今年7月底,麻辣鸡与男友Kenneth Petty正式领取了结婚证。9月初,麻辣鸡就宣布退休……或许这就是爱情的魔力吧 今天全美社交媒体被这条新闻引爆,很大程度上因为这位老公实在劣迹斑斑。Petty在16岁时就因为强奸一名同龄女孩入狱4年;2002年因枪杀他人服刑7年。41岁的Petty在监狱中度过了四分之一的人生,结果出狱后拿下了如日中天的rap女王,还能让她放弃事业….

Leave a Comment

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

Can't find what you're looking for? Try refining your search: