Press "Enter" to skip to content

3758 search results for "Fi"

这篇AI论文揭示了HiFi4G:照片级人物建模和高效渲染的突破性技术

以体积记录和真实表现4D(时空)人类表演来消除观众和表演者之间的障碍。它提供各种沉浸式的VR / AR体验,如远程呈现和远程教育。一些早期系统使用非刚性配准明确地从录制的镜头中重新创建纹理模型。然而,它们仍然容易受到遮挡和纹理缺陷的影响,从而导致重建输出中的缺口和噪音。最近的神经突破,如NeRF,通过优化基于坐标的多层感知器(MLP),而不是诉诸于显式重建,以实现照片级别的体积渲染。 某些动态NeRF变体旨在通过额外的隐式变形场保持一个规范的特征空间,用于在每帧中重现特征。然而,这样的规范设计对重要的拓扑变化或大规模运动敏感。通过平面因子化或哈希编码,最新的方法消除了变形场,并简洁地描述了4D特征网格。它们极大地加快了交互式程序渲染和训练的速度,但在运行时内存和存储问题上有待解决。最近,3D高斯点(3DGS)回归到了表示静态场景的显式范例。它基于GPU友好的3D高斯基元的光栅化,实现了以前无法实现的实时高质量辐射场渲染。一些正在进行的项目修改3DGS以适应动态设置。 一些集中在捕捉动态高斯的非刚性运动,但在过程中失去渲染质量。其他的失去了原始3DGS的明确和GPU友好的优雅,并且不能处理长期运动,因为它们使用额外的隐式变形场来填补运动信息。在本研究中,上海科技大学、NeuDim、字节跳动和DGene的研究团队介绍了HiFi4G,这是一种完全明确且紧凑的基于高斯的方法,用于从密集视频中重现高保真度的4D人类表演(参见图1)。他们的主要概念是将非刚性跟踪与3D高斯表示相结合,将运动和外观数据分离,以实现紧凑和压缩友好的表示。HiFi4G在当前隐式渲染技术的优化速度、渲染质量和存储开销方面表现出色。 图1展示了我们的高分辨率紧凑高斯点光栅。HiFi4G将经典的非刚性融合技术与多视角人类表演视频的可微光栅化进展相结合,有效生成紧凑的4D资产。 借助明确表示的帮助,他们的结果也可以轻松集成到基于GPU的光栅化流水线中,让用户在佩戴VR头盔时见证高保真度的虚拟现实人类表演。研究团队首先提供了一个由细粒度高斯和粗略变形图组成的双图技术,以自然地将高斯表示与非刚性跟踪连接起来。对于前者,研究团队使用NeuS2在使用嵌入式变形(ED)以关键帧的方式之前为每帧创建几何代理。这种明确的跟踪技术将序列分成若干部分,在每个片段内提供丰富的运动先验。类似于关键体积更新,研究团队通过使用3DGS从先前的片段减去错误的高斯并更新新的高斯来限制当前片段中的高斯数量。 接下来,研究团队构建了一个细粒度的高斯图,以通过从粗略的ED网络中插值每个高斯运动进一步初始化。通过简单地将高斯图与ED图弯曲并转换到屏幕空间,会导致严重的不自然扭曲;而持续优化而没有任何限制则会产生抖动的伪影。为了适当地平衡高斯特征的更新和非刚性运动先验,研究团队建议了一个4D高斯优化方法。研究团队使用时态正则化器确保每个高斯的外观属性的一致性,例如不透明度、缩放系数和球面谐波(SH)。研究团队建议对动态特性(位置和旋转)进行平滑处理,以在相邻高斯之间生成尽可能刚性的移动。 为了惩罚那些展示出小型、非刚性运动的区域上的闪烁瑕疵,这些正则化器添加了自适应加权机制。研究团队在优化后生成了时空紧凑的四维高斯模型。研究团队提出了一种伴随压缩技术,该技术采用了常规的残差校正、量化和熵编码,用于对高斯参数进行处理,以使其HiFi4G对消费者有用。每帧具有显著的压缩比约为25倍,并且仅需要不到2MB的存储空间,使其能够在各种设备上进行沉浸式观测,包括虚拟现实头显设备。 简而言之,他们的主要贡献包括以下几点: • 研究团队引入了一种紧凑的四维高斯模型,将高斯飞溅与非刚性跟踪相连接,用于人体表演渲染。 • 研究团队提供了一种双图结构方法,可以有效地恢复具有空间时间一致性的四维高斯模型,采用不同的正则化设计。 • 研究团队提供了一种互补的压缩方法,可以在多个平台上实现低存储的沉浸式人体表演体验。

Leave a Comment

这篇来自谷歌和加利福尼亚大学伯克利分校的人工智能论文介绍了NeRFiller:一种通过2D修补扩散模型彻底改革3D场景重建的人工智能方法

如何有效地完成3D捕获的缺失部分?这篇来自Google Research和UC Berkeley的研究论文介绍了“NeRFiller”,一种新颖的3D修补方法,解决了由于重建失败或缺乏观察而经常缺失的不完整的3D场景或物体的重建问题。该方法通过参考示例控制修补过程,从而实现精确和可定制的场景修补。NeRFiller是一种3D生成修补方法,可以增强3D捕获中的场景或物体,是改善3D重建的有效解决方案。 该研究探讨了从传统的2D修补到像LaMa这样的大规模修补技术的不同方法,涉及概率和潜在扩散模型,考虑到涉及文本或图像的3D生成方法。强调了对象去除设置的相关性,并对3D修补的各种基准和数据集进行了评估。虽然涉及视频和场景编辑的相关作品,但重点主要是现有3D场景的场景完成。 该研究解决了3D场景补全和修补的挑战,强调了3D感知和多视角一致性方法的重要性。区分了场景补全和对象去除,重点是在3D场景中生成新的内容。讨论了2D生成修补模型在3D一致图像方面的限制。所提出的NeRFiller方法利用了从文本到图像扩散模型中的网格先验现象,以增强修补中的多视角一致性。还讨论了生成3D场景和对象去除方法的相关作品。 NeRFiller是一种利用生成的2D扩散模型作为修补的方法,用于完成3D场景中的缺失区域。它解决了各种修补估计和2D模型中缺乏3D一致性的挑战。NeRFiller引入了用于显著修补结果的整合机制,并鼓励3D特性。它利用迭代的3D场景优化,将网格修补扩展到大型图像集合。对比了Masked NeRF和LaMask等基准,证明了NeRFiller的有效性。评估包括比较、新视图度量、图像质量和几何度量。 NeRFiller在3D场景完成方面表现出色,填补了缺失区域并去除了不需要的遮挡物,在3D一致性和合理性方面表现出色。与对象去除基准相比,NeRFiller在完成缺失区域方面表现优异。评估指标包括NeRF、新视图、MUSIQ图像质量和几何度量,展示了它在生成连贯和逼真的3D场景方面的有效性。 总之,NeRFiller是一款强大的3D修补工具,可以准确完成3D场景中的缺失部分。它填充间隙并去除非理想元素的能力优于对象去除基准。引入联合多视角修补进一步增强其一致性,通过在多个图像上平均噪声预测。通过与最先进的基准进行比较,NeRFiller表现出了完成用户指定的3D场景的有效性。它为根据用户定义的规范修补3D捕获中的缺失区域提供了有价值的框架。

Leave a Comment

阿尔珀·特金,Findem首席产品官 – 访谈系列

阿尔珀·泰金是Findem的首席产品官,Findem是一个人工智能人才招聘和管理平台Findem的人才数据云建立在最先进的人才数据之上它能够以市场的运动速度学习,为您的整个团队提供无与伦比的人才情报以前您是一位连续创业者,担任创始人兼首席执行官

Leave a Comment

(Note The translation may vary depending on the specific context and preferences, as well as the desired formality level.)

国际自然保护联盟(IUCN)启动了多个项目,以保护野生动物其中一项努力导致了一个高质量的全球地理空间数据库,其中包含了栖息地…

Leave a Comment

优化 Purina 的 Petfinder 应用程序的宠物配置文件,使用 Amazon Rekognition 自定义标签和 AWS Step Functions

宠爱纽仕兰(Purina US)是雀巢的子公司,通过全美、加拿大和墨西哥共有超过11,000家动物收容所和救援组织的数字市场Petfinder,帮助人们更轻松地领养宠物的历史悠久作为领先的宠物领养平台,Petfinder已帮助数百万宠物找到了它们永远的家宠爱纽仕兰一直以来都坚持……

Leave a Comment

这项人工智能研究揭示了“康定斯基1号”:一种在COCO-30K上以杰出的FID分数进行潜在扩散文本到图像生成的新方法

近年来,计算机视觉和生成建模取得了显著进展,推动了文本到图像生成的发展。包括扩散模型在内的各种生成架构在提高生成图像的质量和多样性方面起到了关键作用。本文探讨了Kandinsky1的原理、特点和能力,这是一个具有33亿参数的强大模型,并强调了它在可衡量的图像生成质量方面的顶级表现。 文本到图像生成模型已经从内容级别的自回归方法演变为像DALL-E 2和Imagen这样的基于扩散的模型。这些扩散模型被分类为像素级和潜在级别的模型,在图像生成方面表现出色,超越了GAN在忠实度和多样性方面。它们在不需要对抗训练的情况下整合文本条件,如GLIDE和eDiff-I模型所示,这些模型生成低分辨率的图像,并使用超分辨率扩散模型将其放大。这些进步改变了文本到图像生成的方式。 AIRI、Skoltech和Sber AI的研究人员介绍了Kandinsky,这是一种结合了潜在扩散技术和图像先验模型的新型文本到图像生成模型。Kandinsky以修改后的MoVQ实现作为其图像自编码器组件,并单独训练图像先验模型将文本嵌入映射到CLIP的图像嵌入中。他们的方法提供了一个用户友好的演示系统,支持多种生成模式,并发布了模型的源代码和检查点。 他们的方法引入了一种潜在扩散架构,用于文本到图像合成,利用图像先验模型和潜在扩散技术。它采用了一种图像先验方法,通过使用CLIP和XLMR文本嵌入之间的扩散和线性映射,将文本与图像嵌入相结合。他们的模型包括三个关键步骤:文本编码、嵌入映射(图像先验)和潜在扩散。基于全数据集统计的视觉嵌入逐元素归一化实现可以加速扩散过程的收敛。 Kandinsky架构在文本到图像生成方面表现出色,在256×256分辨率下在COCO-30K验证数据集上获得了令人印象深刻的FID分数8.03。线性先验配置获得了最佳的FID分数,表明视觉和文本嵌入之间存在潜在的线性关系。他们的模型在训练一个“猫先验”时展示了出色的图像生成能力。总体而言,Kandinsky在文本到图像合成方面与最先进的模型竞争激烈。 Kandinsky作为一种基于潜在扩散的系统,在图像生成和处理任务中表现出色。他们的研究广泛探索了图像先验设计选择,线性先验显示出潜在的应用前景,并暗示了视觉和文本嵌入之间存在线性关联。用户友好的界面,如Web应用和Telegram机器人,提高了可访问性。未来的研究方向包括利用先进的图像编码器,增强UNet架构,改进文本提示,生成更高分辨率的图像,以及探索局部编辑和基于物理的控制等功能。研究人员强调需要解决内容方面的问题,建议使用实时审核或强大的分类器来减轻不受欢迎的输出。

Leave a Comment

Hugging Face推出IDEFICS:开创性的开放式多模态对话人工智能与视觉语言模型

在人工智能的动态领域中,一个持续存在的挑战给该领域的进展蒙上了一层阴影:围绕着最先进的AI模型的谜团。虽然不可否认地令人印象深刻,但这些专有的奇迹一直保持着一种隐藏着开放研究和发展进程的神秘氛围。Hugging Face的一支专门研究团队通过IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)的引入,弥合了这个巨大的鸿沟。这个多模态语言模型不仅仅是一个简单的竞争者;在功能方面,它与其闭源的对手齐肩。 此外,它还以令人耳目一新的透明度运作,利用公开可用的数据。这个努力背后的推动力是鼓励开放性、可访问性和协作创新的人工智能。在一个渴望着开放性的AI模型,能够熟练处理文本和图像输入以产生连贯对话输出的世界中,IDEFICS成为进展的光芒。 虽然目前的方法值得赞赏,但它们仍然陷入了专有的限制中。然而,IDEFICS的领导者们提出了一个更大胆的建议:一个开放获取的模型,与其闭源的对手在性能上相当,并且完全依赖于公开可用的数据。这个具有远见的创造以Flamingo的强大为基石,有两个版本可供选择:一个有800亿参数的变体和一个有90亿参数的变体。这种范围的分歧确保了它在各种应用中的适应性。研究团队的愿望超越了简单的进步;他们希望建立一个透明的AI开发范式,解决多模态对话AI中的空白,并为其他人奠定舞台。 IDEFICS登场,一个真正的多模态模型奇才。它具有将图像和文本序列吸收为上下文连贯对话文本的天赋能力。这种创新与团队的总体透明度使命完美契合-这是一种贯穿其中的特质。该模型的基石是公开可用的数据和模型的堆叠,有效地推翻了进入门槛的壁垒。其性能证明了这一点:IDEFICS通过轻松回答关于图像的查询、生动地描述视觉叙事,甚至创造与多张图像相关的故事而令人惊叹。它的800亿和90亿参数版本的双重奏与前所未有的可扩展性相 resonates。这个多模态的奇迹,经过仔细的数据整理和模型开发,展开了开放研究和创新的新篇章。 https://huggingface.co/blog/idefics 作为对闭源专有模型所带来的困难的回应,IDEFICS成为开放创新的火球。超越简单的创造,这个模型象征着走向可访问和协作式AI开发的一大步。将文本和图像输入融合,产生一系列对话输出,预示着跨行业变革的来临。研究团队对透明度、道德审查和共享知识的奉献将人工智能的潜力凝结成实质,有望造福人类。在其本质上,IDEFICS展示了开放研究在引领超凡技术新时代方面的潜能。随着AI社区响应这一鼓舞人心的号召,可能性的边界扩展了,为更加光明、更加包容的数字明天带来了承诺。

Leave a Comment

介绍 IDEFICS:一个开放的最先进的视觉语言模型的再现

我们很高兴发布 IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS),这是一个开放获取的视觉语言模型。IDEFICS基于Flamingo开发的最新视觉语言模型,Flamingo最初由DeepMind开发,尚未公开发布。与GPT-4类似,该模型接受任意的图像和文本输入序列,并输出文本结果。IDEFICS仅基于公开可用的数据和模型(LLaMA v1和OpenCLIP)构建,并提供两个变种——基础版本和指导版本。每个变种在90亿和800亿参数规模上都可用。 开发先进的AI模型应该更加透明。我们的目标是通过IDEFICS的复现和提供AI社区与Flamingo等大型专有模型相匹配的系统来推动透明度。因此,我们采取了重要的步骤,为这些AI系统带来透明度:我们仅使用公开可用的数据,我们提供了探索训练数据集的工具,我们分享了构建此类工件的技术教训和错误,并在发布之前通过对抗性提示评估了模型的有害性。我们希望IDEFICS能够为多模态AI系统的更加开放的研究提供坚实的基础,与OpenFlamingo等模型一起,后者是Flamingo在90亿参数规模下的另一个开放复现。 在Hub上尝试演示和模型! 什么是IDEFICS? IDEFICS是一个拥有800亿参数的多模态模型,它接受图像和文本序列作为输入,并生成连贯的文本作为输出。它可以回答关于图像的问题,描述视觉内容,创建基于多个图像的故事等。 IDEFICS是Flamingo的开放复现版本,在各种图像-文本理解基准测试中与原始闭源模型在性能上可比。它有两个变种——800亿参数和90亿参数。 我们还提供了针对对话使用案例进行调优的版本idefics-80B-instruct和idefics-9B-instruct。 训练数据 IDEFICS是在一系列公开可用的数据集上进行训练的:维基百科、公共多模态数据集和LAION,以及我们创建的一个新的包含1150亿标记的数据集,称为OBELICS。OBELICS包含从网络上抓取的1.41亿个交错的图像-文本文档,并包含3.53亿张图像。 我们提供了OBELICS的交互可视化,可以使用Nomic AI来探索数据集的内容。 IDEFICS的架构、训练方法和评估细节,以及关于数据集的信息,都可以在模型卡和我们的研究论文中找到。此外,我们还记录了模型训练中的技术见解和经验教训,提供了对IDEFICS开发的有价值的视角。 道德评估 在项目开始时,我们通过一系列讨论制定了一个道德宪章,该宪章将帮助指导项目期间的决策。该宪章阐明了价值观,包括自我批评、透明度和公平性,我们一直努力追求在项目和模型发布中贯彻这些价值观。 作为发布过程的一部分,我们通过对模型进行对抗性提示,使用可能引发我们不希望模型产生的响应的图像和文本来进行内部评估,以评估其潜在的偏见(这个过程称为红队测试)。…

Leave a Comment

Adobe Express通过Firefly生成式AI提升用户体验

“Adobe,一个与开创性设计软件同义的名字,再次成为新闻的焦点经过几个月的测试,该公司将其Firefly生成式AI模型整合到Adobe Express中,进一步将该平台转变为一个先进的、由AI驱动的设计工具对于那些不熟悉的人来说,之前被称为Adobe Spark的Adobe Express…”

Leave a Comment

见到GOAT-7B-社区模型:一种在GoatChat应用收集的数据集上对AI模型Fine-Tuned LLaMA-2 7B模型进行微调的模型

最近,AI研究实验室的科学家们发布了GOAT-7B-Community模型,该模型通过使用GoatChat应用的数据对LLaMA-2 7B模型进行了改进。Meta的LLaMA v2 7B经过微调,成为了最先进的GOAT-7B-Community模型,利用了从GoatChat应用获得的新颖、细粒度的数据集。 “对齐”在创建大型语言模型(LLM)中至关重要。这是一种模型可以拒绝回答其认为不道德或非法的问题的思想,基于其教育和经验。对齐对于道德AI实施至关重要,但也给模型优化带来了新的障碍。 研究人员注意到,通过对齐生成的回答很少提供客户所需的精确细节。这些反应通常更为温和,表明不愿意详细阐述。解决这个问题是至关重要的,如果要构建一个可靠的模型,为问题提供深入和完整的回答。他们发现,对齐过滤器并不能消除所有不当建议。因此,对齐通常会导致丢弃大量的数据集。这相当于案例中总信息的三分之一左右。 鉴于这个问题,研究人员开发了一种新的清理数据集的技术。此外,他们进行了一项受管制的实验,以全面了解对齐回复对模型性能的影响。 科学家们是如何受教的 配备八个A100 NVIDIA GPU的高性能节点为深度学习计算提供了支持。研究人员选择了bfloat16浮点格式和DeepSpeed ZeRO-3优化作为训练过程的基础。他们对模型进行了三次迭代,每隔一个时期保存一次进展。然而,经验证据显示,执行一个时期后,质量开始下降。这促使他们重新思考他们的策略,并选择进行一次训练时期并进行一次中途检查。常用的评估语言模型的标准,如MMLU和BigBench Hard,用于评估GOAT-7B-Community模型。团队目前正在分析所有模型,并将很快发布他们的研究结果。 用途 大语言模型和聊天机器人的研究是GOAT-7B-Community的主要关注点。自然语言处理、机器学习和人工智能的学者和爱好者将发现它特别有用。 限制 尽管具有令人印象深刻的推理能力,该模型仍然存在与其相对较小的规模(7B模型被认为是“小型”LLM)相关的问题。其中最明显的问题是“幻觉”。这些“幻觉”是一个不断阻碍解决的障碍,随着LLM的改进和扩展。 “幻觉”是人工智能研究中非常强调的一个持久性问题。最终目标是开发出能够产生逻辑上正确、符合语法的答案,并忠实于所提供事实的模型。 风险和偏见 由于GOAT-7B-Community模型使用了公共和专有数据进行训练,因此该模型的可靠性不高,可能会返回与现实相悖的结果。因此,GOAT-7B-Community模型可能产生不准确、有偏见甚至令人反感的结果。 主要观察 没有比这更好的免费7B模型。 良好的MMLU结果的关键是多样化和高质量的数据集。 与当前的13B模型相比,7B的表现令人钦佩。 然而,尺寸限制仍然存在。…

Leave a Comment

加州大学伯克利分校的研究人员推出了Gorilla:一个基于Finetuned LLaMA的模型,在编写API调用方面超越了GPT-4

人工智能领域最新的突破是大型语言模型(LLM)的引入。这些模型使我们能够更简洁地理解语言,从而更好地利用自然语言处理(NLP)和自然语言理解(NLU)。这些模型在包括文本摘要、问答、内容生成、语言翻译等各种任务上表现良好。它们能够理解复杂的文本提示,甚至能够理解带有推理和逻辑的文本,并识别数据之间的模式和关系。 尽管语言模型在各种任务中表现出色,并且在最近的发展中取得了显著进展,但它们仍然难以高效地通过API调用使用工具。即使是像GPT-4这样有名的LLM也难以生成精确的输入参数,并经常推荐不合适的API调用。为了解决这个问题,伯克利和微软研究人员提出了Gorilla,这是一个基于细调的LLaMA模型,它在生成API调用方面击败了GPT-4。Gorilla有助于选择合适的API,提高LLM与外部工具合作执行特定活动的能力。 研究团队还创建了一个名为APIBench的数据集,其中包含了大量重叠功能的API。该数据集是通过收集TorchHub、TensorHub和HuggingFace等公共模型库的ML API创建的。每个API都包含来自TorchHub和TensorHub的每个API请求,并选择HuggingFace每个任务类别的前20个模型。此外,他们使用自我指导方法为每个API生成了十个虚构的用户查询提示。 使用这个APIBench数据集和文档检索,研究人员对Gorilla进行了细调。这个70亿参数的模型在API功能的正确性和减少产生幻觉错误方面优于GPT-4。文档检索器与Gorilla的有效集成展示了LLM更精确使用工具的可能性。Gorilla的改进的API调用生成能力以及根据需要修改文档的能力提高了模型结果的适用性和可靠性。这一发展非常重要,因为它使LLM能够跟上定期更新的文档,为用户提供更准确和最新的信息。 研究人员分享的一个例子显示了Gorilla如何正确识别任务并提供经过充分确认的API结果。模型生成的API调用显示GPT-4为假想模型生成API请求,这表明它对任务的理解不足。Claude选择了错误的库,显示了无法识别正确资源的能力不足。相比之下,Gorilla正确识别了任务。因此,Gorilla与GPT-4和Claude不同,其API调用生成准确,既展示了其增强的性能,又展示了其任务理解能力。 总之,Gorilla是语言模型列表中的重要增加,因为它甚至解决了编写API调用的问题。它的能力能够减少与产生幻觉和可靠性相关的问题。

Leave a Comment

案例研究:使用Hugging Face Infinity和现代CPU实现毫秒级延迟

介绍 迁移学习改变了机器学习领域,从自然语言处理(NLP)到音频和计算机视觉任务,提高了准确性。在Hugging Face,我们努力使这些新的复杂模型和大型检查点尽可能易于访问和使用。但是,虽然研究人员和数据科学家已经转向了Transformer的新世界,但很少有公司能够在生产规模上部署这些大型复杂模型。 主要瓶颈是预测的延迟,这可能使大规模部署变得昂贵,并使实时应用场景变得不切实际。解决这个问题对于任何机器学习工程团队来说都是一个困难的工程挑战,并且需要使用先进的技术将模型优化到硬件层面。 通过Hugging Face Infinity,我们提供了一个容器化解决方案,可以轻松部署低延迟、高吞吐量、硬件加速的推理流水线,适用于最受欢迎的Transformer模型。公司可以在简单易用的包装中获得Transformer的准确性和大规模部署所需的效率。在本博客文章中,我们想分享Infinity在最新一代英特尔Xeon CPU上运行的详细性能结果,以实现Transformer部署的最佳成本、效率和延迟。 什么是Hugging Face Infinity Hugging Face Infinity是一个容器化解决方案,供客户在任何基础设施上部署端到端优化的最先进的Transformer模型的推理流水线。 Hugging Face Infinity包括两个主要服务: Infinity Container是作为Docker容器交付的硬件优化推理解决方案。 Infinity Multiverse是一个模型优化服务,用于针对目标硬件优化Hugging Face Transformer模型。Infinity Multiverse与Infinity Container兼容。…

Leave a Comment

使用🤗 Transformers对多语言ASR进行微调的Fine-Tune Whisper

在本博客中,我们使用Hugging Face 🤗 Transformers为任何多语种ASR数据集提供了Whisper微调的逐步指南。本博客提供了对Whisper模型、Common Voice数据集以及微调背后原理的深入解释,并附带了执行数据准备和微调步骤的代码单元格。如需更简洁版本的笔记本,其中包含更少的解释但包含所有代码,请参阅附带的Google Colab。 目录 介绍 在Google Colab中微调Whisper 准备环境 加载数据集 准备特征提取器、标记器和数据 训练和评估 构建演示 结束语 介绍 Whisper是由Alec Radford等人于2022年9月在OpenAI发布的用于自动语音识别(ASR)的预训练模型。与其许多前辈模型(如Wav2Vec 2.0)不同,Whisper在大量的标记音频转录数据上进行了预训练,准确地说是680,000小时。这比用于训练Wav2Vec 2.0的无标记音频数据(60,000小时)多一个数量级。此外,这个预训练数据中的117,000小时是多语种ASR数据。这导致可以应用于96种以上语言的检查点,其中许多语言被认为是低资源语言。 这个大量的标记数据使得Whisper能够直接在监督任务(语音识别)上进行预训练,从标记的音频转录预训练数据中学习从语音到文本的映射。因此,Whisper只需要很少的额外微调就能够产生高性能的ASR模型。这与Wav2Vec 2.0形成对比,后者在无监督任务(遮蔽预测)上进行预训练。在这种情况下,模型被训练来学习从无标记音频数据到隐藏状态的中间映射。虽然无监督预训练可以生成高质量的语音表示,但它并不学习从语音到文本的映射。这个映射只有在微调过程中学习,因此需要更多的微调才能产生有竞争力的性能。 当扩展到680,000小时的标记预训练数据时,Whisper模型展示了很强的泛化能力,适用于许多数据集和领域。预训练检查点在LibriSpeech ASR的测试-清洁子集上实现了与最先进的ASR系统竞争的结果,字错误率(WER)接近3%,并在TED-LIUM上取得了4.7%的WER新记录(参见Whisper论文的表8)。Whisper在预训练过程中获得的广泛多语种ASR知识可以用于其他低资源语言;通过微调,预训练检查点可以针对特定数据集和语言进行调整,进一步改善这些结果。…

Leave a Comment

Profile Pic Maker – 免费的头像在线工具,自动去背景并加上超过 50 种背景

无论是 Facebook、Instagram、LINE、还是其他社交媒体,都会需要上传头像,如果你还没找到合适的照片或图片,这篇要推荐一个还不错的免费线上大头贴工具, Profile Pic Maker 会自动帮你去背上传的照片,并加入超过 50 种背景选择,去背品质还相当不错,下面就快速介绍给大家。 进到网站之后,按中间的 + 即可选择你要上传的照片。想先试试的人,下方也有 Try demo photo 功能,我以这张为范例,有背景,不过不算复杂。 上传好后,就会自动帮你去背完成并套用各种不同背景,让人很惊艳的地方在,头发部分也去背的很干净,完全看不出破绽。背景图案也相当多元,有高设计感的、可爱风格、漫画风格、甚至黑白都有,照片背景也有,只可惜无法上传自己的图片,如果可以就更好用了。 页面上方还有编辑功能,可以调整照片保留的位置、旋转、放大或缩小,颜色部分也可以,点一下你喜欢的颜色,就会自动套用至所有背景SiHaiBa.com,还能加阴影,让大头贴看起来更立体。 根据网站开发者说明,上传的图片经过 24 小时候就会自动删除,不会保留在伺服器,最高支持 5MB 的 JPG / PNG…

Comments closed

Office Tool Plus:Office傻瓜式灵活部署并激活工具

真牛B! 只怪我学识浅薄,试用完这款小巧的免费软件之后,只能用这3个粗俗的字眼来形容。 Office Tool Plus是一款完全免费、无广告、绿色小巧并且功能强悍的Office管理工具,不管是自己使用还是帮别人安装Office相关软件,这款小工具绝对称得上是一枚神器! Office Tool Plus Office Tool Plus 是一个用于部署 Office, Visio 和 Project 的工具,支持 Office 2016、2019 和 365。借助 Office Tool Plus,你能很方便地部署 Office。…

Comments closed

我的WiFi卡片:mywifisign

我的WiFi卡片 这个网站可以让你方便地创建一张A4大小的卡片,包含你的WiFi信息和可供手机扫描连接WiFi的二维码。你只需要在👆上面的表格输入WiFi信息,就可以 🖨打印或者下载PDF了。 好吧,我要这个二维码干嘛? 问得好! 🤓 这个二维码可以让你用手机或者平板自带的相机,一步到位连接WiFi,省去了寻找WiFi,输入密码等等繁杂的手续。 用这个安全吗? 非常安全!你的WiFi信息会被安全地传输,只用于创建一张卡片,绝不会被储存或者分享给任何人。 https://www.mywifisign.com/zh-hans

Comments closed

火星情报局:素材管理工具Billfish、某包买的会会、万兴全能格式转换器、Github各种插件和脚本

#工具福利 1.免费素材管理工具Billfish 可以轻松管理您的各种素材文件,类似的软件有Eagle、Digikam、Bridge等等,关于他们的优缺点,可以参见这篇文章: https://zhuanlan.zhihu.com/p/151061991 里面有比较中肯的比较说明。 支持的格式有:JPG、PNG、GIF、PSD、Ai、EPS、SVG、PPXT、CDR、WEBP、BMP… 支持的筛选方式有:标签、形状、评分、类型、时间、尺寸、大小、标注、注释、网址… 官网:https://www.billfish.cn/ #工具福利 2.发个某包买的会会(带素材教程和模板) ~~会~~~声  ***#会  ~~@#影~,2018-64X版,低调使用。 地址:https://www.52pojie.cn/thread-1220974-1-1.html #工具福利 3.万兴全能格式转换器 v12.0.1.2 免激活绿色版 Wondershare UniConverter(万兴全能格式转换器,又叫万兴优转)国产全能音视频解决方案。具有音视频格式转换、合并视频、压缩视频、录制视频、下载视频等功能。UniConverter以超快的转换速度及强大的功能在国外名声大噪,转换速度号称是市面同类产品的30倍,操作简便,支持158种视频格式无损转换,批量转换高清视频堪称不会丢关键帧,此外集YouTube视频下载,投屏录屏,及DVD刻录等多功能于一身。 地址:https://www.52pojie.cn/thread-1220924-1-1.html #工具福利 4.玩转Github各种插件和脚本【效率提升200%】 可以按需安装,根据使用场景收集了很多帮助Github增效的工具。 地址:https://www.52pojie.cn/thread-1221353-1-1.html

Comments closed

官方微软恢复工具(Windows File Recovery)免费获取,拯救手滑删数据

微软官方上线文件恢复工具, 四海给你推荐微软应用商店刚刚上架了一个来自官方发布的工具, Windows File Recovery: https://www.microsoft.com/zh-cn/p/windows-file-recovery/9n26s50ln705 一个存储空间占用8.29 MB的命令行工具, 即使清空了硬盘,它也可以帮助用户恢复照片,文档,视频等文件, 该工具甚至可以从连接的相机或 SD 卡恢复数据,不过其不支持网络驱动器, 总的来说,会用的人还是很少的,喜欢钻研的自取,四海吧为您推荐!

Comments closed

宜家被爆不雅视频,拍摄者疑似P站创作者“fullfive”

5月9日宜家官方微博“@宜家家居IKEA”发布了一则声明, 针对网络流传的宜家不雅视频事件进行了公开声明。 关于宜家不雅事件,脑子里印象最深的还是前几年网上那组宜家露出套图, 不过那个年代久远,宜家不可能针对那个翻出来声明, 这次的声明必然是出现了新的拍摄者和视频。 果不其然,简单检索以后,发现这次宜家斥责的不雅视频拍摄者是一位P站创作者, 声明涉及视频是由P站用户“fullfive”拍摄的一组付费视频,不过视频上架后很快就被流出。 在网上发酵以后,没成想事件闹大,引起宜家官方注意,宜家不仅没有冷处理还报警了, “fullfive”清空了自己的P站频道,注销了推特账号,似乎销声匿迹一般。 简单搜索了一下这位原创者“fullfive”的一些视频, 主题基本都是户外露出,除了宜家之外,还拍了古村落,外卖员系列等, 被网友称为露出大神,尺度确实不一般! 因为宜家拍摄翻车,想必也是始料未及! 关起门来都是爱好,在一些公共场所做这些事情,影响确实不好! 经历此次事件,宜家以后可能会成为露出创作者的禁区!

Leave a Comment

美女分享网站Sharefie,全是正妹

正妹即美女,广东、香港、台湾对年轻美女的称号。字面上拆解就是“正点美眉”,之前给大家分享过相关类型的网站了,这次小编又找来了一个专门分享网络正妹的网站,叫做Sharefie,  是一個綜合性,包含多元丰富的网络资讯,是最用心经营的分享网站,网罗生活上的点点滴滴,可爱动物,正妹,创意设计,头条新闻,明星娱乐,让您忙碌又无聊的生活多一分姿彩。带领大家一起探索世界上每个角落隐藏的爱,让你快乐开心每一天,其实原來快樂就是因為看見別人愉快。 和之前分享的正妹网站类似,都是一些ins或者facebook上面的妹子,以亚洲的居多,妹子身材都是没得说的好,看看你喜欢那个吧。 网站由于服务器可能在外面,访问速度会有点慢。 网址走起:https://www.sharefie.net/category/2/%E6%AD%A3%E5%A6%B9

Leave a Comment

有村架纯出演绯村剑心之妻雪代巴-《浪客剑心最终章 The Final/The Beginning》公布角色海报

这真人电影版的《浪客剑心》将在今年夏季画上句号,分拆成两部上映也是该电影的一大特色,由于这次剧情要解密绯村剑心的脸上刀疤的秘密的所以作为剑心的妻子雪代巴将要出现,今天官方公布了有村架纯将出演雪代巴一角,并公布一张雪代巴侧面的宣传海报。 雪代巴是剑心之妻,并成为其抑制心灵迷失的灵魂剑鞘,是剑心脸上十字刀疤的故事起源。佐藤健对此表示,对于作为巴而言理应是第一次见面的有村架纯,我感到了无可奈何的怀念。“在The Beginning拍摄的第一天,我心中埋藏了七年的东西,突然以实体出现在眼前。对作为巴第一次见面的有村架纯,我感到无可奈何的怀念。从那以后的摄影的日子,既辛苦又像梦一样,现在回想起来,从没有过那样美丽又虚幻的时间。” 最终章会就剑心脸上的十字伤之谜、与雪代巴的战斗展开故事,对应的是漫画追忆篇与人诛篇的内容,该片将分为上下两篇公映:上篇于2020年7月3日在日本上映,下篇于2020年8月7日在日本上映 。

Leave a Comment

Awkwafina《别告诉她》的一个采访,评论竟然全是对她的外貌攻击,满屏不堪入目。

一个人好莱坞打拼数年,经历重重困难,终于凭借《别告诉她》《美人计》《摘金奇缘》等作品闯出一片天地,成金球奖首个亚裔影后,被Variety称赞为“2019年度女性力量”、给全世界亚裔带来更多自信的Awkwafina,却只换来大多人对她外貌的攻击。 ​​​​ @反吃瓜联盟:《时代周刊》的全球100人、“一生都在打破刻板印象的女孩”,在故乡遭到的是这种待遇。 @随心与欲_L:对这位亚裔华人演员最大的谩骂却是来自其亚裔华人”同胞”,多么讽刺。很多时候最歧视国人的,是国人自己。 @北国佳人李春姬:我看到她不会想到欧美对亚裔的审美偏见。我会感叹,长相平凡普通的女生也照样可以做主角,有为她们量身定做的故事让她们闪闪发光。《别告诉她》是在讲一个绝世大美人的故事吗?荧幕上一定要美才能做主角吗?觉得别人有审美偏见之前,先想想是不是自己太肤浅。

Leave a Comment

Can't find what you're looking for? Try refining your search: