Press "Enter" to skip to content

Month: June 2023

了解SDFStudio:一个统一和模块化的神经隐式表面重建框架,构建在Nerfstudio项目之上

在过去几年中,计算机视觉和计算机图形相关领域,特别是表面重建方面发展迅速。这个不断变化的三维扫描领域的主要目标是以给定的点云高效地重新创建表面,并满足特定的质量标准。这些算法旨在基于给定的点云数据估计被扫描对象表面的底层几何形状。然后可以利用这个表面进行各种用途,如可视化、虚拟现实、计算机辅助设计和医学成像。一些最著名的表面重建方法包括自组织映射、贝叶斯重建和泊松重建。随着表面重建成为三维扫描的关键方面,正在进行大量的研究,以利用无监督机器学习从三维扫描中进行表面重建的各种适用技术。 为了朝着这个方向迈进,来自图宾根大学、苏黎世联邦理工学院和捷克技术大学的一群研究人员合作开发了SDFStudio,这是一个统一而多功能的神经隐式表面重建工具(NISR)。该框架建立在nerfstudio项目之上,该项目主要提供API以简化创建、训练和可视化神经辐射场(NeRF)的过程。作为其实现的一部分,开发人员使用了三种主要的表面重建方法:UniSurf、VolSDF和NeuS。UniSurf,或称通用表面重建,是一种表面重建方法,旨在通过结合隐式函数和多边形网格从无组织的点云生成平滑的表面表示。另一方面,体积有符号距离场(VolSDF)是一种利用输入点云的体积表示的表面重建方法。NeuS,或神经表面,是一种利用深度神经网络从点云生成表面表示的表面重建方法,实质上结合了隐式表面表示和基于学习的方法的优势。 为了支持一系列场景表示和表面重建技术,SDFStudio使用有符号距离函数(SDF)作为其关键表示,该函数将表面定义为隐式函数的等值面。为了估计SDF,SDFStudio使用了多层感知器(MLPs)、三面和多分辨率特征网格等各种技术。这些技术利用神经网络和特征网格在场景中的不同位置估计有符号距离或占用值。为了进一步提高准确性和效率,该工具还包括多种点采样策略之一,其中之一是受UniSurf方法启发的面导向采样。此外,SDFStudio还采用了从NeuralReconW方法导出的体素表面导向采样。这种方法利用体素网格的信息来引导采样过程,确保生成的点更有可能位于对象的表面上。通过采用这种采样技术,SDFStudio确保生成的点样本代表底层表面,并确保重建表面的质量和准确性得到改善。 SDFStudio的一个显著特点是它提供了一个统一和模块化的实现,为在工具内不同方法之间转移思想和技术提供了便利的框架。例如,从Mono-NeuS到NeuS中观察到了思想转移。另一个思想转移的例子是Geo-VolSDF,它将Geo-NeuS的思想融入到VolSDF中。SDFStudio具备在不同方法之间转移思想的能力,促进了表面重建的进步,使研究人员有机会尝试不同的组合,从一个过程中获得灵感并将其整合到另一个过程中。为了快速开始使用SDFStudio,您可以按照其GitHub存储库上提供的设置说明进行操作。

Leave a Comment

Web规模训练释放:Deepmind推出OWLv2和OWL-ST,这是一种开创性的工具,用于开放词汇的目标检测,采用前所未有的自我训练技术驱动

开放词汇物体检测是各种实际计算机视觉任务的关键方面。然而,检测训练数据的有限可用性和预训练模型的脆弱性经常导致表现不佳和可扩展性问题。 为了解决这个挑战,DeepMind研究团队在他们的最新论文“Scaling Open-Vocabulary Object Detection”中介绍了OWLv2模型。这种优化的架构提高了训练效率,并采用了OWL-ST自训练方法,大大增强了检测性能,并在开放词汇检测任务中取得了最先进的结果。 这项工作的主要目标是优化标签空间、注释过滤和开放词汇检测自训练方法的训练效率,最终在有限的标记数据下实现稳健且可扩展的开放词汇性能。 所提出的自训练方法包括三个关键步骤: 团队使用现有的开放词汇检测器对WebLI数据集进行开放框检测。 他们利用OWL-ViT CLIP-L/14对所有WebLI图像进行边界框伪注释。 他们使用人工注释的检测数据对经过训练的模型进行微调,进一步改进其性能。 值得注意的是,研究人员采用了OWL-ViT架构的变体来训练更有效的检测器。该架构利用对比训练的图像-文本模型来初始化图像和文本编码器,而检测头部则是随机初始化的。 在训练阶段,团队使用相同的损失函数,并从OWL-ViT架构中添加“伪负样本”来增强查询,以优化训练效率,最大限度地利用可用的标记图像。 他们还结合了先前提出的大规模Transformer训练方法,进一步提高了训练效率。结果,OWLv2模型将训练FLOPS降低了约50%,训练吞吐量提高了2倍,相比原始的OWL-ViT模型。 团队在实证研究中将他们提出的方法与先前最先进的开放词汇检测器进行了比较。OWL-ST技术将LVIS罕见类别的平均准确率(AP)从31.2%提高到44.6%。此外,将OWL-ST自训练方法与OWLv2架构结合起来,实现了新的最先进性能。 总体而言,本文提出的OWL-ST自训练方法通过利用大规模网络数据的弱监督,显著提高了检测性能,实现了面向开放世界的规模化训练。这种方法解决了标记检测数据稀缺性带来的局限,并展示了以可扩展的方式实现稳健的开放词汇物体检测的潜力。

Leave a Comment

使用Amazon SageMaker Canvas,通过无代码机器学习来实现制造质量的计算机视觉缺陷检测的民主化

制造商最关注的是质量不良成本质量缺陷会增加废品和返工成本,降低生产效率,并可能影响客户和公司声誉在生产线上进行质量检查对于维持质量标准至关重要在许多情况下,使用人工视觉检查来评估质量和检测缺陷,这可能会 […]

Leave a Comment

什么是企业人工智能?

企业人工智能简介 时间紧迫,自动化是答案。在繁琐乏味的任务、人为错误、混乱的竞争和模糊的决策之间,企业人工智能使企业能够与机器合作,更高效地工作。否则,你如何在Netflix上浏览你喜欢的节目,或者在Amazon上找到并购买所需的配饰?从Waymo在汽车行业的应用到市场营销中的快速分析,人工智能已经为我们提供了足够的理由,说明它将会留下来。但是,它是如何帮助组织的?或者说,组织如何使用它?答案之一就是:企业人工智能。 你好!作为Analytics Vidhya博客的忠实读者,我们想向你介绍一个扩展你视野、提升你技能的绝佳机会。我们诚挚邀请所有数据科学和人工智能爱好者参加备受期待的DataHack Summit 2023。这场盛会将于8月2日至5日在印度班加罗尔的著名NIMHANS会议中心举行。这个活动将是一次充满乐趣的盛宴,提供实践学习、宝贵的行业见解和无与伦比的交流机会。如果你对这些主题感兴趣,想要了解更多关于这些概念如何变为现实的信息,请点击这里查看DataHack Summit 2023的详细信息。 企业人工智能定义 企业人工智能被定义为在大型组织中应用人工智能技术和方法来改进各种功能。这些功能包括数据收集和分析、自动化、客户服务、风险管理等等。它涵盖了使用人工智能算法、机器学习(ML)、自然语言处理(NLP)、计算机视觉等工具来解决复杂的商业问题、自动化流程并从大量数据中获取见解。 企业人工智能可以在不同领域实施。这包括供应链管理、财务、市场营销、客户服务、人力资源和网络安全等方面。它使组织能够做出数据驱动的决策,提高效率,优化工作流程,改善客户体验,并在市场中保持竞争优势。 来源:Publicis Sapient 企业人工智能的关键特点 企业人工智能涉及组织的许多方面,从数据分析到自动化。它是不同技术、方法和技巧的产物,对于每个行业或企业可能都不同。下面是它的工作原理: 结合人工智能技术的企业应用 有许多人工智能技术可以用于企业应用。企业人工智能公司使用机器学习、自然语言处理、边缘计算、深度学习、计算机视觉等多种技术的结合。这些技术可以提供强大的能力,帮助企业进行预测分析、图像识别等任务。Netflix的个性化推荐就是使用深度学习等技术的显著例子之一。 根据组织需求量身定制和设计 企业人工智能是各种技术的混合体。现在,由企业需求来决定在系统中采取何种方式和技术,这是组织的责任。毕竟,适用于供应链管理的技术可能在电子商务领域并不需要。 例如,医疗保健领域的企业人工智能公司采用像图像分析、患者监测等技术,以提高医疗实践的效率。能源行业使用预测性维护、可再生能源整合等技术来优化能源的产生和消费。不同行业的利用差异导致了组织在人工智能的不同领域中运作。 企业人工智能的益处和应用 以下是企业人工智能的主要益处: 提高运营效率和生产力 企业人工智能的终极优势之一是自动化重复和繁琐的任务,减轻员工的负担,使他们能够专注于更具战略性和高价值的活动。它简化流程,减少手动错误,并提高各个部门和功能(包括人力资源和供应链管理)的运营效率。最终,它是提高生产力的救星。 来源:AI空间…

Leave a Comment

2023年最佳加密电子邮件服务

如今,我们无法想象没有电子邮件的生活。了解各种可靠的电子邮件服务提供商是至关重要的。人们每天花费数小时检查商务和个人电子邮件。尽管电子邮件非常有用和高效,但它也存在严重的安全漏洞。除非您使用像Gmail或Outlook这样的主流服务。 电子邮件是黑客访问私人公司数据的主要入口点。安全的电子邮件提供商对于保护您的收件箱和您每天发送和接收的敏感信息至关重要。 通过阅读本文,了解有关顶级安全电子邮件服务提供商的更多信息,并找到最适合您公司的那一个。 ProtonMail 最广泛使用的加密电子邮件服务是ProtonMail。它使用非对称端到端加密,并且是在瑞士开发的开源软件。如果您只需要一点空间,并且每天发送的电子邮件少于150封,那么您可以免费使用ProtonMail。自毁电子邮件是ProtonMail的一个很酷的功能。您可以安排一封电子邮件在一定时间过去后从收件人的收件箱中删除。您的消息和附件在ProtonMail处于加密状态。因此,即使ProtonMail也无法读取您的加密消息,因为它无法访问您的密码(这也意味着他们无法重置您的密码)。 Mailbox.org 如果您是需要除Google或Microsoft提供的安全电子邮件解决方案之外的其他解决方案的商务人士,请查看Mailbox.org。它除了电子邮件之外还具有许多功能,包括带加密的云存储、视频会议、通讯录、日历和待办事项列表。该服务使用PGP加密,这是电子邮件加密的事实标准。虽然没有零成本选项,但Mailbox.org相当便宜。注册和付款都是离散的选项。此外,Mailbox.org以使用可再生能源而自豪。 HubSpot HubSpot的丰富工具套件包括电子邮件托管和营销服务,以及客户支持和内容管理,使其成为企业的一站式购物平台。HubSpot的功能为您和您的客户的电子邮件通信提供了多种保护措施。HubSpot的营销电子邮件平台支持最新的BIMI认证标准以及SPF、DKIM和DMARC。HubSpot在传输和存储数据时使用一流的安全措施,以防止不受欢迎或意外的访问他们的网络,包括在计算机之间传输时的加密。 Zoho Mail 虽然每个人都可以使用Zoho Mail的免费版本,但商业用户非常重视该服务。Workplace计划提供了多种沟通和合作方式,包括文字处理程序、电子表格程序、网络研讨会平台、聊天功能等。它使用S/MIME,一种非对称加密形式,对您的电子邮件在传输过程中和存储在Zoho服务器上时进行加密。每个用户的电子邮件都受到其数字签名的保护,使其不可能被伪造。评论通常称赞Zoho Mail的易用性。使用其管理界面,您可以集中配置公司中的所有邮箱。 Tutanota 开源的Tutanota还提供了端到端加密和双因素身份验证的电子邮件。对个人信息的保护是Tutanota的首要任务。它使用AES和RSA加密,而不是PGP。这些实现使用与PGP相同的方法,但它们使用对称和非对称密钥提供了额外的保护。其他安全措施包括图像阻止、标题剥离和钓鱼攻击警告。免费计划包括1GB的存储空间和一个供个人使用的日历。 Posteo 由于Posteo允许用户匿名注册和付款,因此经常被活动人士和记者使用,他们重视保持匿名性。Posteo在传输和存储时都对信息进行加密。Posteo的端到端加密默认处于关闭状态,但如果需要,可以激活。由于支持POP和IMAP,因此可以将Posteo与诸如Microsoft Outlook之类的流行电子邮件客户端集成。使用Posteo的迁移服务,从其他电子邮件提供商迁移是快速简便的,而无需丢失消息、文件夹、联系人或日历。 Thexyz 谈到安全的电子邮件服务,Thexyz只是一个小角色。尽管缺乏本地的端到端加密,但浏览器扩展程序Mailvelope使得使用OpenPGP端到端加密变得容易。防火墙和垃圾邮件过滤器也可以保护您的收件箱。Thexyz是一家加拿大公司,但其许多服务器位于美国,如果您重视对窥视者的安全,那么选择Thexyz可能不是一个好选择。通过迁移服务,可以轻松地转移来自Office 365、Gmail和其他服务的电子邮件、日历和联系人。 PrivateMail PrivateMail提供了自毁电子邮件和其他安全功能,如端到端的OpenPGP加密。与其他加密电子邮件提供商相比,PrivateMail之所以突出,是因为它使用了云存储。通过AES 256加密,您在云端的数据是安全的。您可以选择在本地机器上解密下载的文件。您可以使用PrivateMail发送和接收加密文件。PrivateMail的一个缺点是它的总部位于美国。它的价格也比大多数替代方案更高。…

Leave a Comment

2023 年市场营销中 ChatGPT 的十个应用案例

ChatGPT 在2022年11月发布后,彻底改变了我们与人工智能模型的互动和使用方式。它的应用范围从生物技术和药物开发到市场营销。毫无疑问,自问世以来,ChatGPT 对几乎所有领域都产生了影响。本文讨论了ChatGPT在2023年市场营销中的一些应用案例。 内容创作 ChatGPT 最大的优势是文本生成。在用户提示后,它可以撰写引人入胜、发人深省的文章,因此非常适合内容创作。它可以撰写电子邮件、社交媒体帖子、博客文章、广告文案等。模型生成的内容可以与不同的市场营销渠道相结合,如针对电子邮件推广的说服性电子邮件,数字营销活动的内容等。这使得ChatGPT成为撰写文案的理想工具。 然而,重要的是向模型提供详细的提示,包括引人入胜、有说服力等关键词,以提取模型的最大价值。 搜索引擎优化 ChatGPT 在市场营销中是一种很好的搜索引擎优化(SEO)工具。通过提供适当的关键词和短语建议,它可以确保用户的文章在搜索引擎结果页面上排名更高。它还可以生成主题想法、创建内容结构和找到有吸引力的标题。 潜在客户生成 利用其语言能力,基于GPT的聊天机器人可以与网站访客进行基于文本的对话,不仅帮助他们解决问题,还可以收集潜在客户生成的信息。聊天机器人可以向访客提供有关产品和服务的信息,并收集他们的联系方式和偏好信息以进行潜在客户生成。此外,通过分析客户与网站的互动,模型可以生成个性化的电子邮件,以提高营销活动的效果。 提升客户服务质量 将ChatGPT集成到聊天机器人系统中,通过提供即时和个性化的协助,彻底改革了客户支持。这些基于人工智能的聊天机器人提高了客户满意度,减少了响应时间,并减轻了客户服务代表的工作负担。借助ChatGPT的智能回应,它们解决了等待时间长、行为不当和沟通渠道不可靠等问题。通过改善客户服务质量,营销人员可以获得有关客户痛点的有价值见解,并更好地满足他们的需求。 受众研究 利用搜索查询、社交媒体互动和过去的购买数据,ChatGPT可以识别客户行为模式和趋势,从而确定目标受众的兴趣、偏好和痛点。该分析能够帮助用户对他们的营销内容和产品开发做出明智的决策。 撰写产品描述 产品描述在市场营销中起着重要作用,它们向潜在客户传递有关产品特性、优势和价值的宝贵细节。借助ChatGPT的协助,用户可以生成引人入胜且信息丰富的产品描述,有效与特定目标受众产生共鸣。 社交媒体管理 ChatGPT可以处理诸如调度、优化等任务。它可以根据受众的行为、偏好和高峰使用时间来优化社交媒体帖子的安排。此外,正如前面提到的,ChatGPT还可以提供有关客户行为的见解。此外,它还可以为公司的广告活动推荐最佳广告格式。 生成客户调查 ChatGPT可以成为创建客户调查的好工具,有助于理解和与目标受众互动。通过利用ChatGPT的功能,用户可以生成相关问题,有效构建调查,并通过其翻译能力实现多语言支持。此外,ChatGPT还可以帮助分析调查数据,使营销人员能够收集有价值的反馈和见解,以改进产品、服务和营销策略。 受众画像生成 了解受众对于任何业务都至关重要。ChatGPT可以帮助用户了解他们的受众,以便他们可以围绕受众构建自己的营销工作。用户可以要求ChatGPT生成受众画像。 SWOT分析…

Leave a Comment

瑞士苏黎世联邦理工学院和马克斯·普朗克研究所的研究人员提出了HOOD:一种利用图神经网络、多级消息传递和无监督训练来实现高效预测逼真服装动力学的新方法

遠程會議、虛擬試穿、視頻遊戲等許多依賴於高保真數字人類的應用都需要模擬具有吸引力和逼真的服裝行為能力。基於物理法則的模擬是生成自然動態運動的一種常用方法。儘管物理模擬可以提供驚人的結果,但計算成本高、對初始情況敏感,並且需要有經驗的動畫師;頂尖的方法不能滿足實時應用所需的嚴格計算預算。基於深度學習的技術開始產生高效且高質量的結果。 然而,迄今為止,一些限制阻礙了這些方法充分發揮潛力。首先,目前的技術主要通過身體姿勢計算服裝變形並依賴線性混合蒙皮。雖然基於蒙皮的計劃可以為緊身衣物(如襯衫和運動服)提供令人印象深刻的結果,但對於連衣裙、裙子和其他寬鬆服裝等不完全模仿身體運動的服裝,它們需要幫助。重要的是,許多頂尖的基於學習的技術是特定於服裝的,只能預測捕捉到的特定服裝的變形。應用受到每件服裝都需要重新訓練這些技術的限制。 本研究由ETH蘇黎世聯邦理工學院和智能系統馬克斯·普朗克研究所的研究人員提供了一種獨特的方法,用於預測動態服裝變形的圖神經網絡(GNN)。通過對局部變形、壓力和加速度之間的關係進行邏輯推斷,他們的方法學習預測物理逼真的布料行為。由於其局部性,他們的方法直接推廣到任意身體形狀和運動,與服裝的整體結構和形狀無關。儘管GNN在取代基於物理的模擬方面表現出潛力,但將此思想應用於服裝模擬會產生不滿意的結果。使用GNN(實現為MLP)將給定網格的特徵向量和其一環鄰域進行本地轉換,然後使用每個轉換的消息來更新特徵向量。此過程的循環使信號在整個網格中傳播。然而,固定數量的消息傳遞階段將信號傳輸限制在一定半徑內。在建模服裝時,彈性波通過拉伸迅速流經材料,這導致頂點之間具有准全局和瞬間的長程耦合。步驟太少會減慢信號傳輸速度,並產生令人不舒服的過度拉伸瑕疵,使服裝看起來不自然且有彈性。增加計算時間是愚蠢地增加迭代的代價。 由於無法事先知道模擬網格的最大大小和分辨率,以便選擇保守且適當高的迭代次數,這只會加劇這個問題。他們建議在分層網絡上進行消息傳遞系統,交替在不同解析度的傳播階段中解決此問題。這允許在大尺寸下有效處理由於硬拉伸模態引起的快速移動波,同時在更細的尺度上提供描述褶皺和皺紋等局部細節所需的關鍵。通過測試,他們展示了他們的圖表示如何在相同的計算預算下提高預測。 通過採用隱式時間步進的增量潛力作為損失函數,他們將基於圖的神經網絡的思想與不同的模擬方法結合起來,以增加他們方法的泛化能力。由於這種形式,他們不再需要任何地面真實(GT)註釋。這使得他們的網絡可以完全無監督地訓練,同時學習多尺度服裝動力學、材料參數的影響、碰撞反應以及與底層身體的摩擦接觸。圖形表示還使我們能夠模擬運動中的襯衫解扣和具有不同和變化的拓撲的服裝。 他們的HOOD方法結合了圖神經網絡、多層消息傳遞和無監督訓練,可以實時預測各種服裝風格和身體類型的逼真服裝動態。他們實驗性地證明,與頂尖方法相比,他們的方法在靈活性和廣泛性方面具有戰略優勢。特別是,他們展示了單一訓練網絡: 有效預測了各種服裝的物理逼真動態運動。 對於在訓練期間未見過的新款式和形狀具有泛化能力。 允許運行時更改材料屬性和服裝尺寸。 支持開啟拉鍊或解扣襯衫等動態拓撲變化。 研究人員已在GitHub上提供了模型和代碼,供研究使用。

Leave a Comment

认识ChatHN:一款实时AI驱动的Hacker News动态聊天工具

ChatHN,由人工智能驱动,最近在 Hacker News Feed 中推出。ChatHN 是一个免费且开源的人工智能聊天机器人,使用 OpenAI Functions 和 Vercel AI SDK 构建,可与 Hacker News API 进行对话交互。使用 https://github.com/steven-tey/chathn 上的说明,任何人都可以通过单击一次部署自己的 ChatHN 实例。 ChatHN 是一个便于与 Hacker News…

Leave a Comment

赋予机器人复杂任务执行能力:Meta AI利用人类行为的互联网视频开发视觉适应模型

Meta AI,一家领先的人工智能(AI)研究机构,最近发布了一种具有突破性的算法,承诺将彻底改变机器人领域。在他们的研究论文《从人类视频中获取作为机器人多功能表示的可供性》中,作者探讨了将YouTube视频应用于机器人学习和复制人类动作的强大训练工具。通过利用在线教学视频的丰富资源,这种尖端算法旨在弥合静态数据集和真实世界机器人应用之间的差距,使机器人能够以更大的多样性和适应性执行复杂任务。 这种创新方法的核心是“可供性”概念。可供性代表对象或环境提供的潜在行为或互动。通过通过分析人类视频来训练机器人理解和利用这些可供性,Meta AI的算法为机器人提供了一个多功能表示,用于执行各种复杂任务。这一突破提高了机器人模仿人类动作的能力,并赋予它们在新的和不熟悉的环境中应用所获得的知识的能力。 为了确保将这种基于可供性的模型无缝集成到机器人的学习过程中,Meta AI的研究人员将其纳入了四种不同的机器人学习范式中。这些范式包括离线模仿学习,探索,目标条件学习和强化学习的动作参数化。通过将可供性识别的能力与这些学习方法相结合,机器人可以获得新的技能,并以更高的精度和效率执行任务。 为了有效地训练可供性模型,Meta AI利用大规模的人类视频数据集,如Ego4D和Epic Kitchens。通过分析这些视频,研究人员使用现成的手-物体交互检测器来识别接触区域并跟踪接触后手腕的轨迹。然而,当场景中的人物存在时,会出现一个重要挑战,即分布转移。为了克服这个障碍,研究人员利用可用的相机信息将接触点和接触后轨迹投影到一个与人无关的框架中,然后将其作为输入提供给他们的模型。 在这一突破之前,机器人在模仿动作方面的能力有限,主要局限于复制特定环境。然而,通过Meta AI的最新算法,在泛化机器人动作方面取得了重大进展。这意味着机器人现在可以在新的和不熟悉的环境中应用所获得的知识,展示出更高的适应性。 Meta AI致力于推进计算机视觉领域的发展,并促进研究人员和开发人员之间的合作。根据这一承诺,该组织计划共享其项目的代码和数据集。通过使这些资源对其他人可访问,Meta AI旨在鼓励对这项技术进行进一步的探索和开发。这种开放的方法将促进自学习机器人的发展,它们可以从YouTube视频中获得新的技能和知识,推动机器人领域进入新的创新领域。

Leave a Comment

谷歌DeepMind正在研发一种算法,以超越ChatGPT

在一项具有突破性的宣布中,Google的DeepMind AI实验室的首席执行官Demis Hassabis揭示了一种名为Gemini的创新型AI系统的开发。凭借即将推出的算法,Gemini将超越OpenAI的ChatGPT,利用DeepMind在围棋领域的历史性胜利中获得的技术。这一揭示标志着人工智能领域的一个重要里程碑,承诺提供增强的功能和新颖的进展。让我们深入探讨这一革命性的发展及其对人工智能未来的潜在影响。 Gemini:人工智能技术的下一个飞跃 DeepMind的创新性AI系统Gemini已经成为人工智能领域的一项创举。Gemini在AlphaGo的卓越成就基础上,将DeepMind的先进技术与GPT-4的语言能力相结合,超越了OpenAI的ChatGPT的能力。这种优势的融合使Gemini成为一种有前景的创新,有望重新定义人工智能领域。 合并优势:AlphaGo和GPT-4的协同作用 通过将AlphaGo的强大技术融入GPT-4模型中,Gemini超越了传统语言模型的局限性。Gemini独特的语言能力和问题解决能力的结合承诺革新人工智能。DeepMind的首席执行官Demis Hassabis设想了一个在理解和生成文本以及规划和解决复杂问题方面表现出色的系统。 还阅读:DeepMind首席执行官表示AGI可能很快实现 揭示创新:Gemini的令人兴奋的特点 Gemini将引入许多令人兴奋的功能,推动人工智能能力的边界。通过融合AlphaGo类型的系统和大型语言模型,Gemini带来了人工智能潜力的新时代。DeepMind的工程师还暗示了Gemini内部的一些有趣创新,进一步加剧了对其正式发布的期待。 强化学习:AlphaGo成功的基础 强化学习技术的突破性应用是AlphaGo历史性胜利的核心。DeepMind的软件通过多次尝试并根据表现获得反馈来掌握复杂问题。此外,AlphaGo还利用一种称为树搜索的方法,在棋盘上探索和记住潜在的走法。这一基础为Gemini的未来发展奠定了基础。 还阅读:强化学习的综合指南 正在进行的旅程:Gemini的开发 尽管Gemini仍处于开发阶段,但Hassabis强调了这个项目所涉及的巨大工作和投入。DeepMind的团队估计,将需要数个月和大量的财力资源(可能达到数千万或数亿美元)来实现Gemini的成功。这项工作的重要性凸显了Gemini潜在影响的重要性。 应对竞争:谷歌的战略回应 随着OpenAI的ChatGPT获得关注,谷歌迅速回应,将生成型人工智能整合到其产品中,推出聊天机器人Bard,并将人工智能纳入其搜索引擎。通过将DeepMind与谷歌的主要人工智能实验室Brain合并成为Google DeepMind,这家搜索巨头试图利用Gemini的能力应对ChatGPT所带来的竞争威胁。这一战略举措凸显了谷歌在人工智能创新领域保持领先地位的承诺。 还阅读:Chatgpt-4与Google Bard的对比 DeepMind的旅程:从收购到惊艳 DeepMind于2014年被谷歌收购,标志着人工智能研究的一个转折点。这家公司靠着强化学习驱动的革命性软件展示了以前难以想象的能力。AlphaGo在2016年对阵围棋冠军李世石的巨大胜利震惊了人工智能界,挑战了人们对于在复杂游戏中达到人类水平技能时间表的预设观念。 还阅读:DeepMind的AI大师:在2小时内学习26个游戏 Transformer训练:大型语言模型的支柱…

Leave a Comment

认识全新的Zeroscope v2模型:一种免费的文本到视频模型,可在现代显卡上运行

在一系列前所未有的事件中,一种名为Zeroscope的下一代开源AI模型已经在市场上推出,具备在现代图形卡上运行最先进的文本到视频服务的能力,并且以相对较低的成本提供给用户。中国的Modelscope旗下的Zeroscope旨在通过解锁新的AI用例,彻底改变媒体和视频创作领域。 了解Zeroscope的功能组成对于理解它如何通过文本革新视频生成领域非常重要。这个开源模型的独特之处在于它的两个关键组件,Zeroscope V2和Zeroscope V2XL;Zeroscope_v2 567w,用于以576×320像素的分辨率快速创建内容以探索视频概念。然后可以使用zeroscope_v2_XL将高质量视频升级到“高清”分辨率1024×576,因此用户可以使用ZeroScope V2快速创建视频,然后使用V2XL进行升级。 除此之外,由于多级模型的17亿个参数,Zeroscope的要求令人惊讶地易于管理。Zeroscope在较低分辨率下的VRAM需求为7.9千兆字节,而在较高分辨率下为15.3千兆字节。较小的模型可以在许多标准图形卡上执行,使其可供更广泛和更一般的用户使用。 Zeroscope通过对近10,000个剪辑和近30,000个帧进行偏移噪声的战略训练。这种非传统的行为组合为Zeroscope开启了新的机遇和可能性。通过引入随机物体移动、帧时序的微小变化和轻微扭曲等变化,模型改善了对数据分布的理解,从而帮助模型以多样化的尺度生成更真实的视频,并有效地解释文本描述中微妙的变化。凭借所有这些功能,Zerscope迅速成为商业文本到视频模型提供商Runway的有力竞争对手。 文本到视频作为一项工作仍在进展中,生成的视频片段往往较短且存在一些视觉缺陷。然而,如果我们看一下图像AI模型的发展历程,它们在达到照片逼真质量之前也面临了类似的挑战。主要挑战是视频生成在训练和生成阶段都需要更多的资源。 Zeroscope作为一种强大的文本到视频模型的出现为许多新的数字进展和用例铺平了道路,例如: 个性化游戏、虚拟现实和元宇宙:Zeroscope的转换能力可以重新定义视频游戏中的故事叙述。玩家可以通过他们的话语实时影响剪辑和游戏玩法,实现难以想象的互动和个性化。此外,游戏开发者可以快速原型和可视化游戏场景,加快开发速度。 个性化电影:Zeroscope的技术通过基于用户描述生成个性化内容来颠覆媒体行业。用户可以输入情节或场景描述,并根据其回应创建个性化视频。此功能可以实现观众的积极参与,并为定制内容创作开辟了新的途径,例如个性化视频广告或用户定制的电影场景。 合成创作者:Zeroscope为依靠AI将其想法编写、制作和编辑成现实的新一代创作者铺平了道路。它消除了视频创作中的技术技能障碍,并有可能为自动化、高质量的视频内容建立新的标准。人类和AI创作者之间的界限变得模糊,拓宽了创造力的领域。 Zeroscope旨在成为一种轻量级的突破性模型,可以轻松进行微调,并且不需要特殊的资源设置,使其不仅成为多个普通用户可以使用的工具,而且许多缺乏大型实验室资源的新兴研究人员现在可以使用此类算法来更好地理解它们并以合理的成本推进整个领域的发展。看到激烈竞争将激励Zeroscope的创作者创新并占据强劲的市场地位将是令人惊叹的。

Leave a Comment

冷静、冷静和创造力:MUE工作室展示3D场景“在NVIDIA工作室中”

编辑注:本文是我们每周的NVIDIA Studio系列文章的一部分,该系列文章旨在庆祝特色艺术家,提供创意技巧和窍门,并展示NVIDIA Studio技术如何改进创意工作流程。 MUE工作室是由3D艺术家康旻珍和金美珠创立的,专门从事活动和展览的艺术指导、摄影和3D设计。它专注于创造独特的视觉形象,帮助客户表达自我。 这家位于纽约的工作室的创意二人组表示,他们一直对将幻想与现实之间的界限模糊在他们的作品中很感兴趣。 他们一起使用Adobe After Effects、Autodesk 3ds Max和Unreal Engine 5在本周的NVIDIA Studio中创作了3D视频“世界上的某个地方”和一个夏季主题系列的艺术作品。 GeForce RTX 4060显卡现已开始接受订单,起价299美元。这款最先进的NVIDIA Ada Lovelace架构为创意应用和生产力提供强大支持,同时通过光线追踪和DLSS 3提供沉浸式的AI加速游戏。 GeForce RTX 4060 GPU已经到货。 此外,Chaos Vantage…

Leave a Comment

什么是机器人仿真?

机器人正在仓库中搬运货物、包装食品、帮助组装车辆——当它们不翻转汉堡或者冲泡拿铁时。 它们是如何如此迅速地变得如此熟练呢?机器人模拟。 它正在以飞跃的进步改变我们周围的各个行业。 机器人模拟简介 机器人模拟器将虚拟机器人放置在虚拟环境中,以测试机器人的软件,而无需实际机器人。而最新的模拟器可以生成数据集,用于训练将在实际机器人上运行的机器学习模型。 在这个虚拟世界中,开发者创建机器人、环境和其他机器人可能遇到的素材的数字版本。这些环境可以遵守物理定律,并模拟真实世界的重力、摩擦、材料和光照条件。 谁在使用机器人模拟? 如今,机器人在大规模上提升了业务。一些最大和最具创新性的机器人公司都依赖于机器人模拟。 得益于模拟,配送中心每天可以处理数千万个包裹。 亚马逊机器人使用它来支持其配送中心。宝马集团借助它加速其汽车装配厂的规划。软性机器人应用它来完善食品包装的抓取和放置。 全球各地的汽车制造商都在用机器人来支持他们的业务。 “汽车公司雇佣了将近1400万人。数字化将提高这个行业的效率、生产力和速度,” NVIDIA首席执行官Jensen Huang在最新的GTC主题演讲中说道。 机器人模拟的工作原理简介 一个先进的机器人模拟器首先应用物理基本方程。例如,它可以使用牛顿运动定律来确定物体在一个小时间增量或时间步长内的运动方式。它还可以结合机器人的物理约束条件,比如由铰链般的连接构成,或者无法穿过其他物体。 模拟器使用各种方法来检测物体之间的潜在碰撞,识别碰撞物体之间的接触点,并计算阻止物体相互穿过的力或冲量。模拟器还可以计算用户寻求的传感器信号,比如机器人关节处的扭矩或机器人夹持器与物体之间的力。 然后,模拟器将根据用户的要求重复这个过程。一些模拟器,比如基于NVIDIA Omniverse的NVIDIA Isaac Sim应用程序,还可以在每个时间步长上提供物理上准确的模拟器输出的可视化。 使用机器人模拟器的成果 机器人模拟器用户通常会导入机器人的计算机辅助设计模型,并导入或生成感兴趣的对象来构建虚拟场景。开发者可以使用一组算法来执行任务规划和运动规划,然后指定控制信号来执行这些计划。这使得机器人能够执行任务并以特定方式移动,比如拾取一个物体并将其放置在目标位置。 开发者可以观察计划和控制信号的结果,然后根据需要进行修改以确保成功。最近,有一种向基于机器学习的方法的转变。所以,用户不是直接指定控制信号,而是指定所需的行为,比如移动到一个位置而不发生碰撞。在这种情况下,一个数据驱动的算法会根据机器人的模拟传感器信号生成控制信号。 这些算法可以包括模仿学习,其中人类演示可以提供参考,以及强化学习,机器人通过智能的试错学习来实现行为,通过加速的虚拟体验快速学习多年的经验。…

Leave a Comment

使用QLoRA在Amazon SageMaker Studio笔记本上交互式地微调Falcon-40B和其他LLMs

对大型语言模型(LLM)进行微调可以让您调整开源基础模型,以在特定领域的任务中实现更好的性能在本文中,我们讨论了使用Amazon SageMaker笔记本进行微调最先进的开源模型的优势我们利用了Hugging Face的参数高效微调(PEFT)库和通过bitsandbytes支持交互式微调的量化技术

Leave a Comment

通过数据清洗提升数字化转型指南

数字化转型是现代企业的关键,它使企业能够在快速发展的数字化环境中适应和蓬勃发展为了充分利用数字化转型的好处,组织必须依赖准确可靠的数据然而,许多公司在数据质量方面存在问题,这可能阻碍他们的数字化转型努力本文是一份指南,旨在通过数据清洗来增强数字化转型

Leave a Comment