Press "Enter" to skip to content

Tag: AI Startups

该AI研究提出了Kosmos-G:一种通过利用多模型LLM的属性,从广义视觉语言输入中生成高保真零射影像的人工智能模型

最近,从文本描述中创建图像和将文本和图像结合生成新图像方面取得了重大进展。然而,一个未被探索的领域是从广义视觉-语言输入(例如,根据涉及多个对象和人的场景描述生成图像)中生成图像。微软研究(Microsoft Research),纽约大学(New York University)和滑铁卢大学(University of Waterloo)的研究人员团队介绍了名为KOSMOS-G的模型,它利用多模态LLM(Language and Vision Models)来解决这个问题。 KOSMOS-G能够从复杂的文本和多张图片的组合中创建详细的图像,即使它没有见过这些例子。这是第一个可以根据描述生成具有各种对象或事物的图像的模型。KOSMOS-G可以替代CLIP,为使用其他技术如ControlNet和LoRA提供了新的可能性。 KOSMOS-G使用了一种巧妙的方法从文本和图片生成图像。首先,它通过对训练一个多模态LLM(能够同时理解文本和图片)来与CLIP文本编码器(擅长理解文本)进行对齐。 当我们给KOSMOS-G一个带有文本和分割图片的标题时,它被训练为创建符合描述和遵循指示的图像。它通过使用预训练的图像解码器和利用从图片中学到的知识,在不同的情况下生成准确的图片。 KOSMOS-G可以根据指令和输入数据生成图像。它具有三个训练阶段。在第一阶段,模型在多模态语料库上进行预训练。第二阶段,通过CLIP监督训练一个AlignerNet,将KOSMOS-G的输出空间与U-Net的输入空间进行对齐。第三阶段,通过一个组合生成任务在策划数据上对KOSMOS-G进行微调。在第一阶段,只训练MLLM。在第二阶段,AlignerNet在MLLM冻结状态下进行训练。在第三阶段,AlignerNet和MLLM在一起进行训练。图像解码器在各个阶段始终保持冻结状态。 KOSMOS-G在不同设置下的零样本图像生成能力非常出色。它能够制作有意义、外观好且可以不同方式自定义的图像。它可以改变上下文,添加特定风格,进行修改,以及给图像添加额外细节等。KOSMOS-G是第一个在零样本设置下实现多实体VL2I的模型。 KOSMOS-G可以轻松取代图像生成系统中的CLIP。这为以前无法实现的应用程序开辟了令人兴奋的新可能性。借助CLIP的基础,KOSMOS-G有望推动从基于文本生成图像到基于文本和视觉信息的组合生成图像的转变,为许多创新应用提供机会。 总之,KOSMOS-G是一个可以从文本和多张图片中创建详细图像的模型。它在训练中采用了一种称为“在指示之前进行对齐”的独特策略。KOSMOS-G擅长制作单个对象的图像,并且是第一个能够处理多个对象的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术结合使用,造就新的应用。简而言之,KOSMOS-G是朝着以图像生成语言的方向迈出的第一步。

Leave a Comment

“稳定人工智能公司危机——关键人物在CEO争议中辞职!”

总部位于伦敦的初创公司Stability AI Ltd.曾以其开创性的稳定扩散人工智能模型令科技界为之惊叹。但最近的事件让这家公司的成功故事蒙上了阴影。一系列高管离职和对首席执行官信誉的担忧,在这个以雄心勃勃的创新为驱动力的行业引起了不确定性的波澜。本文将深入探讨Stability AI的动荡之旅。让我们揭开它在人工智能领域竞争激烈的舞台上所面临的挑战。 还可阅读:人工智能激增:Stability AI首席执行官预计印度开发者将在2年内失去工作 崛起的明星:早期的胜利 Stability AI凭借其胜利而一举成名,乘着其稳定扩散人工智能模型的成功浪潮。这种人工智能模型可以根据文本提示创建出惊人逼真的图像,使公司备受赞叹。凭借超过1亿美元的融资和来自科技巨头的顶尖专业人才团队,Stability AI的未来似乎注定要取得辉煌成就。 还可阅读:潜在扩散模型的力量:革新图像创作 开源方式:双刃剑 区别于其他公司的一个吸引人的特点是Stability AI致力于开源软件。这一策略吸引了来自亚马逊、谷歌和Adobe等科技巨头的优秀工程师和科学家。然而,随着科技行业充斥着人工智能初创公司,Stability AI必须在时间紧迫的情况下实现其雄心勃勃的计划。竞争激烈,公司的发展步伐必须与人工智能狂热相匹配,以保持竞争力。 还可阅读:Meta将所有有前途的项目开源 | 找出原因 泡沫破裂:炒作周期达到平台期 Stability AI崛起的狂热氛围在最近几个月逐渐消退。一波高管,包括首席运营官和研究主管,离开了公司,引发了人们对公司稳定性的质疑。曾经充满活力的乐观情绪随着竞争对手的大量融资而受挫,而Stability AI则难以以期望的估值筹集资金。在这种动荡中,未支付账单的指控和法律纠纷增加了公司的挑战。 还可阅读:谷歌担心开源社区在语言模型竞赛中超越科技巨头 首席执行官的个人魅力和声明 该公司的首席执行官Emad…

Leave a Comment

AWS(亚马逊网络服务)和Accel(风险投资公司)合作推出“ML Elevate 2023”计划,旨在增强印度人工智能初创企业生态系统的实力

在一次令人激动的合作中,亚马逊网络服务(AWS)和Accel推出了“ML Elevate 2023”计划,这是一个革命性的六周加速器计划,旨在为生成式人工智能(AI)领域的初创公司提供支持。该计划旨在通过利用生成式AI应用的力量改革医疗服务、娱乐等领域。随着印度蓬勃发展的AI景观,该计划为寻求创新和产生影响的初创公司带来了希望。让我们深入了解这个具有颠覆性的计划的细节。 还可阅读:INDIAai和Meta携手合作:为AI创新与合作铺平道路 生成式AI:释放创造力的力量 生成式AI通过大型机器学习(ML)模型驱动,可以在各个领域创建逼真的对话、故事、图像、视频和音乐。它提供创新解决方案,消除供应链中的摩擦,个性化数字体验,并使商品和服务更易获取和负担得起。AWS和Accel认识到生成式AI的潜力,并旨在支持在这一领域开拓先路的初创公司。 还可阅读:2023年学习生成式AI的最佳路线图 印度蓬勃发展的生成式AI景观 根据NASSCOM的一项研究,印度的生成式AI初创公司从2021年1月至2023年5月间筹集了高达4.75亿美元的私人投资。这种指数级增长显示了该国对生成式AI应用的巨大兴趣和潜力。 还可阅读:Sam Altman与印度总理Narendra Modi的重要会议:描绘印度的AI未来 用ML Elevate赋予初创公司力量 ML Elevate是一个具有颠覆性影响力的加速器计划,旨在赋予生成式AI初创公司力量。该计划为初创公司提供影响力强大的AI模型、技术指导、资源、AWS Activate计划的福利以及高达20万美元的AWS积分。此外,初创公司还可以从同行支持、社交机会以及在Demo周向领先的风险投资基金和天使投资者进行推介的机会中获益。 还可阅读:德里政府计划在拟议中的电子城建立AI中心 建立强大的AI/ML初创公司社区 自2020年成立以来,ML Elevate已成功加速了印度50多家早期AI/ML初创公司。该计划培养了一个活跃的印度领先AI初创公司社区,包括AarogyaAI、Dubdub.ai、Vitra.ai、NimbleBox.ai等。 AWS对印度增长的承诺 AWS在机器学习方面拥有丰富经验,同时还推出了Amazon Bedrock和Amazon CodeWhisperer等创新产品,旨在让生成式AI对各个规模的初创公司都更易使用。该公司对印度的长期承诺包括到2030年计划投资127亿美元,预计每年为印度的GDP贡献233亿美元,并创造约13.17万个全职工作机会。…

Leave a Comment

在人工智能(AI)中使用模拟计算机

模拟计算机是一类设备,其中物理量如电压、机械运动或流体压力被表示为与问题中相应数量相似的量。 这是一个模拟计算机的简单示例。 来源:https://www.youtube.com/watch?v=IgF3OX8nT0w&t=763s 如果我们按一定量转动黑色和白色的轮子,灰色的轮子显示两个旋转的总和。 最早的模拟计算机之一是公元前100-200年左右建造的安提基瑟拉机械。它由一系列相互连接的青铜齿轮组成,某些指针的运动类似于太阳和月亮的运动。它还能够提前几十年预测日食。 来源:https://arstechnica.com/science/2021/03/scientists-solve-another-piece-of-the-puzzling-antikythera-mechanism/ 模拟计算机的优点和缺点 要添加两个八位数,需要大约50个晶体管。然而,使用模拟计算机,我们只需将两根电线连接起来即可相加两个电流。同样,要乘以两个数,我们需要1000多个晶体管。相反,我们可以通过电阻(R-欧姆)通过电流(I安培),线两端的电势差将是I*R,即两个数的乘积。 模拟计算机功能强大、快速且能源高效。然而,数字计算机取代了它们,因为它们是单用途的且不准确,而且由于输入是连续的,很难完全重复过程。 模拟计算机与人工智能 在人工智能中,模拟计算机用于各种任务,包括模式识别、决策和控制。例如,它们被用于训练神经网络,这是受人脑结构和功能启发的机器学习模型。模拟计算机还用于实现基于规则的人工智能系统,这些系统使用特定规则进行决策或采取行动。 尽管在过去广泛使用,但模拟计算机在人工智能和机器学习中已不再常见,这主要是由于数字计算机的出现。数字计算机比模拟计算机更快速、可靠,可以存储和处理更大量的数据。此外,数字计算机更易于编程和维护,这使其成为大多数人工智能和机器学习应用的首选。 模拟计算机在人工智能中的应用增加 在机器学习和人工智能应用中,使用更大的神经网络的趋势越来越明显。这一趋势是由于需要在日益复杂的任务上提高性能,以及更多的数据、硬件和算法来支持更大网络的训练。然而,这种增加的需求也带来了一些挑战。 训练一个大型神经网络需要的能量相当于三个家庭一年的平均消耗量。 现代计算机将数据存储在内存中,并根据需要访问。但是当神经网络需要大规模矩阵乘法时,大部分能量用于获取权重的值,而不是执行计算。 根据摩尔定律,芯片上的晶体管数量传统上每两年翻一番。然而,我们现在正接近晶体管的尺寸接近原子尺寸的点,这对进一步微型化带来了重大的物理挑战。 随着数字计算机接近其极限,神经网络在矩阵乘法上的广泛应用使其受到了广泛关注。此外,神经网络不要求数字计算机进行精确计算,对于将图像分类为狗的置信度达到98%或95%即可。这些因素为模拟计算机在人工智能领域扮演更重要的角色提供了绝佳机会。 案例研究: Mythic AI Mythic AI 是一家模拟计算初创公司,致力于创建用于运行神经网络的模拟芯片。不同的人工智能算法,如动作检测、深度估计、对象分类等,都在模拟领域中运行。 Mythic修改了数字闪存单元,使其能够实现这一点。这些单元通常用于存储内存,可以存储1或0。将正电压应用于控制栅,电子将穿过绝缘层并被困在浮动栅上。然后可以去除电压,电子将长时间保持在浮动栅上,阻止电流通过该单元。…

Leave a Comment

2023年顶级人工智能随机脸部生成应用程序

随机人脸生成器使用先进的图像处理方法创建随机人脸。大数据技术可以生成看似真实但实际上并不存在于现实世界中的随机人脸。 这些人脸肯定具有真实的面部细节,包括性别、年龄和情绪。这些程序适用于各种系统和文件类型。随机人脸生成器应用程序可在线、在台式计算机和移动设备上使用。人工智能和相关领域的最新进展使得随机人脸生成器应用程序能够在几秒钟内生成随机人脸。随着这项技术的进一步发展,它逐渐在视频游戏和电影等视觉媒体中得到测试。 随机AI人脸经常用于保护用户匿名性并在社交网络账户和其他网站上显示照片。就像在数字平台上工作时需要专门的虚假但真实的照片一样,您需要它们来满足您在营销、项目演示、广告等方面的多样化需求。人们经常使用这些人脸生成器来隐藏自己的身份,因为它们能产生清晰详细的图片。然而,这些照片也可能为图形艺术家的角色设计提供灵感。由于它们是独一无二的,AI生成的角色总是原创的。 以下是最好的随机人脸生成器。 DeepSwap DeepSwap是一个基于Web的工具,可以交换图片或视频中两个人的脸部,使用深度学习技术产生令人信服和逼真的结果。由于该产品具有用户友好的界面和丰富的自定义选择,面部交换将尽可能自然。更新至第5个版本的deepswap.ai是最好的人工智能人脸生成器之一。 DeepSwap的功能包括:使用深度学习技术交换图片或视频中两个人的脸部,以获得令人信服和逼真的结果。工具可以让用户更改交换后脸部的表情和面部特征,使其具有更加逼真的外观。用户可以在录制时查看最终产品,因为该软件可以实时跟踪脸部的动作并应用面部交换效果。该工具可以生成没有可见接缝或畸变的逼真、无缝、高质量的图像和视频。由于与知名社交网络的集成,用户可以轻松与朋友和关注者分享他们的面部交换作品。该工具还可以让用户交换图片或视频中多个人的脸部,产生有趣和引人入胜的“群体面部交换”效果。这个功能对制作幽默电影或模因特别有帮助。

Leave a Comment

2023年机器学习模型的顶级合成数据工具/初创公司

有意创建的信息,而不是实际事件的结果,被称为合成数据。合成数据是通过算法生成的,并用于训练机器学习模型、验证数学模型,并作为测试生产或操作数据测试数据集的替代。 使用合成数据的优点包括在使用私有或受控数据时减轻限制,根据无法满足准确数据的特定情况调整数据要求,并为DevOps团队生成用于软件测试和质量保证的数据集。 尝试复制原始数据集复杂性时的限制可能会导致差异。完全替代准确数据是不可能的,因为仍然需要准确的数据来生成实际的合成信息示例。 合成数据有多重要? 开发人员需要大量细致注释的数据集来训练神经网络。当神经网络具有更多多样化的训练数据时,通常更准确。 问题在于编制和确定可能包含几千到数千万个项目的数据集需要大量的工作,并且经常是不可承受的。 现在出现了虚假数据。AI.Reverie的联合创始人保罗·瓦尔博斯基认为,从标注服务中获取的一张图片可能需要6美元,但可以以6美分的价格合成生成。 节省金钱只是个开始。瓦尔博斯基继续表示,通过确保您拥有数据的多样性以准确反映现实世界,合成数据对于处理隐私问题和减少偏见至关重要。 合成数据集有时优于现实世界的数据,因为它们可以自动进行标记,并且可以有意地包含罕见但关键的边角情况。 合成数据初创公司和企业名单 Datagen 成立于2018年的以色列公司Datagen获得了2200万美元的资金,其中包括去年2月的1850万美元A轮融资,这是该公司的正式亮相。由于它主要专注于逼真的视觉模拟和自然世界的重建,尤其擅长人体运动,Datagen将其特殊风格的合成数据称为“模拟数据”。Datagen使用生成对抗网络(GANs),这是一种越来越常见的人工智能方法,与许多处理合成数据的其他企业一样。它类似于计算机棋局中的两个系统之间的游戏,但一个系统生成虚假数据,而另一个系统评估结果的真实性。该公司将GANs与称为强化学习人形动作技术和超级渲染算法的东西相结合,在物理模拟器中进行研究开发。 Datagen的目标行业包括零售、机器人技术、增强和虚拟现实、物联网和自动驾驶汽车。以一个Amazon Go店铺为例,它的计算机视觉系统监视购物者,以确保没有人带走任何物品。 Parallel Domain 模拟自动驾驶车辆的环境可能是当今最常见的应用案例之一。这是Parallel Domain的主要业务领域,这是一家成立于2017年的硅谷初创公司,我们之前已经对其进行了介绍。自那时以来,该公司已经筹集了大约1390万美元的资金,其中包括去年年底的1100万美元A轮融资。丰田可能是其最重要的支持者和客户。该公司致力于教育自动驾驶汽车如何避免伤害人员,为其合成数据平台专注于一些最具挑战性的用例。最近,该公司与丰田研究院合作开发了一种使用合成数据教授自主系统对象永恒性的方法。尽管由于Parallel Domain的影响,现在AI可以在物体暂时消失时仍然追踪物体,但当前的感知系统仍然像孩子玩捉迷藏一样。此外,该公司还向公众提供了用于完全注释的合成相机和LiDAR数据集的数据可视化工具。该公司为自动无人机交付和自动驾驶提供人工训练数据。 Mindtech 成立于2017年的英国公司Mindtech筹集了约650万美元的资金。就在上个月,该公司完成了325万美元的种子轮融资。其中一位著名的投资者是In-Q-Tel,这是一家美国政府组织,为具有帮助像CIA这样的组织的潜力的创新提供资金。因此,这就是它。Mindtech开发的模块化工具Chameleon允许用户使用逼真的3D模型即时创建无限数量的场景和情境。根据该公司的说法,Chameleon专门设计为帮助其客户开发“理解和预测人类互动”的AI系统。除了向间谍机构提供服务外,Mindtech还向零售、智能家居、医疗保健、交通运输和机器人技术行业提供产品和服务。 合成人工智能 2019年初创公司合成人工智能在四月份与iRobot(IRBT)进行了450万美元的种子轮融资,可能是为了推进其智能家居机器人吸尘器的发展。与Datagen一样,合成人工智能使用生成对抗网络(GAN)与计算机生成图像(CGI)技术,这种技术几乎应用于每一部现代电影中,用于构建合成人类。该公司的首款产品FaceAPI允许公司为智能助手、远程会议、驾驶员监控和智能手机面部验证创建更强大的人工智能面部模型。为了增强人工智能模型在代表各种面部类型方面的能力,合成人工智能在六月份发布了4万个原始高分辨率的3D面部模型。 Oneview OneView是一家以色列初创公司,成立于2019年,融资350万美元。该公司的主要目标是为从卫星和航空照片中生成地理情报的人工智能算法提供人工数据。这些视图经常涵盖地球上的大片区域,包括城市、机场、港口和其他建筑物。OneView使用开源数据映射服务OpenStreetMap的实际数据来创建合成数据集的基础模型。该公司只需将2D图像转换为多次渲染的3D图像,以模拟各种情况,包括对象、天气、光照等等。您可以在此处了解更多关于该过程的信息。…

Leave a Comment

Storybird利用人工智能的力量,让任何人在几秒钟内创建视觉故事

StoryBird.AI让任何人都能在几秒钟内用人工智能的力量创作视觉故事。他们的Stories插件是ChatGPT插件商店中最受欢迎的插件之一。使用插件或他们的网站,任何人都可以借助人工智能编写引人入胜的故事和书籍。该平台非常用户友好,您可以直接在ChatGPT中使用Stories插件,该插件是OpenAI的ChatGPT商店中最受追捧的插件之一。令人兴奋,不是吗? 这些故事非常精彩,您可以在Storybird.ai上探索大量的示例,如下所示。 使用StoryBird.ai,您可以编写、编辑、发布甚至从销售的书籍中赚取钱。这是一种无与伦比的简单有效的人工智能解决方案。 Storybird团队已经找到了如何利用LLMs和GANs使其无缝结合的方法。 主要特点: 生成式编辑:这使您可以使用生成技术编辑故事。 速度:这个过程非常快速,只需几秒钟。 个性化和定制:该平台允许您通过编辑每个页面上生成的内容来定制故事。更重要的是,您可以根据自己的编辑重新生成相关的图像或插图。就像魔术一样,故事变得独一无二。 令人印象深刻的结果:故事和插图真的很令人印象深刻。 Stories ChatGPT插件: 添加起来很容易,只需搜索“stories” Storybird.ai提供了一些有用的提示,以创建引人入胜的故事: 从20到1000个字符的简短描述开始您的故事。 如果适用,包括角色的姓名。 提供有关角色(例如,一个有着棕色头发的女孩)和环境的细节,以获得最佳结果。 在chatGPT中,您可以轻松启动这个过程,例如: 然后您会很快收到像这样的结果 以下是另一个示例,初始提示如下: “写一个关于一个名叫奥利维亚的12岁女孩的故事,她每天早上都早起练习足球,梦想有一天成为职业球员。” 我们想把背包换成“红色”,这很容易做到…然后我们重新生成了插图。 它是为谁而设计的? StoryBird AI是一个可以为父母、教育工作者和作者创建个性化故事的工具。 父母可以使用StoryBird…

Leave a Comment