Press "Enter" to skip to content

3747 search results for "此"

在这篇文章中,我将为您介绍如何充分利用您的语言模型或API这些技巧可以帮助您更好地应用于各种领域,让您的模型或API发挥出最佳的效果 首先,了解您的模型或API的功能和优势非常重要不同的模型或API可能有不同的用途和特点,因此您需要详细研究并了解它们的适用范围和功能这样,您才能更好地应用于相关领域,并发挥它的最大潜力

你是否曾经思考过自己是否该从头开始训练、进行微调、快速工程或检索增强生成(RAG)?下面是你需要了解的一切,以提升…

Leave a Comment

此AI论文提出了“MotionDirector”:一种人工智能方法来定制视频运动和外观

文本到视频扩散模型在近年来取得了显著进展。现在只需提供文本描述,用户就可以创建逼真或富有想象力的视频。这些基础模型也被调整为生成与特定外观、风格和主题相匹配的图像。然而,文本到视频生成中定制运动的领域仍需探索。用户可能想创建具有特定运动的视频,比如汽车向前行驶然后向左拐。因此,将扩散模型调整为创建更具体内容以满足用户偏好变得重要。 本文的作者提出了MotionDirector,帮助基础模型实现动作定制同时保持外观多样性。该技术使用双路径架构,将模型分别训练为学习给定单个或多个参考视频中的外观和动作,从而方便将定制运动概括到其他设置中。 双架构包括空间路径和时间路径。空间路径具有一个基础模型,其在每个视频的转换器层中集成了可训练的空间LoRAs(低秩调整)。这些空间LoRAs使用每个训练步骤中随机选择的单个帧进行训练,以捕捉输入视频的视觉属性。相反,时间路径复制了基础模型,并与空间路径共享空间LoRAs,以适应给定输入视频的外观。此外,此路径中的时间转换器还通过使用输入视频的多个帧进行培训来增强时间LoRAs,以掌握固有的动作模式。 仅通过部署经过训练的时间LoRAs,基础模型就可以合成具有多样外观的学习动作的视频。双架构使模型能够分别学习视频中物体的外观和动作。这种解耦使得MotionDirector能够将视频的外观和动作分离,然后从各种源视频中进行组合。 研究人员在几个基准测试中比较了MotionDirector的性能,涵盖了80多种不同的动作和600个文本提示。在UCF Sports Action基准测试中(包含95个视频和72个文本提示),MotionDirector的运动保真度更好,被人工评估者75%的时间受到青睐。该方法还优于基础模型的25%偏好。在第二个基准测试中,即LOVEU-TGVE-2023基准测试中(包含76个视频和532个文本提示),MotionDirector的表现优于其他可控生成和基于调整的方法。结果表明,可以使用MotionDirector定制多种基础模型,以产生具有多样性和所需运动概念的视频。 MotionDirector是一种将文本到视频扩散模型调整为生成具有特定运动的视频的有前景的新方法。它在学习和调整主题和相机的具体运动方面表现出色,并可用于生成具有各种视觉风格的视频。 MotionDirector可以改进的一点是学习参考视频中多个主题的运动。然而,即使有这个限制,MotionDirector仍具有提升视频生成的灵活性的潜力,允许用户制作符合其偏好和需求的视频。

Leave a Comment

此AI研究就大型语言模型(LLMs)的限制和能力在组合任务上进行了实证和理论的探讨

ChatGPT正成为热门话题,每天有数百万人在使用。凭借其惊人的能力,如问答、生成独特而富有创意的内容、总结海量文本数据、代码补全以及开发非常有用的虚拟助手,ChatGPT使我们的生活更加便捷。ChatGPT由OpenAI开发,基于GPT 3.5(生成式预训练变换器)和GPT 4的变换器架构。GPT 4是由OpenAI发布的最新版本的语言模型,具有多模态性,即它以文本和图像的形式输入,与之前的版本不同。甚至其他大型语言模型(LLM),如PaLM、LLaMA和BERT,也被用于涉及医疗保健、电子商务、金融、教育等各个领域的应用中。 一组研究人员在最近发布的研究论文中强调了类似GPT这样的大型语言模型在复杂任务上表现出色而在简单任务上的困难。研究团队对三个代表性的组合任务进行了实验:多位数相乘、逻辑网格谜题和经典的动态规划问题。这些任务涉及将问题分解为较小的步骤,并将这些步骤组合起来产生准确的解决方案。 为了研究变换器在解决需要多步推理的组合任务方面的限制,作者提出了两个假设。第一个假设是变换器通过将多步推理线性化为路径匹配来完成任务,因此依赖于模式匹配和快捷学习,而不是真正理解和实现开发正确解决方案所需的底层计算规则。这种方法在训练期间可以快速准确地预测相似模式,但无法推广到不常见的复杂示例。第二个假设认为,在尝试解决具有独特模式的高复杂性组合任务时,变换器可能存在固有限制。早期的计算错误可能会传播并导致后续步骤中的严重错误,阻止模型获得正确解决方案。 为了研究这两个假设,作者将组合任务形式化为计算图,以便调查。这些图将解决问题的过程分解为更小、更易管理的子模块化功能步骤,从而实现问题复杂性的结构化度量,并将计算步骤的语言化作为语言模型的输入序列。他们甚至使用信息增益来预测模型可能基于底层任务分布而学习的模式,而无需在图中进行完整的计算。 基于实证结果,作者提出变换器通过将多步推理简化为线性子图匹配来处理组合挑战。他们提供了基于抽象多步推理问题的理论论证,强调随着任务复杂性的增加,变换器的性能迅速下降。这表明模型在处理极度复杂的组合问题方面可能已经受到限制。 总的来说,实证和理论结果表明,与对底层思维过程的深入理解相比,变换器的性能主要受到模式匹配和子图匹配的驱动,这也支持变换器在执行越来越困难的任务时可能遇到困难的观点。

Leave a Comment

“如此新鲜:在第一天云端畅玩最新游戏”

本周GFN星期四的派对上有几款新发布的游戏在GeForce NOW上进行流媒体播放。本周有四款新游戏加入云端,包括Xenonauts 2、Viewfinder和Techtonica。 Portal的粉丝们,请保持关注 —— Portal: Prelude RTX mod即将在不久后向GeForce NOW会员进行流媒体播放。 此外,了解会员如何获得即将推出的Guild Wars 2高级奖励。 抓紧时间! 在GeForce NOW图书馆中选择超过1600款游戏,从首次云端亮相的游戏开始。成为首批在云端使用高性能GeForce RTX游戏设备体验Xenonauts 2、Viewfinder和Techtonica,无需担心下载时间或系统配置。 在云端找到新的视角。 在Thunderful Publishing的新单人游戏Viewfinder中尝试不同的视角。玩家可以通过即时相机挑战感知力,重新定义现实并改变周围的世界。在这个扭曲现实的冒险中,通过拍摄照片并将它们放置在场景中,将其变得栩栩如生。 开始工作吧! 那些寻找与众不同的游戏的人可以尝试Fire Hose Games的Techtonica,该游戏设定在一片美丽而神秘的生物发光的地下外星世界中。单人或与伙伴一起建造工厂,收集资源,研究新技术并揭开被遗忘的秘密。…

Leave a Comment

观察此空间:新的空间金融领域利用人工智能估算风险,监控资产,分析索赔

在进行金融决策时,从无人机、卫星或AI动力传感器获取的大局观至关重要。 空间金融这一新兴领域利用远程传感器和航空影像的AI洞察力,帮助银行、保险公司、投资公司和企业分析风险和机遇,开展新的服务和产品,衡量其投资的环境影响,并在危机之后评估损失。 空间金融应用包括监测资产、建模能源效率、跟踪排放和污染、检测非法采矿和森林砍伐以及分析自然灾害风险。NVIDIA的AI软件和硬件可以帮助行业将其业务数据与地理空间数据结合起来加速这些应用。 通过更好地了解与投资相关的环境和社会风险,金融行业可以选择优先支持可持续发展的投资,这被称为环境、社会和治理(ESG)框架。 可持续投资的重点正在增加:彭博智库的分析估计,到2025年,ESG资产将占全球管理资产总额的三分之一以上。欧洲联盟空间计划机构的一份报告预测,保险和金融行业将成为未来十年地球观测数据和服务的最大消费者,到2031年总收入将超过10亿美元。 NVIDIA Inception的几个成员是全球支持尖端初创企业的计划,他们正在推进这些工作,利用GPU加速的AI应用程序,可以追踪工业厂区附近的水污染情况,评估野火的金融风险,评估风暴后的损失等。 大规模数据的强大计算能力 GPU加速的AI和数据科学可以从复杂的非结构化数据中快速提取洞察力,使银行和企业能够实时流式处理和分析从卫星、无人机、天线和边缘传感器中捕获的数据。 通过监测航空影像,分析人员可以清晰地看到水库中随时间使用的水量、为建筑项目砍伐的树木数量或龙卷风损坏的房屋数量。这种能力可以通过验证书面记录(如政府强制性披露、环境影响报告甚至保险索赔)的准确性,帮助审计投资。 例如,投资者可以跟踪一家报告其生产线达到零排放的公司的供应链,发现实际上它依赖于一个在卫星图像中可见发出煤烟的海外工厂。或者,分析建筑物的热量排放的传感器可以帮助识别低排放企业以获得税收抵免。 NVIDIA的边缘计算解决方案,包括用于自治机器和其他嵌入式应用的NVIDIA Jetson平台,正在为空间金融中的众多AI计划提供动力。 除了使用NVIDIA硬件加速他们的应用程序外,开发人员还采用包括用于流式分析的NVIDIA DeepStream软件开发工具包、视觉AI平台NVIDIA Metropolis的一部分。他们还使用NVIDIA Omniverse平台构建和操作元宇宙应用程序,以详细、三维可视化地展示地理空间数据。 保险业——从风险评估到加速理赔 NVIDIA Inception成员正在开发GPU加速的应用程序,将地理空间数据转化为保险公司的洞察力,减少了对保险财产进行昂贵现场访问的需求。 位于卢森堡的RSS-Hydro使用GPU计算在本地和云端训练FloodSENS,这是一个从卫星影像中绘制洪水影响的机器学习应用程序。该公司还使用NVIDIA Omniverse在3D中创建FloodSENS的动画,帮助团队在紧急情况下更有效地沟通洪水风险和资源分配规划。 总部位于多伦多的Ecopia AI使用基于深度学习的地理空间数据挖掘系统,帮助生成高度准确的建筑、道路、森林等细分的下一代数字地图。这些地图在公共和私营部门中有各种应用,包括政府气候适应性倡议和保险风险评估。Ecopia使用NVIDIA GPU开发其AI模型。…

Leave a Comment

如何用舌头完成一场前戏?图文并茂,超详细教程在此!不爽不要钱!

作者:知性割鸡割鸡 跟大家分享一些自己的实践经验和一些细节技巧巴拉巴拉的~ 个人观点不一定对,大家随意看看参考一下! 不要吐槽图片…. 百度找的全是人体解剖图看着太瘆人了!无奈翻墙上谷歌和Bing搜索找了点图凑合看看。红圈部分是平时我自己感觉比较敏感的部位,因人而异可以做参考。 准备工作:刷牙、洗澡、剪指甲并磨掉带刺的部分、准备好套套。 然后切入主题~ 前戏篇 我比较喜欢在前戏慢慢玩,所以这部分写的会比较多。因为我感觉前戏把对方弄的迫切想要那种样子很有成就感!哈哈哈 流程可参考下图 正面 背面,腰部红圈三块区域可以重点刺激。 进了房间可以试试搂住妹子的腰,同时试着用胯部顶撞一下妹子的屁股。据妹子所说这样感觉很不错~ 然后靠近她的耳朵深呼吸,气流最好能让妹子的耳朵感受到,然后湿吻什么的调节下气氛为之后的准备。 接下来分为快慢两种,可以根据自己喜好来试试: 1.可以尝试突然的放倒从后面进去,粗暴一些直接进去一次顶到底。然后暂停一会给对方身体适应,一般“妹汁”很快就有了,快速的搞定第一次,反正第一发比较快,注意刚进去太干涩,太着急可能会让对方受伤,不过感觉非常刺激。(第一次发帖不知道规矩,不敢描写的太详细。) 2.慢慢放倒妹子在床上湿吻,手别停继续抚摸。舌尖移到耳根,蜻蜓点水那样舌尖点耳根,从上点下来然后用舌苔贴着耳根刮上去。 舌尖沿着红线走来回,红圈标注的地方可以尝试把舌头伸过去舔一下。 如果手在游走时感觉妹子肌肉绷住了,就在耳边说点情话缓解妹子紧张感。待妹子稍微放松后,突然将舌尖伸进耳朵(图中红圈标注的位置,不是叫你插进耳道里面- -),可以动一下舌头、轻轻吹一点气,妹子的感觉大概就是全身酥麻麻或者很痒,这时候别停! 继续往下走,到脖子这个部位。 按照刚才的方法从左往右用舌苔摩擦,耳根下面的颈动脉位置和喉结那个位置重点刺激。 脖子可以从左往右,舔冰淇淋的那种方法可以用在这里。 此处用舌尖,重点刺激,按箭头方向。可以尝试用舌尖或者整个舌头覆盖从下往上刺激,观察对方对于那种比较有感觉 注意事项:…

Comments closed

培养了无数港星的TVB,曾经红遍内外,这些年经历了什么如此没落

曾经一度辉煌的TVB,如今也因为裁员危机而进入了漫长的冬天。据港媒报道,TVB月底将裁员近千人,其中制作部和综艺组影响最大。据悉现在TVB所有员工大约有4000人,有媒体就此采访了TVB行政总裁,他就表示此消息:“多假小真。”据悉这次裁员将会有800到1000名员工被裁。IOS链接

Leave a Comment

优酷会员官方活动/15个月只需99元/仅此一天

【限时加赠3个月】优酷vip会员年卡视屏充值影视视频365天12个月+限时加赠3个月 【月销量】5952件 【优惠券金额】100元 【券后价】99元 【推荐理由】【官方授权直充,秒到!】zui新zui全的影视节目通通收入囊中!享受VIP特权,广告无需等待,一个会员全家共享!超级福利速抢~~ 【立即领券】复制$HSJpYyOOw0d$打开手机淘宝领券并下单 官方旗舰店链接:https://s.click.taobao.com/jveVptv 活动时间仅此一天 活动时间仅此一天 活动时间仅此一天

Leave a Comment

快餐界的最佳CP !汉堡王停售招牌“华堡”一天,借此提高麦当劳巨无霸的销量

@EatWithChina:#汉堡王牵手麦当劳# 汉堡王宣布停售他们的招牌汉堡“华堡”一天,借此提高麦当劳巨无霸的销量。 原因是,当天麦当劳以卖出的巨无霸为癌病儿童筹款。 竞争对手,不一定要互相攻击,宣传可以很有格调。这一手,实在漂亮。 同行非敌国,船大不占海。

Leave a Comment

海底捞和大学生可能要失去彼此了

当大学生专属的6.9折优惠消失后,大学生们还会去吃人均高达100元、甚至150元的海底捞吗? 海底捞方面表示,大学生折扣将从10月1日起进行调整,周一至周五晚10点至次日晨7点,全单7.5折;周六、周日、节假日公休假期晚10点至次日晨7点,全单8.8折。 在此之前海底捞的大学生6.9折优惠是周一至周日通用的,且有两个时间段:下午3点至5点;晚10点至次日晨8点。调整过后,不仅削弱了优惠力度、区分了工作日与假期,还取消了“下午场”,只留下晚10点后的夜宵专场。 在微博上随便搜搜,都能看到广大大学生群体对这一调整的抱怨。除了纷纷表示要在调整前最后享受一次6.9折优惠外,学生们普遍还表达了对只保留“凌晨场”的不满,认为大部分学校宿舍都有门禁,不太可能为了优惠半夜专门去吃海底捞,这一优惠“形同虚设”。 大学生和海底捞要失去彼此了吗? 学生群体属于价格敏感型客群。在可以用6.9折优惠去“薅羊毛”的日子里,海底捞的人均价与其他品牌火锅店差距不大,还能享受高质量服务、餐前小吃、美甲等附加体验,学生群体才热衷于从较为偏僻的大学城赶去“市中心”在海底捞聚餐一次。但在6.9折优惠消失后,人均客单价骤然升高的海底捞显然会失去对大学生的部分吸引力。 这个优惠对海底捞也是有促进作用的。在下午茶时段设置学生优惠,可以吸引对正餐时间不像职场人士那么敏感的学生党到店消费,覆盖了下午空余时段,提升翻台率。 对海底捞来说,取消6.9折优惠的举动可能存在两个考量,一是提升客单价,二是明确品牌定位。 海底捞于2018年6月在香港上市,随后开启了高速扩张的步伐,开店速度非常快。据其2019年半年报,截止今年6月30日,海底捞在全球范围内拥有593家门店,其中,有259家是从去年7月到今年6月这一年时间里新开的,一年内新开门店数占所有门店的比例达到了43.68%,光是今年上半年就新开了130家。 这样的开店速度使海底捞维持了业绩上的高增长:今年上半年,海底捞的餐厅收入达到113.31亿元,去年同期的数字为71.52亿元,同比增长58.4%。 但门店数越来越多、门店网络编织得越来越密,店与店之间就会形成竞争。 海底捞的半年报还透露出两个信号:翻台率下降、单店增长率下降。翻台率是餐饮行业重要的考量指标,代表着餐厅是否在有限的时间、坪数内拥有更好的营业效率。海底捞在2016~2018年的翻台率分别为4.5次/天、5.0次/天、5.0次/天,而海底捞在2019上半年的翻台率是4.8次/天,是从2015年至今首次呈现下降趋势。 单店增长率下滑得更快。从2016~2018年,海底捞的同店销售增长率分别为14.1%、14.0%和6.2%,而2019上半年的同店销售增长率降至了4.7%。 在这种情况下,如果要提高单店增长率,惟有提高客单价——海底捞也正是这么做的。截止6月30日,海底捞大陆餐厅的人均客单价已经达到了100.4元,一线城市高达110元,在中端火锅餐厅中属于较高水平,因此,通过提升全线菜品价格来提高客单价的做法是比较困难的。 海底捞在今年推出了海底捞品牌的奶茶及其他饮料品类,可以丰富到店客人的消费品类(火锅+茶饮的搭配卖得好不好,看湊湊火锅在一二线城市的排队火爆程度就知道了)。现在,取消大学生专属的6.9折优惠,也可视为“提价”的一种手段。 另一边,失去部分大学生消费者是这个举动的必然后果——对有严格门禁时间的大学生来说,通宵在外吃火锅是较为少见的消费情景,且大部分大学都坐落在城市比较偏远的地区,海底捞门店大多不在日常活动范围之内。 海底捞做好失去大学生的准备了吗?这可能正是海底捞计划中的一部分。 显然,海底捞并不想走“平价”“实惠”的路线,提升品牌的品质感和对应消费群体的消费能力,才是海底捞一直以来致力于做的事情。 这并不是对大学生群体存在“歧视”或“不满意”。很现实的一个问题是,海底捞的各项成本增速都比营收增速快:今年的半年报显示,原材料及易耗品成本由上年同期的30.66亿元上升到49.26亿元,增长59.9%;员工成本由上年同期的22.03亿元上升到36.52亿元,增长65.8%。对此,海底捞表示,主要是因为业务扩张及员工薪资水平提高。 在这样的情况下,海底捞必然会追求毛利率、更重视回报,才能支撑业绩的增长与高企的股价——截止9月26日收盘,海底捞市值高达1791.4亿港元,市盈率高达83倍。 不能委屈员工,只能“对不起”大学生了 最后,既然提到了海底捞高昂的成本,可以再谈几句最近刷屏的“海底捞店长月薪高达12万”的消息。 9月19日,一份中信建投的电话会议纪要记录了海底捞独特的晋升与薪酬体系。“师徒制”和“A级门店评选制“是海底捞工作人员一直保持高度热情投入工作、提供完善周到服务的关键。 海底捞店长基本没有“空降”,都从店员晋升而来,每位新员工到来的时候都会获分配一位师傅,师傅会为新员工提供一周左右的培训,以及职业生涯过程中的帮助和指导。 据中信建投在纪要后发布的研报,每位店长的固定月薪约在35000元左右,并有两套薪酬提成体系可以选择。一是其所管理门…

Leave a Comment

兽爷 | 此心安处是吾乡

1978年,出生在香港、在李小龙电影里死跑龙套的成龙,凭借《蛇形刁手》和《醉拳》确立了自己的江湖地位。 之后,他就和老乡、嘉禾电影公司老板邹文怀眉来眼去。 也是在这一年,离开邵氏的许冠文,凭借讽刺电视台用人制度的《卖身契》,为嘉禾摘得了当年的票房冠军。 那会香港的电视台,都是邵逸夫的。他是宁波人。 一直在香港电影市场缠斗的邵氏和嘉禾,完成了地位接力。从大陆江湖汲取营养的邵氏武侠电影,败给了嘉禾。 此间五年,香港GDP年均增速接近12%。香港人均收入是深圳河北岸同胞的100倍,深圳人民潮水一般涌往对岸。只要有人成功,大家就一起放鞭炮庆祝。 当年9月底,也是潮汕人的李嘉诚,穿着赶制的中山装来到北京。第一次登上长城的他说: 回归祖国的感觉,真好。 港岛的人喜欢引经据典。今年夏天,李嘉诚引用了唐朝的黄台之瓜。 1978年,香港开始评选的十大中文金曲,粤语歌大获全胜。排名第一的《小李飞刀》这样唱到: 乱挥刀剑无结果,流水滔滔斩不断。 1 今年6月,汕头大学毕业典礼在新体育馆举行,学生们都在等着听李嘉诚会讲什么。 去年的汕大毕业典礼,为汕大投入了上百亿港币的超人,卸下名誉主席头衔。此前的十七年,他从未缺席过汕大的毕业典礼。 当天,学生们只等到了校长姜虹的发言: 我希望你们做到“苟利国家生死以”。 这是一所建校伊始就强调爱国的大学。最后唱校歌时,一位毕业生泪流满面,媒体们问他是不是爱这片土地太过深沉,他说: 因为李嘉诚没来。 李嘉诚游览天安门和长城的第二年,南洋商业银行董事长庄世平牵头筹办了汕头大学。叶帅亲自题写了校名,李嘉诚赞助了三千万港币。 那时的港督叫麦理浩。当年3月,自信心爆棚的他去北京谒见总设计师,他说租约一旦失效,地产商信心就将崩溃。 总设计师已经见过很多香港地产商了,有没有信心大家都很清楚: 香港属于中国,这个问题本身不能讨论。 麦理浩返港后,惜字如金,只说北京回复: 叫香港投资者放心。 英国人听懂了这句话。怡和、会德丰、和记、太古四大洋行对香港经济的统治,出现裂隙。…

Leave a Comment

那个璀璨夺目的香港似乎就此留在十几年前。

@NumberW 表弟初中时随舅妈工作的关系,移居到了香港。 在离深圳较近的沙田区分到了公屋。 那时和别人说起有香港的亲戚都觉洋气。 08年的暑假,我第一次去香港。算是未成年时的一次旅行。 他们叮嘱我记得电梯左行右站、礼让行人,公共场合和车厢内不能饮食,地铁线路不看清会迷路。 眼花缭乱的霓虹灯牌,繁华闹市间的市井气息。 TVB剧集和王家卫电影里的香港果然诚不我欺。 当时我也感受到了一个城市发条般的有序和热忱。 地铁出入不小心碰到行人,他会露出抱歉表情主动讲‘sorry’。 那时还没导航,转地铁线出站时果然迷路了。 问了一个二十出头的白领,他想了想,说 “我也顺路,带你们去吧”。 然后带着我们走了五六分钟的路,才到了另一个站的出口。 (没记错是从尖东站走去尖沙咀站的长隧道) 找了个冰室吃午饭,过了饭点人不多,我惊诧一个饭要50多港币。老板模样的大叔走来问我们哪里来的呀。我说广州。 老板笑呵呵地说,“省城嘛,以后介绍多点‘同学仔’光顾我生意哦。” 晚上时我们去了海港城,旺角,一座座门庭若市的名牌店罗列在街上灯光如昼。 当时中学的小女友给我介绍说:这是最时髦的“H&M” 和“ZARA”。 那时不懂Hermes、CHANEL、LV、GUCCI、PRADA,FENDI……但看着物欲横流的港城已感觉足够奢侈繁华。 那一年,港人都对中国的崛起有着自豪感,茶余饭后也聊着国内外的各种八卦。 那一年,40平方的房子200万也能有成交。人们竭力学着蹩脚的普通话和国人打成一片,想象着更加好的未来。 那一年,大热的《喜帖街》正唱遍横街窄巷。 “温馨的光境不过借出,到期拿回吗。”…

Leave a Comment

揭秘语言模型中的逆向缩放

一个重要的方面是要考虑到反比例缩放问题,这可能会影响更大的LLM的表现虽然这可能会带来挑战,但也为改进和优化提供了机会通过解决这个问题,我们可以增强这些模型的整体能力,使它们更有效地处理各种任务这些潜在的改进突显了更大的LLM在人工智能领域的价值和潜力

Leave a Comment

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas

这是与MongoDB的Babu Srinivasan共同撰写的客座文章随着今天快节奏的商业环境中行业的发展,无法进行实时预测给那些高度依赖精准及时洞察力的行业带来了重大挑战在各个行业中缺乏实时预测存在着紧迫的业务挑战,这可能会对决策产生重大影响

Leave a Comment

Can't find what you're looking for? Try refining your search: