Press "Enter" to skip to content

帮助计算机视觉和语言模型理解它们所看到的内容

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

MIT研究人员创建了一个新的带注释的合成图像数据集,展示了各种场景,可用于帮助机器学习模型理解场景中的概念。 ¶ 图片来源:Khaled Shehada等人

麻省理工学院的研究人员是一个团队的一部分,他们开发了一种使用计算机生成的数据来帮助视觉和语言模型更好地理解概念的技术。

研究人员使用了一个带注释的合成数据集来微调流行的视觉和语言模型,将它们在概念理解上的准确性提高了多达10%。

他们使用计算机生成的合成视频来生成接近80万个逼真的图像,这些图像展示了多样化的三维环境和物体,并添加了与它们互动的人类角色。

每个图像都附有详细的标题,涵盖了对象属性、位置关系和人物与物体的交互。

合成数据使研究人员能够以较低的成本创建更多样化的图像,而不是生成真实数据,并通过使用角色保护隐私。来自MIT News的完整文章

摘要版权©2023 SmithBucklin,华盛顿特区,美国 帮助计算机视觉和语言模型理解它们所看到的内容 四海 第2张

Leave a Reply

Your email address will not be published. Required fields are marked *