当前位置: 首页 > 专利查询>奥多比公司专利>正文

使用弱监督为图像配字幕制造技术

技术编号:15867667 阅读:65 留言:0更新日期:2017-07-23 17:06
本发明专利技术的各实施例总体上涉及使用弱监督为图像配字幕。具体地,本文中描述了用于使用弱监督为图像配字幕的技术。在实现中,获取关于目标图像的弱监督数据并且使用其提供补充被获得用于图像配字幕的全局图像概念的细节信息。弱监督数据是指没有被紧密地监管并且可能包括误差的噪声数据。给定目标图像,可以从弱注释的图像的源、诸如在线社交网络采集在视觉上相似的图像的弱监督数据。通常,在线发布的图像包括由用户添加的标签、标题、标注和短描述形式的“弱”注释。通过提取在不同源中发现的在视觉上相似的图像的关键词来生成目标图像的弱监督数据。然后在图像配字幕分析期间采用弱监督数据中包括的关键词来调制被应用于概率分类的权重。

Using weak supervision to subtitle images

The embodiments of the present invention generally involve the use of weak supervision to subtitle images. Specifically, this paper describes techniques for using weak supervision to subtitle images. In implementation, the weak supervised data about the target image is acquired, and the details of the global image concept for obtaining the image subtitle are provided by using the weak supervision data. Weak surveillance data is noise data that is not closely monitored and may include errors. Given a target image, weak supervised data can be acquired from weakly annotated images of sources, such as online social networks, to capture visually similar images. Typically, online published images include tags added to the user, titles, annotations, and short descriptions of weak annotations. The weak supervised data of the target image is generated by extracting keywords from visually similar images found in different sources. Then, the weights included in the weakly supervised data are used to modulate the weights applied to the probability classification during the image caption analysis.

【技术实现步骤摘要】
使用弱监督为图像配字幕
技术介绍
自动生成图像的自然语言描述由于用于图像搜索、视觉受损人群的可访问性、以及图像采集的管理的实际应用而不断地吸引着人们的兴趣。传统的用于图像处理的技术由于传统的图像标记和搜索算法的限制而不支持高精度自然语言配字幕和图像搜索。这是因为,传统的技术仅使标签与图像相关联,但是没有定义标签之间或者标签与图像本身之间的关系。另外,传统的技术可以包括使用自顶向下方法,在该方法中,首先得到图像的整个“要点”然后通过语言建模和语句生成将其细化为适当的描述性词语或字幕。然而,这一自顶向下方法在捕获图像的精细细节(诸如贡献图像的精确描述的局部对象、属性和区域方面)工作并不良好。这样,可能很难使用传统的方法来生成精确且复杂的图像字幕,诸如“给在高的椅子中拿着玩具的孩子喂食的人”。因此,使用传统的技术生成的字幕可能忽略重要的图像细节,这使得用户很难搜索具体图像并且基于相关联的字幕来全面地理解图像的内容。
技术实现思路

技术实现思路
部分介绍简化形式的概念的选择,这些概念在下面在具体实施例部分中进一步描述。这样,本
技术实现思路
部分并非意图标识要求保护的主题的基本特征,也并非意图用于帮助确定要求保护的主题的范围。本文中描述用于使用弱监督为图像配字幕的技术。在一个或多个实现中,获取关于目标图像的弱监督数据并且使用其提供补充被获得用于图像配字幕的全局图像概念的细节信息。弱监督数据是指没有被紧密地监管并且可能包括误差的噪声数据。给定目标图像,可以从弱注释的图像的不同的源(诸如在线社交网络、图像共享站点和图像数据库)来采集在视觉上相似的图像的弱监督数据。通常,在线发布的图像包括由用户添加的标签、标题、标注和短描述形式的“弱”注释。通过提取和聚合在弱注释图像的不同的源中发现的在视觉上相似的图像的关键词来生成目标图像的弱监督数据。然后,在图像配字幕分析期间采用弱监督数据中包括的关键词来调制被应用于概率分类的权重。因此,取决于弱监督数据来计算用于预测图像配字幕的词语的概率分布。在各实现方式中,图像配字幕框架基于神经网络和机器学习。给定目标图像,应用特征提取技术以得到描述图像的“要点”的全局图像概念。例如,可以使用预先训练的卷积神经网络(CNN)来使用全局描述性术语对图像编码。CNN产生反映全局图像概念的视觉特征矢量。然后,将所得到的关于全局图像概念的信息馈送到语言处理模型中,语言处理模型操作以在概率上生成图像的描述性字幕。比如,可以将视觉特征矢量馈送到循环神经网络(RNN)中,RNN被设计成实现语言建模和语句生成技术。RNN被设计成基于根据多个迭代中的权重因子计算的概率分布来迭代地预测用于组合作为目标图像的字幕的词语的序列。在这一上下文中,弱监督数据通过调制在模型中施加的权重因子来向RNN通知说明附加细节信息的操作。以这一方式,将弱监督数据中包括的关键词注入到图像配字幕框架中以补充全局图像概念,这使得能够以更大复杂性和精度来生成图像字幕。附图说明参考附图来描述详细描述。在附图中,附图标记的最左侧数字标识其中首次出现该附图标记的附图。在描述和附图中不同实例中的相同的附图标记的使用可以表示相似或相同的术语。附图中表示的实体可以表示一个或多个实体,因此可以在讨论中可互换地引用这些实体的单数或复数形式。图1是可操作以采用本文中描述的技术的示例实现方式中的环境的图示;图2描绘示出根据一个或多个实现方式的字幕生成器的细节的图;图3描绘根据一个或多个实现方式的图像配字幕框架的示例实现;图4是描绘根据一个或多个实现方式的图像配字幕框架的细节的图;图5描绘描绘根据一个或多个实现方式的用于使用弱监督为图像配字幕的框架的图;图6是根据一个或多个实现方式的其中采用弱监督数据用于图像配字幕的示例过程的流程图;图7描绘一般性地图示用于图像配字幕的词语矢量表示的概念的示例图;图8是根据一个或多个实现方式的其中采用词语矢量表示用于图像配字幕的示例过程的流程图;图9是描绘根据一个或多个实现方式的用于图像配字幕的语义注意框架的图;图10是根据一个或多个实现方式的其中采用语义注意模型用于图像配字幕的示例过程的流程图;图11是描绘根据一个或多个实现方式的语义注意框架的细节的图;以及图12图示包括能够用于本文中描述的图像配字幕技术的一个或多个实现方式的示例设备的各种部件的示例系统。具体实施方式概述传统的用于图像处理的技术由于传统的图像标记和搜索算法的限制而不支持高精度自然语言配字幕和图像搜索。这是因为,传统的技术仅使标签与图像相关联,而没有定义标签之间或者标签与图像本身之间的关系。另外,传统的技术可以包括使用自顶向下方法,在自顶向下方法中,首先得到图像的整个“要点”并且通过语言建模和语句生成将其细化成适当的描述性词语和字幕。然而,这一自顶向下方法在捕获图像的精细细节(诸如贡献图像的精确描述的局部对象、属性和区域方面)工作并不良好。本文中描述用于使用弱监督为图像配字幕的技术。在一个或多个实现方式中,获取关于目标图像的弱监督数据并且使用其提供补充被获得用于图像配字幕的全局图像概念的细节信息。弱监督数据是指没有被紧密地监管并且可能包括误差的噪声数据。给定目标图像,可以从弱注释的图像的不同的源(诸如在线社交网络、图像共享站点和图像数据库)来采集在视觉上相似的图像的弱监督数据。通常,在线发布的图像包括由用户添加的标签、标题、标注和短描述形式的“弱”注释。通过提取和聚合在弱注释图像的不同的源中发现的在视觉上相似的图像的关键词来生成目标图像的弱监督数据。然后,在图像配字幕分析期间采用弱监督数据中包括的关键词来调制被应用于概率分类的权重。因此,取决于弱监督数据来计算用于预测图像配字幕的词语的概率分布。在实现方式中,图像配字幕框架基于神经网络和机器学习。给定目标图像,应用特征提取技术以得到描述图像的“要点”的全局图像概念。例如,可以使用预先训练的卷积神经网络(CNN)来使用全局描述性术语对图像编码。CNN产生反映全局图像概念的视觉特征矢量。然后,将所得到的关于全局图像概念的信息馈送到语言处理模型中,语言处理模型操作以在概率上生成图像的描述性字幕。比如,可以将视觉特征矢量馈送到循环神经网络(RNN)中,RNN被设计成实现语言建模和语句生成技术。RNN被设计成基于根据多个迭代中的权重因子计算的概率分布来迭代地预测用于组合作为目标图像的字幕的词语的序列。在这一上下文中,弱监督数据通过调制在模型中施加的权重因子来向RNN通知说明附加细节信息的操作。本文档中描述的使用弱监督为图像配字幕的技术使得能够以更大复杂性和精度来生成图像字幕。根据弱监督注释得到的关键词可以扩展用于特定图像的配字幕的词语的库并且相应地调制词语概率。因此,扩展候选字母的集合以包括根据弱监督数据得到的具体的对象、属性和术语。总之,其产生更加准确并且可以描述图像的非常具体的方面的更好的字幕。在以下讨论中,首先描述可以在本文中描述的技术中使用的示例环境。然后描述可以在示例环境以及其他环境中执行的示例过程和实现细节。因此,示例过程和细节的执行不限于示例环境,并且示例环境不限于示例过程和细节的执行。示例环境图1是可操作以采用本文中描述的技术的示例实现方式中的环境100的图示。图示的环境100包括计算设备102,计算设备102包本文档来自技高网...
使用弱监督为图像配字幕

【技术保护点】
在使用一个或多个计算设备促进图像采集管理的数字媒体环境中,一种用于使用弱监督数据自动生成图像字幕的方法,所述方法包括:获取用于字幕分析的目标图像;向所述目标图像应用特征提取以生成对应于所述图像的全局概念;将所述目标图像与来自弱注释图像的源的图像相比较以标识在视觉上相似的图像;通过从所述在视觉上相似的图像中提取用于指示图像细节的所述目标图像的关键词来构建所述关键词的集合;以及供应指示图像细节的所述关键词的集合作为所述弱监督数据用于连同所述全局概念进行字幕生成。

【技术特征摘要】
2016.01.13 US 14/995,0321.在使用一个或多个计算设备促进图像采集管理的数字媒体环境中,一种用于使用弱监督数据自动生成图像字幕的方法,所述方法包括:获取用于字幕分析的目标图像;向所述目标图像应用特征提取以生成对应于所述图像的全局概念;将所述目标图像与来自弱注释图像的源的图像相比较以标识在视觉上相似的图像;通过从所述在视觉上相似的图像中提取用于指示图像细节的所述目标图像的关键词来构建所述关键词的集合;以及供应指示图像细节的所述关键词的集合作为所述弱监督数据用于连同所述全局概念进行字幕生成。2.根据权利要求1所述的方法,还包括使用所述关键词的集合调制应用于语句构造的词语权重来生成所述目标图像的字幕。3.根据权利要求1所述的方法,其中所述关键词的集合扩展可用于所述字幕分析的候选字幕的集合以便包括根据所述弱监督数据得到的具体的对象、属性和术语以及还包括根据所述特征提取得到的所述全局概念。4.根据权利要求1所述的方法,其中向语言处理模型供应所述关键词的集合,所述语言处理模型可操作以通过计算说明所述弱监督数据的概率分布来在概率上生成所述图像的描述性字幕。5.根据权利要求1所述的方法,其中向所述目标图像应用特征提取包括使用预先训练的卷积神经网络CNN来使用指示所述全局概念的全局描述性术语来对所述图像编码。6.根据权利要求1所述的方法,其中供应所述关键词的集合包括向被设计成实现用于生成所述目标图像的字幕的语言建模和语句构造技术的循环神经网络RNN提供关键词。7.根据权利要求6所述的方法,其中所述RNN基于根据多个迭代中的权重因子计算的概率分布来迭代地预测用于组合作为所述目标图像的字幕的词语的序列。8.根据权利要求7所述的方法,其中针对所述多个迭代中的每个迭代在所述RNN中注入所述关键词的集合以调制用于预测所述序列的所述权重因子。9.根据权利要求1所述的方法,其中字幕生成包括用于确定用于组合作为所述目标图像的字幕的词语的序列的多个迭代并且供应所述关键词的集合包括针对所述多个迭代中的每个迭代提供相同的关键词。10.根据权利要求1所述的方法,其中构建所述关键词的集合包括基于相关准则来对与所述在视觉上相似的图像相关联的关键词评分和评级并且生成顶部评级关键词的经过滤的列表。11.根据权利要求1所述的方法,其中向所述关键词的集合中的关键词被分配关键词权重以有效地改变被实现用于字幕生成的概率分类中的词语概率从而有利于指示所述图像细节的关键词。12.根据权利要求1所述的方法,其中所述弱注释的图像的源包括通过网络可访问的图像的在线储存库。13.在使用一个或多个计算设备促进图像采集访问的数字媒体环境中,一种系统包括:一个或多个处理设备;一个或多个计算机可读介质,其存储经由所述一个或多个处...

【专利技术属性】
技术研发人员:王兆闻尤全增金海琳方晨
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1