视频目标分割方法、装置、服务器及存储介质制造方法及图纸

技术编号:35027657 阅读:10 留言:0更新日期:2022-09-24 23:00
本公开提供了一种视频目标分割方法、装置、服务器及存储介质,属于人工智能技术领域。所述方法包括:根据第一时间特征图、第一单词特征图及第一空间特征图,对第一时间特征图和第一空间特征图进行更新,得到第二时间特征图和第二空间特征图;对第二空间特征图和第二时间特征图进行解码,得到解码时间特征图和解码空间特征图;基于解码时间特征图、解码空间特征图及文本描述信息的语句特征图,生成以目标对象为主体的目标图像。本公开以文本描述信息为桥接,对第一空间特征图和第一时间特征图进行更新,使得更新后的第二空间特征图和第二时间特征图能够学习到与语言相关的更多时间知识和空间知识,提高了视频目标分割结果的准确性。性。性。

【技术实现步骤摘要】
视频目标分割方法、装置、服务器及存储介质


[0001]本公开涉及人工智能
,特别涉及一种视频目标分割方法、装置、服务器及存储介质。

技术介绍

[0002]视频作为信息流场景中常见信息载体,对视频目标进行分割有助于更好地理解视频内容,已成为信息流内容理解不可或缺的一部分。视频目标分割是指根据自然语言描述将视频帧中被指代的目标对象分割出来,视频目标分割可应用于基于语言的视频编辑、语言导引的视频摘要及视频问题回答等任务中。
[0003]相关技术基于三维卷积神经网络,通过采用跨模态注意力、胶囊路径及动态卷积等多种方法,挖掘视觉模态和语言模态的对应的关系,从而实现对视频目标的分割。
[0004]然而,由于视频帧中运动对象的位置和姿势在相邻帧之间变化,而三维卷积神经网络在时空交互上具有局限性,采用三维算子(例如,三维卷积、三维池化等)聚合空间不对齐的多帧特征时,容易混淆目标帧的原始表观信息而无法分辨具有相似表观却进行不同运动的对象,导致视频目标分割结果并不准确。

技术实现思路

[0005]本公开实施例提供了一种视频目标分割方法、装置、服务器及存储介质,能够提高视频目标分割结果的准确性。所述技术方案如下:
[0006]第一方面,提供了一种视频目标分割方法,所述方法包括:
[0007]获取目标视频帧的第一空间特征图、所述目标视频帧对应的帧差图像的第一时间特征图及文本描述信息的第一单词特征图,所述文本描述信息用于描述所述目标视频帧中目标对象;
[0008]根据所述第一时间特征图和所述第一单词特征图,对所述第一空间特征图进行更新,得到所述目标视频帧的第二空间特征图,所述第二空间特征图中增加了与所述目标对象相关的运动信息;
[0009]根据所述第一空间特征图和所述第一单词特征图,对所述第一时间特征图进行更新,得到所述目标视频帧的第二时间特征图,所述第二时间特征图中增加了与所述目标对象相关的表现信息;
[0010]对所述第二空间特征图和所述第二时间特征图进行解码,得到解码时间特征图和解码空间特征图;
[0011]基于所述解码时间特征图、所述解码空间特征图及所述文本描述信息的语句特征图,生成以所述目标对象为主体的目标图像。
[0012]第二方面,提供了一种视频目标分割装置,所述装置包括:
[0013]获取模块,用于获取目标视频帧的第一空间特征图、所述目标视频帧对应的帧差图像的第一时间特征图及文本描述信息的第一单词特征图,所述文本描述信息用于描述所
述目标视频帧中目标对象;
[0014]第一更新模块,用于根据所述第一时间特征图和所述第一单词特征图,对所述第一空间特征图进行更新,得到所述目标视频帧的第二空间特征图,所述第二空间特征图中增加了与所述目标对象相关的运动信息;
[0015]第二更新模块,用于根据所述第一空间特征图和所述第一单词特征图,对所述第一时间特征图进行更新,得到所述目标视频帧的第二时间特征图,所述第二时间特征图中增加了与所述目标对象相关的表现信息;
[0016]解码模块,用于对所述第二空间特征图和所述第二时间特征图进行解码,得到解码时间特征图和解码空间特征图;
[0017]生成模块,用于基于所述解码时间特征图、所述解码空间特征图及所述文本描述信息的语句特征图,生成以所述目标对象为主体的目标图像。
[0018]第三方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如第一方面所述的视频目标分割方法。
[0019]第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现第一方面所述的视频目标分割方法。
[0020]第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,服务器的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述服务器执行如第一方面所述的视频目标分割方法。
[0021]本公开实施例提供的技术方案带来的有益效果是:
[0022]本公开实施例中目标视频帧中承载着目标帧中各个对象的表现信息,目标视频帧的帧差图像能够指示目标视频帧图像中各个对象的运动信息,文本描述信息用于描述目标视频帧中待分割目标对象,通过提取目标视频帧的第一空间特征图、目标视频帧对应的帧差图像的第一时间特征图及文本描述信息的第一单词特征图,进而以文本描述信息对应的第一单词特征图为桥接,将目标视频帧中目标对象的运动信息融合到第一空间特征图中,得到第二空间特征图,并将目标视频帧中目标对象的表现信息融合到第一时间特征图中,得到第二时间特征图,由于第二空间特征图学习了与目标对象相关的运动信息,第二时间特征图学习了与目标对象相关的表现信息,因而基于第二空间特征图和第二时间特征图进行解码,能够准确地区分目标视频帧中具有不同运动的对象,从而提高了视频目标分割结果的准确性。
附图说明
[0023]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本公开实施例提供的一种视频目标分割模型的整体架构图;
[0025]图2是本公开实施例提供的一种LBDT模块中时间

语言

空间信息的传递过程示意图;
[0026]图3是本公开实施例提供的一种CBA模块的处理过程示意图;
[0027]图4是本公开实施例提供的一种视频目标分割方法的流程图;
[0028]图5是本公开实施例提供的一种视频目标分割方法的流程图;
[0029]图6是本公开实施例提供的一种视频目标分割装置的结构示意图;
[0030]图7是根据一示例性实施例示出的一种用于视频目标分割的服务器。
具体实施方式
[0031]为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
[0032]可以理解,本公开实施例所使用的术语“每个”、“多个”及“任一”等,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指对应的多个中的任意一个。举例来说,多个词语包括10个词语,而每个词语是指这10个词语中的每一个词语,任一词语是指10个词语中的任意一个词语。
[0033]需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
[0034]请参考图1,其示出了本公开实施例提供一种视频目标分割模型的整体架构图,参见图1,该视频目标分割模型包括时间编码器、空本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频目标分割方法,其特征在于,所述方法包括:获取目标视频帧的第一空间特征图、所述目标视频帧对应的帧差图像的第一时间特征图及文本描述信息的第一单词特征图,所述文本描述信息用于描述所述目标视频帧中目标对象;根据所述第一时间特征图和所述第一单词特征图,对所述第一空间特征图进行更新,得到所述目标视频帧的第二空间特征图,所述第二空间特征图中增加了与所述目标对象相关的运动信息;根据所述第一空间特征图和所述第一单词特征图,对所述第一时间特征图进行更新,得到所述目标视频帧的第二时间特征图,所述第二时间特征图中增加了与所述目标对象相关的表现信息;对所述第二空间特征图和所述第二时间特征图进行解码,得到解码时间特征图和解码空间特征图;基于所述解码时间特征图、所述解码空间特征图及所述文本描述信息的语句特征图,生成以所述目标对象为主体的目标图像。2.根据权利要求1所述的方法,其特征图在于,所述根据所述第一时间特征图和所述第一单词特征图,对所述第一空间特征图进行更新,得到所述目标视频帧的第二空间特征图,包括:对所述第一单词特征图中单词特征进行增强,得到第二单词特征图;将所述第一时间特征图中各个特征元素与第一正弦波位置编码特征图中相应的特征元素进行相加,得到处理后的第一时间特征图;对所述处理后的第一时间特征图进行变换,得到第一次变换后的第一时间特征图;根据所述第一次变换后的第一时间特征图和所述第二单词特征图,确定所述文本描述信息对应的第一注意力权重特征图;基于所述第一注意力权重特征图、所述第一次变换后的第一时间特征图及所述第二单词特征图,确定时间语言交互特征图,所述时间语言交互特征图为融合所述目标对象的运动信息和文本描述信息的交互特征图;基于所述时间语言交互特征图,对所述第一空间特征图进行更新,得到所述第二空间特征图。3.根据权利要求2所述的方法,其特征图在于,所述对所述第一单词特征图中单词特征进行增强,得到第二单词特征图,包括:将所述第一单词特征图中各个特征元素与第二正弦波位置编码特征图中相应的特征元素进行相加,得到处理后的第一单词特征图;对所述处理后的第一单词特征图进行变换,得到变换后的第一单词特征图;采用注意力机制对所述变换后的第一单词特征图进行处理,得到增强单词特征图;将所述第一单词特征图中各个特征元素与所述增强单词特征图中相应特征元素进行相加,得到所述第二单词特征图。4.根据权利要求2所述的方法,其特征在于,所述基于所述第一注意力权重特征图、所述第一次变换后的第一时间特征图及所述第二单词特征图,确定时间语言交互特征图,包括:
对所述第一次变换的第一时间特征图进行线性变换,得到第二次变换后的第一时间特征图;将所述第一注意力权重特征图中各个特征元素和所述第二次变换后的第一时间特征图中相应的特征元素相乘,得到第一中间特征图;将所述第一中间特征图中各个特征元素与所述第二单词特征图中相应的特征元素相加,得到所述时间语言交互特征图。5.根据权利要求2所述的方法,其特征在于,所述基于所述时间语言交互特征图,对所述第一空间特征图进行更新,得到所述第二空间特征图,包括:将所述第一空间特征图中各个特征元素与第三正弦波位置编码特征图中相应的特征元素进行相加,得到处理后的第一空间特征图;对所述处理后的第一空间特征图进行变换,得到第一次变换后的第一空间特征图;根据所述第一次变换后的第一空间特征图和所述时间语言交互特征图,确定所述第一次变换后的第一空间特征图对应的第二注意力权重特征图;基于所述第二注意力权重特征图、所述第一空间特征图及所述时间语言交互特征图,确定所述第二空间特征图。6.根据权利要求5所述的方法,其特征在于,所述基于所述第二注意力权重特征图、所述第一空间特征图及所述时间语言交互特征图,确定所述第二空间特征图,包括:对所述时间语言交互特征图进行线性变换,得到变换后的时间语言交互特征图;将所述第二注意力权重特征图中各个特征元素和所述变换后的时间语言交互特征图中相应特征元素相乘,得到第二中间特征图;对所述第二中间特征图进行处理,得到处理后的第二中间特征图;将所述处理后的第二中间特征图中各个特征元素与所述第一空间特征图中相应特征元素相加,得到所述第二空间特征图。7.根据权利要求1所述的方法,其特征图在于,所述根据所述第一空间特征图和所述第一单词特征图,对所述第一时间特征图进行更新,得到所述目标视频帧的第二时间特征图,包括:对所述第一单词特征图中的单词特征进行增强,得到第二单词特征图;将所述第一空间特征图中各个特征元素与第三正弦波位置编码特征图中相应的特征元素进行相加,得到处理后的第一空间特征图;对所述处理后的第一空间特征图进行变换,得到第一次变换后的第一空间特征图;根据所述第一次变换...

【专利技术属性】
技术研发人员:丁子涵惠天瑞黄君实魏晓明刘偲魏晓林
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1