【技术实现步骤摘要】
视频目标分割方法、装置、服务器及存储介质
[0001]本公开涉及人工智能
,特别涉及一种视频目标分割方法、装置、服务器及存储介质。
技术介绍
[0002]视频作为信息流场景中常见信息载体,对视频目标进行分割有助于更好地理解视频内容,已成为信息流内容理解不可或缺的一部分。视频目标分割是指根据自然语言描述将视频帧中被指代的目标对象分割出来,视频目标分割可应用于基于语言的视频编辑、语言导引的视频摘要及视频问题回答等任务中。
[0003]相关技术基于三维卷积神经网络,通过采用跨模态注意力、胶囊路径及动态卷积等多种方法,挖掘视觉模态和语言模态的对应的关系,从而实现对视频目标的分割。
[0004]然而,由于视频帧中运动对象的位置和姿势在相邻帧之间变化,而三维卷积神经网络在时空交互上具有局限性,采用三维算子(例如,三维卷积、三维池化等)聚合空间不对齐的多帧特征时,容易混淆目标帧的原始表观信息而无法分辨具有相似表观却进行不同运动的对象,导致视频目标分割结果并不准确。
技术实现思路
[0005]本公开实施例提供了一种视频目标分割方法、装置、服务器及存储介质,能够提高视频目标分割结果的准确性。所述技术方案如下:
[0006]第一方面,提供了一种视频目标分割方法,所述方法包括:
[0007]获取目标视频帧的第一空间特征图、所述目标视频帧对应的帧差图像的第一时间特征图及文本描述信息的第一单词特征图,所述文本描述信息用于描述所述目标视频帧中目标对象;
[0008]根据所述第一时间特 ...
【技术保护点】
【技术特征摘要】
1.一种视频目标分割方法,其特征在于,所述方法包括:获取目标视频帧的第一空间特征图、所述目标视频帧对应的帧差图像的第一时间特征图及文本描述信息的第一单词特征图,所述文本描述信息用于描述所述目标视频帧中目标对象;根据所述第一时间特征图和所述第一单词特征图,对所述第一空间特征图进行更新,得到所述目标视频帧的第二空间特征图,所述第二空间特征图中增加了与所述目标对象相关的运动信息;根据所述第一空间特征图和所述第一单词特征图,对所述第一时间特征图进行更新,得到所述目标视频帧的第二时间特征图,所述第二时间特征图中增加了与所述目标对象相关的表现信息;对所述第二空间特征图和所述第二时间特征图进行解码,得到解码时间特征图和解码空间特征图;基于所述解码时间特征图、所述解码空间特征图及所述文本描述信息的语句特征图,生成以所述目标对象为主体的目标图像。2.根据权利要求1所述的方法,其特征图在于,所述根据所述第一时间特征图和所述第一单词特征图,对所述第一空间特征图进行更新,得到所述目标视频帧的第二空间特征图,包括:对所述第一单词特征图中单词特征进行增强,得到第二单词特征图;将所述第一时间特征图中各个特征元素与第一正弦波位置编码特征图中相应的特征元素进行相加,得到处理后的第一时间特征图;对所述处理后的第一时间特征图进行变换,得到第一次变换后的第一时间特征图;根据所述第一次变换后的第一时间特征图和所述第二单词特征图,确定所述文本描述信息对应的第一注意力权重特征图;基于所述第一注意力权重特征图、所述第一次变换后的第一时间特征图及所述第二单词特征图,确定时间语言交互特征图,所述时间语言交互特征图为融合所述目标对象的运动信息和文本描述信息的交互特征图;基于所述时间语言交互特征图,对所述第一空间特征图进行更新,得到所述第二空间特征图。3.根据权利要求2所述的方法,其特征图在于,所述对所述第一单词特征图中单词特征进行增强,得到第二单词特征图,包括:将所述第一单词特征图中各个特征元素与第二正弦波位置编码特征图中相应的特征元素进行相加,得到处理后的第一单词特征图;对所述处理后的第一单词特征图进行变换,得到变换后的第一单词特征图;采用注意力机制对所述变换后的第一单词特征图进行处理,得到增强单词特征图;将所述第一单词特征图中各个特征元素与所述增强单词特征图中相应特征元素进行相加,得到所述第二单词特征图。4.根据权利要求2所述的方法,其特征在于,所述基于所述第一注意力权重特征图、所述第一次变换后的第一时间特征图及所述第二单词特征图,确定时间语言交互特征图,包括:
对所述第一次变换的第一时间特征图进行线性变换,得到第二次变换后的第一时间特征图;将所述第一注意力权重特征图中各个特征元素和所述第二次变换后的第一时间特征图中相应的特征元素相乘,得到第一中间特征图;将所述第一中间特征图中各个特征元素与所述第二单词特征图中相应的特征元素相加,得到所述时间语言交互特征图。5.根据权利要求2所述的方法,其特征在于,所述基于所述时间语言交互特征图,对所述第一空间特征图进行更新,得到所述第二空间特征图,包括:将所述第一空间特征图中各个特征元素与第三正弦波位置编码特征图中相应的特征元素进行相加,得到处理后的第一空间特征图;对所述处理后的第一空间特征图进行变换,得到第一次变换后的第一空间特征图;根据所述第一次变换后的第一空间特征图和所述时间语言交互特征图,确定所述第一次变换后的第一空间特征图对应的第二注意力权重特征图;基于所述第二注意力权重特征图、所述第一空间特征图及所述时间语言交互特征图,确定所述第二空间特征图。6.根据权利要求5所述的方法,其特征在于,所述基于所述第二注意力权重特征图、所述第一空间特征图及所述时间语言交互特征图,确定所述第二空间特征图,包括:对所述时间语言交互特征图进行线性变换,得到变换后的时间语言交互特征图;将所述第二注意力权重特征图中各个特征元素和所述变换后的时间语言交互特征图中相应特征元素相乘,得到第二中间特征图;对所述第二中间特征图进行处理,得到处理后的第二中间特征图;将所述处理后的第二中间特征图中各个特征元素与所述第一空间特征图中相应特征元素相加,得到所述第二空间特征图。7.根据权利要求1所述的方法,其特征图在于,所述根据所述第一空间特征图和所述第一单词特征图,对所述第一时间特征图进行更新,得到所述目标视频帧的第二时间特征图,包括:对所述第一单词特征图中的单词特征进行增强,得到第二单词特征图;将所述第一空间特征图中各个特征元素与第三正弦波位置编码特征图中相应的特征元素进行相加,得到处理后的第一空间特征图;对所述处理后的第一空间特征图进行变换,得到第一次变换后的第一空间特征图;根据所述第一次变换...
【专利技术属性】
技术研发人员:丁子涵,惠天瑞,黄君实,魏晓明,刘偲,魏晓林,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。