视频语义表示方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32112863 阅读:13 留言:0更新日期:2022-01-29 18:56
本发明专利技术提供一种视频语义表示方法、装置、电子设备和存储介质,其中方法包括:获取待表示视频的视频文本信息和多个视频帧;分别利用视频语义表示模型的文本编码器和图片编码器对视频文本信息和多个视频帧进行语义提取,得到视频文本信息的语义向量和多个视频帧的帧语义向量;利用视频语义表示模型的多模态融合器,对文本语义向量和多个视频帧的帧语义向量进行多模态融合,得到待表示视频的视频语义表示;其中,视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,视频语义表示模型的图片编码器和文本编码器是基于样本图片以及样本图片的描述文本预先进行联合训练得到的。本发明专利技术提高了视频语义表示的精确性。频语义表示的精确性。频语义表示的精确性。

【技术实现步骤摘要】
视频语义表示方法、装置、电子设备和存储介质


[0001]本专利技术涉及视频处理
,尤其涉及一种视频语义表示方法、装置、电子设备和存储介质。

技术介绍

[0002]随着网络技术的发展,视频作为一种信息载体,丰富了人们的娱乐、学习等日常生活。相关技术中,需要生成视频的表示来区分不同的视频,比如视频检索应用场景下,可基于视频表示从视频库中检索视频,或是在视频推荐应用场景下,根据用户历史观看的视频的视频表示从视频库中检索相关的视频。
[0003]目前,通常的视频语义表示方法通常是基于样本视频和样本视频的标签进行有监督训练得到视频表示模型后,利用视频表示模型提取得到的。然而,目前业务场景中大量用户上传的视频没有经过人工标注相关标签数据,无法直接用来进行有监督训练以生成有意义的视频语义表示。此外,虽然视频由视频帧序列组合而成,且现有的部分无监督方式的图像语义表示模型或是图文多模态融合模型可以提取图像语义或将图像的语义和文本语义相融合,但由于视频的数据分布与图像之间存在差别,且视频的视频帧之间存在大量相关联的语义信息,而单纯的图像语义表示模型或图文多模态融合模型多用于提取单个图像的语义,难以处理多个相关联的视频帧,因此直接利用上述模型提取视频语义的效果欠佳。

技术实现思路

[0004]本专利技术提供一种视频语义表示方法、装置、电子设备和存储介质,用以解决现有技术中视频语义提取模型难以在人工标注标签数量较少的场景下使用、视频语义提取效果欠佳的缺陷。
[0005]本专利技术提供一种视频语义表示方法,包括:获取待表示视频的视频文本信息和多个视频帧;分别利用视频语义表示模型的文本编码器和图片编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。
[0006]根据本专利技术提供的一种视频语义表示方法,所述利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:对所述多个视频帧的帧语义向量进行语义融合,得到帧融合向量;
对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示。
[0007]根据本专利技术提供的一种视频语义表示方法,所述对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量;将所述文本关键语义向量和所述帧关键语义向量进行语义融合,得到所述待表示视频的视频语义表示。
[0008]根据本专利技术提供的一种视频语义表示方法,所述基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量,具体包括:基于所述多模态融合器的自注意力交互层,对所述文本语义向量进行自注意力变换,得到所述文本语义向量的文本关键语义向量;基于所述多模态融合器的交叉注意力交互层,对所述文本关键语义向量和所述帧融合向量进行交叉注意力变换,得到所述帧融合向量的帧关键语义向量。
[0009]根据本专利技术提供的一种视频语义表示方法,所述视频语义表示模型的损失函数包括词预测损失和图文匹配损失;其中,所述词预测损失用于表征所述视频语义表示模型对所述样本文本信息中被替换为标签的词的预测结果与所述样本文本信息中被替换为标签的词之间的差异;所述图文匹配损失用于表征所述视频语义表示模型预测所述样本文本信息的语义和所述多个样本视频帧的语义是否匹配的准确度。
[0010]根据本专利技术提供的一种视频语义表示方法,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本进行对比学习得到的,所述对比学习的学习目标为任一样本图片的图片编码结果与所述任一样本图片的描述文本的文本编码结果之间的相似度高于所述任一样本图片的图片编码结果与任一其他样本图片的描述文本的文本编码结果之间的相似度。
[0011]根据本专利技术提供的一种视频语义表示方法,所述多个视频帧是对所述待表示视频进行关键帧抽取后得到的。
[0012]本专利技术还提供一种视频语义表示装置,包括:信息获取单元,用于获取待表示视频的视频文本信息和多个视频帧;向量提取单元,用于分别利用视频语义表示模型的图片编码器和文本编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;多模态融合单元,用于利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图
片以及所述样本图片的描述文本预先进行联合训练得到的。
[0013]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述视频语义表示方法的步骤。
[0014]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述视频语义表示方法的步骤。
[0015]本专利技术提供的视频语义表示方法、装置、电子设备和存储介质,基于样本图片以及样本图片的描述文本,对视频语义表示模型的图片编码器和文本编码器预先进行联合训练,再基于样本视频的样本文本信息和多个样本视频帧进行自监督学习,得到视频语义表示模型,从而利用文本编码器和图片编码器对待表示视频的视频文本信息和多个视频帧进行语义提取,得到视频文本信息的文本语义向量和多个视频帧的帧语义向量,再利用视频语义表示模型的多模态融合器,对文本语义向量和多个视频帧的帧语义向量进行多模态融合,得到待表示视频的视频语义表示,从而提高视频语义表示的精确性。
附图说明
[0016]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术提供的视频语义表示方法的流程示意图;图2是本专利技术提供的视频语义表示装置的结构示意图;图3是本专利技术提供的电子设备的结构示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频语义表示方法,其特征在于,包括:获取待表示视频的视频文本信息和多个视频帧;分别利用视频语义表示模型的文本编码器和图片编码器对所述视频文本信息和所述多个视频帧进行语义提取,得到所述视频文本信息的文本语义向量和所述多个视频帧的帧语义向量;利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示;其中,所述视频语义表示模型是基于样本视频的样本文本信息和多个样本视频帧进行自监督学习得到的,所述视频语义表示模型的图片编码器和文本编码器是基于样本图片以及所述样本图片的描述文本预先进行联合训练得到的。2.根据权利要求1所述的视频语义表示方法,其特征在于,所述利用所述视频语义表示模型的多模态融合器,对所述文本语义向量和所述多个视频帧的帧语义向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:对所述多个视频帧的帧语义向量进行语义融合,得到帧融合向量;对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示。3.根据权利要求2所述的视频语义表示方法,其特征在于,所述对所述文本语义向量和所述帧融合向量进行多模态融合,得到所述待表示视频的视频语义表示,具体包括:基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量;将所述文本关键语义向量和所述帧关键语义向量进行语义融合,得到所述待表示视频的视频语义表示。4.根据权利要求3所述的视频语义表示方法,其特征在于,所述基于所述文本语义向量的自相关性,以及所述文本语义向量和所述帧融合向量之间的互相关性,提取所述文本语义向量的文本关键语义向量以及所述帧融合向量的帧关键语义向量,具体包括:基于所述多模态融合器的自注意力交互层,对所述文本语义向量进行自注意力变换,得到所述文本语义向量的文本关键语义向量;基于所述多模态融合器的交叉注意力交互层,对所述文本关键语义向量和所述帧融合向量进行交叉注意力变换,得到所述帧融合向量的帧关键语义向量。5.根据权利要求1所...

【专利技术属性】
技术研发人员:张恒庆孟凡飞李飞阳薛娇
申请(专利权)人:智者四海北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1