视频记忆性预测方法、装置、设备和存储介质制造方法及图纸

技术编号:35270556 阅读:27 留言:0更新日期:2022-10-19 10:41
本公开提供了一种视频记忆性预测方法、装置、设备和存储介质。本公开的视频记忆性预测方法包括:获取输入视频的多个视频帧级别特征;对多个视频帧级别特征进行视觉多级编码以获得全局特征、时域特征和局部特征,将全局特征、时域特征和局部特征拼接得到视觉多级编码特征;获取输入视频所配对文本的文本特征;提取输入视频的光流特征;使用文本特征对视觉多级编码特征进行引导并增强得到文本引导视觉特征;获取文本记忆性预测分数、视频帧记忆性预测分数和光流记忆性预测分数;融合文本记忆性预测分数、光流记忆性预测分数和视频帧记忆性预测分数得到输入视频的视频记忆性预测分数。本公开通过充分提取视频特征和充分利用文本和视觉的一致性,有效提高了视频记忆性预测的准确性和精度。的准确性和精度。的准确性和精度。

【技术实现步骤摘要】
视频记忆性预测方法、装置、设备和存储介质


[0001]本公开属于计算机视觉
,本公开尤其涉及一种基于视觉多级编码及文本引导视觉特征增强的视频记忆性预测方法、装置、设备和存储介质。

技术介绍

[0002]人类对于不同的事物会产生不同的记忆性程度。研究表明,人们对不同事物的记忆性程度与自身从事物上获得的感知信息有关,如视觉信息等。这说明,视频记忆性与视频自身所携带的内容有关,同时可以根据视频自身的内容被预测。
[0003]从人工智能的角度出发,使得计算机模仿人类对不同的视频根据视频内容的不同产生不同的记忆性是有积极意义的。视频记忆性预测任务就是使得计算机根据视频所提供的信息,能够自动的预测对于一个视频的记忆性程度。具体来说,视频记忆力被定义为衡量视频在一定时间跨度后被回忆的程度。
[0004]视频记忆性有广泛的应用前景。如今,不可避免地去面对大量的视频在生活的各种方面。浏览大量视频对于人类来说是耗时耗力的。视频记忆性可以服务于挑选视频中让人难以忘记的内容并且抛弃记忆性不高的片段,这往往被人们视作无关或无用片段。
[0005]视频中的视觉信息是导致人类对视频产生不同记忆性的主要因素,这说明提取出有效的视觉特征对于视频记忆性存在着显著意义。现有视频记忆性预测技术基于一些通用的神经网络提取视觉特征,如使用ResNet提取帧级别特征或者使用I3D网络提取视频级别特征,然而这缺乏对视频记忆性预测任务的特定性,这是因为视频记忆性预测与一般的计算机视觉任务不同,如图像分类或者动作识别等,在那些任务中,标签的产生是客观的,一只狗的图片一定会被分类为狗,然而同一个视频使人记住的程度因人而已,这代表记忆性分数具有一定的主观性,基于通用神经网络提取的视觉特征无法体现人类对视频的记忆方式。
[0006]文本是对视觉内容的高度概括,包含了复杂的语义信息。在视频记忆性预测中,不少的基于文本信息的辅助方法被采用,有联合训练视频记忆性预测和文本生成任务来隐式地利用文本特征,或者融合视觉记忆性分数和文本记忆性分数。然而上述技术无法有效地利用文本和视觉的一致性。

技术实现思路

[0007]针对上述视频记忆性技术中存在的问题,本公开提出一种基于视觉多级编码及文本引导视觉特征增强的视频记忆性预测方法、装置、设备和存储介质。
[0008]本公开的第一方面提供了一种视频记忆性预测方法,包括:
[0009]利用输入视频的多个视频帧获取所述输入视频的多个视频帧级别特征;
[0010]对所述输入视频的多个视频帧级别特征进行视觉多级编码以获得全局特征、时域特征和局部特征,将所述全局特征、时域特征和局部特征拼接得到所述输入视频的视觉多级编码特征;
[0011]获取所述输入视频所配对文本的文本特征;
[0012]提取所述输入视频的光流图,并获取所述光流图的光流特征;
[0013]使用所述输入视频所配对文本的文本特征对所述输入视频的视觉多级编码特征进行引导并增强,得到所述输入视频的文本引导视觉特征;
[0014]获取所述文本特征的文本记忆性预测分数、所述文本引导视觉特征的视频帧记忆性预测分数和所述光流特征的光流记忆性预测分数;
[0015]基于自适应策略的晚期融合方法融合所述文本记忆性预测分数、光流记忆性预测分数和视频帧记忆性预测分数,以得到所述输入视频的视频记忆性预测分数。
[0016]本公开的第一方面的一些实施方式中,所述全局特征通过对所述输入视频的多个视频帧级别特征进行平均池化操作得到。
[0017]本公开的第一方面的一些实施方式中,所述时域特征通过如下方式得到:将所述输入视频的多个频帧级别特征送入双向门控循环单元网络中,取出双向门控循环单元网络的每个隐藏状态输出,对双向门控循环单元网络的所有隐藏状态输出进行平均池化操作以得到所述时域特征。
[0018]本公开的第一方面的一些实施方式中,所述局部特征通过如下方式得到:将所述双向门控循环单元网络的每个隐藏状态输出依次经核尺寸大小不同且核数量相同的多个一维卷积神经网络的处理、非线性激活函数的处理和平均池化操作以得到感受野不同的多个局部特征,将所述感受野不同的多个局部特征拼接。
[0019]本公开的第一方面的一些实施方式中,所述获取所述输入视频所配对文本的文本特征,包括:将每个输入视频所配对文本中的句子进行清洗,将句子以列表的形式存储;在所述列表前添加预定标识后输入Bert模型,取所述Bert模型最后一层的所述预定标识对应的向量作为句子特征,所述句子特征即为所述输入视频所配对文本的文本特征。
[0020]本公开的第一方面的一些实施方式中,所述使用所述输入视频所配对文本的文本特征对所述输入视频的视觉多级编码特征进行引导并增强,包括:将所述视觉多级编码特征切分成多个片段,并将切分得到的片段依次经过全连接层、ReLU激活函数和全连接层映射到视觉

文本公共空间;将所述文本特征经过全连接层、ReLU激活函数和全连接层映射到视觉

文本公共空间;将所述映射后的文本特征和所述映射后的视觉多级编码特征的多个片段相加后依次经tanh激活函数、全连接层的处理,得到各个片段的重要性程度分数;将视觉多级编码特征的各个片段的重要性程度分数映射到概率空间,得到各个片段的归一化后的重要性程度分数;以所述归一化后的重要性程度分数作为片段的权重,将所述视觉多级编码特征的各个片段加权求和,生成所述文本引导视觉特征。
[0021]本公开的第一方面的一些实施方式中,所述获取所述文本特征的文本记忆性预测分数、所述文本引导视觉特征的视频帧记忆性预测分数和所述光流特征的光流记忆性预测分数,包括:利用光流多层感知机网络对所述光流特征进行处理以生成光流记忆性预测分数;利用文本多层感知机网络对所述文本特征进行处理以生成文本记忆性预测分数;利用视频帧多层感知机网络对所述文本引导视觉特征进行处理以生成视频帧记忆性预测分数;其中,所述光流多层感知机网络、所述文本多层感知机网络和所述视频帧多层感知机网络均采用均方误差作为损失函数训练得到。
[0022]本公开的第一方面的一些实施方式中,所述基于自适应策略的晚期融合方法融合
所述文本记忆性预测分数、光流记忆性预测分数和视频帧记忆性预测分数,包括:使用基于自适应策略的晚期融合方法为所述文本记忆性预测分数、所述光流记忆性预测分数和所述视频帧记忆性预测分数分配权重;利用所述分配的权重对所述文本记忆性预测分数、光流记忆性预测分数和视频帧记忆性预测分数进行加权求和,以得到所述输入视频的视频记忆性预测分数。
[0023]本公开的第一方面的一些实施方式中,所述使用基于自适应策略的晚期融合方法为所述文本记忆性预测分数、所述光流记忆性预测分数和所述视频帧记忆性预测分数分配权重,包括:分别给所述文本记忆性预测分数、所述光流记忆性预测分数和所述视频帧记忆性预测分数分配权重,以确定权重分配策略;按照预定步长更新所述文本记忆性预测分数的权重值、所述光流记忆性预测分数的权重值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频记忆性预测方法,其特征在于,包括:利用输入视频的多个视频帧获取所述输入视频的多个视频帧级别特征;对所述输入视频的多个视频帧级别特征进行视觉多级编码以获得全局特征、时域特征和局部特征,将所述全局特征、时域特征和局部特征拼接得到所述输入视频的视觉多级编码特征;获取所述输入视频所配对文本的文本特征;提取所述输入视频的光流图,并获取所述光流图的光流特征;使用所述输入视频所配对文本的文本特征对所述输入视频的视觉多级编码特征进行引导并增强,得到所述输入视频的文本引导视觉特征;获取所述文本特征的文本记忆性预测分数、所述文本引导视觉特征的视频帧记忆性预测分数和所述光流特征的光流记忆性预测分数;基于自适应策略的晚期融合方法融合所述文本记忆性预测分数、光流记忆性预测分数和视频帧记忆性预测分数,以得到所述输入视频的视频记忆性预测分数。2.根据权利要求1所述的视频记忆性预测方法,其特征在于,所述全局特征通过对所述输入视频的多个视频帧级别特征进行平均池化操作得到;和/或,所述时域特征通过如下方式得到:将所述输入视频的多个频帧级别特征送入双向门控循环单元网络中,取出双向门控循环单元网络的每个隐藏状态输出,对双向门控循环单元网络的所有隐藏状态输出进行平均池化操作以得到所述时域特征;和/或,所述局部特征通过如下方式得到:将所述双向门控循环单元网络的每个隐藏状态输出依次经核尺寸大小不同且核数量相同的多个一维卷积神经网络的处理、非线性激活函数的处理和平均池化操作以得到感受野不同的多个局部特征,将所述感受野不同的多个局部特征拼接。3.根据权利要求1所述的视频记忆性预测方法,其特征在于,所述获取所述输入视频所配对文本的文本特征,包括:将每个输入视频所配对文本中的句子进行清洗,将句子以列表的形式存储;在所述列表前添加预定标识后输入Bert模型,取所述Bert模型最后一层的所述预定标识对应的向量作为句子特征,所述句子特征即为所述输入视频所配对文本的文本特征。4.根据权利要求1所述的视频记忆性预测方法,其特征在于,所述使用所述输入视频所配对文本的文本特征对所述输入视频的视觉多级编码特征进行引导并增强,包括:将所述视觉多级编码特征切分成多个片段,并将切分得到的片段依次经过全连接层、ReLU激活函数和全连接层映射到视觉

文本公共空间;将所述文本特征经过全连接层、ReLU激活函数和全连接层映射到视觉

文本公共空间;将所述映射后的文本特征和所述映射后的视觉多级编码特征的多个片段相加后依次经tanh激活函数、全连接层的处理,得到各个片段的重要性程度分数;将视觉多级编码特征的各个片段的重要性程度分数映射到概率空间,得到各个片段的归一化后的重要性程度分数;以所述归一化后的重要性程度分数作为片段的权重,将所述视觉多级编码特征的各个片段加权求和,生成所述文本引导视觉特征。5.根据权利要求1所述的视频记忆性预测方法,其特征在于,所述获取所述文本特征的
文本记忆性预测分数、所述文本引导视觉特征的视频帧记忆性预测分数和所述光流特征的光流记忆性预测分数,包括:利用光流多层感知机网络对所述光流特征进行处理以生成光流记忆性预测分数;利用文本多层感知机网络对所述文本特征进行处理以生成文本记忆性预测分数;利用视频帧多层感知机网络对所述文本引导视觉特征进行处理以生成视频帧记忆性预测分数;其中,所述光流多层感知机网络、所述文本多层感知机网络和所述视频帧多层感知机网络均采用均方误差作为损失函数训练得到;优选地,所述基于自适应策略的晚期融合方法融合所述文本记忆性预测分数、光流记忆性预测分数和视频帧记忆性预测分数,包括:使用基于自适应策略的晚期融合方法为所述文本记忆性预测分数、所述光流记忆性预测分数和所述视频帧记忆性预测分数分配权重;利用所述分配的权重对所述文本记忆性预测分数、光流记忆性预测分数和视频帧记忆性预测分数进行加权求和,以得到所述输入视频的视频记忆性预测分数;优选地,所述使用基于自适应策略的晚期融合方法为所述文本记忆性预测分数、所述光流记忆性预测分数和所述视频帧记忆性预测分数分配权重,包括:分别给所述文本记忆性预测分数、所述光流记忆性预测分数和所述视频帧记忆性预测分数分配权重,以确定权重分配策略;按照预定步长更新所述文本记忆性预测分数的权重值、所述光流记忆性预测分数的权重值和所述视频帧记忆性预测分数的权重值,以更新所述权重分配策略;使用斯皮尔曼系数作为评价指标对每个所述权重分配策略进行评价,将能够取得最高的斯皮尔曼系数的权重分配策略确定为最终的权重分配策略。6.一...

【专利技术属性】
技术研发人员:吴晓雨卢友伟刘子豪许大展
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1