一种多尺度双流注意力视频语言事件预测的方法及装置制造方法及图纸

技术编号:34837532 阅读:18 留言:0更新日期:2022-09-08 07:32
本发明专利技术提供一种多尺度双流注意力视频语言事件预测的方法及装置,方法包括:获取原始输入数据;原始输入数据中包括一个目标视频流、目标视频流对应的字幕以及多个未来候选事件;将原始输入数据输入多尺度双流注意力视频语言事件预测模型,得到目标视频流的事件预测结果。多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块。基于此,全面的提取特征,并减少冗余特征,避免不同模态之间相互干扰造成的不利影响,有效的提高事件预测的准确率。有效的提高事件预测的准确率。有效的提高事件预测的准确率。

【技术实现步骤摘要】
一种多尺度双流注意力视频语言事件预测的方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种多尺度双流注意力视频语言事件预测的方法及装置。

技术介绍

[0002]近年来,互联网的飞速发展引发了信息的大爆炸,使得现时代又被称为信息时代。视频作为信息的最重要的、密度最大的载体,在网络中已经非常普遍。对如此海量的、与人们日常生活息息相关的数据进行分析可以产生巨大的价值,甚至带来重大的社会变革。部分视频分析技术已经在社会生活中得到了实用,如不良视频内容智能审核、视频目标检测,视频人脸识别等。但以视频问答、视频预测为代表的关于深层视频语义理解的相关研究的技术尚未得到大规模应用,原因之一是现有模型的表现太差、远达不到实际使用要求。其中,视频预测为基于视频语义理解以预测未来候选事件。
[0003]因此,如何提高视频预测的准确率是目前亟待解决的问题。

技术实现思路

[0004]本专利技术提供一种多尺度双流注意力视频语言事件预测的方法及装置,用以解决现有技术中视频预测的准确率较低的缺陷,实现提高视频预测的准确率。
[0005]本专利技术提供一种多尺度双流注意力视频语言事件预测的方法,包括:获取原始输入数据;其中,所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件;将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型,得到所述目标视频流的事件预测结果;其中,所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块;所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征;所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征,生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征;所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果,基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
[0006]根据本专利技术提供的一种多尺度双流注意力视频语言事件预测的方法,所述多尺度视频特征的生成包括:
[0007]采用不同的采样步长对所述目标视频流采样得到不同采样尺度的视频帧;
[0008]对所述不同采样尺度的视频帧进行特征提取,得到多尺度视频特征。
[0009]根据本专利技术提供的一种多尺度双流注意力视频语言事件预测的方法,所述不同采样尺度的视频帧包括:密集采样尺度的视频帧、一般采样尺度的视频帧和稀疏采样尺度的视频帧;相应地,所述对所述不同采样尺度的视频帧进行特征提取,得到多尺度视频特征,包括:
[0010]基于所述密集采样尺度的视频帧和预训练好的SlowFast模型,得到所述密集采样
尺度的视频帧的第一视频特征;
[0011]基于所述一般采样尺度的视频帧和预训练好的ResNet

152模型,得到所述一般采样尺度的视频帧的第二视频特征;
[0012]基于所述稀疏采样尺度的视频帧和预训练好的SlowFast模型,得到所述稀疏采样尺度的视频帧的第三视频特征;基于所述稀疏采样尺度的视频帧和预训练好的ResNet

152模型,得到所述稀疏采样尺度的视频帧的第四视频特征;并将所述第三视频特征和所述第四视频特征拼接得到第五视频特征;
[0013]基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征。
[0014]根据本专利技术提供的一种多尺度双流注意力视频语言事件预测的方法,所述不同尺度的第一融合视频特征的生成,包括以下步骤:
[0015]基于未来候选事件引导的单模态特征转换层,将所述多尺度视频特征中不同尺度的视频特征分别与每一所述未来候选事件的特征融合,得到未来候选事件引导的不同尺度的视频特征的第六视频特征;
[0016]基于双流视频字幕跨模态融合层,将所述多尺度视频特征中不同尺度的视频特征分别与所述目标视频流对应的字幕的特征融合,并且将融合后的特征与每一所述未来候选事件的特征串联,得到字幕引导的不同尺度的视频特征;并将所述字幕引导的不同尺度的视频特征输入基于所述未来候选事件引导的单模态特征转换层,得到每一尺度的视频特征的第七视频特征;
[0017]将每一尺度的视频特征对应的第六视频特征和第七视频特征拼接得到所述每一尺度的第一融合视频特征。
[0018]根据本专利技术提供的一种多尺度双流注意力视频语言事件预测的方法,所述不同尺度的第一融合字幕特征的生成,包括以下步骤:
[0019]基于未来候选事件引导的单模态特征转换层,将所述目标视频流对应的字幕的特征与每一所述未来候选事件的特征分别融合得到未来候选事件引导的第一字幕特征;
[0020]基于双流视频字幕跨模态融合层,将所述目标视频流对应的字幕的特征与所述多尺度视频特征分别融合,得到不同尺度的视频帧引导的字幕特征;并且基于所述未来候选事件引导的单模态特征转换层,将融合后的特征与每一所述未来候选事件的特征分别融合,得到视频引导的多个第二字幕特征;
[0021]将所述多个第一字幕特征和所述多个第二字幕特征拼接得到所述第一融合字幕特征。
[0022]根据本专利技术提供的一种多尺度双流注意力视频语言事件预测的方法,所述多尺度双流注意力视频语言事件预测模型还包括字幕与未来候选事件特征提取模块,相应地,所述字幕的特征和所述多个未来候选事件的特征基于字幕与未来候选事件特征提取模块生成,包括:
[0023]将所述目标视频流对应的字幕输入所述字幕与未来候选事件特征提取模块,得到所述字幕的特征;
[0024]将所述多个未来候选事件输入所述字幕与未来候选事件特征提取模块,得到所述多个未来候选事件的特征。
[0025]根据本专利技术提供的一种多尺度双流注意力视频语言事件预测的方法,所述多尺度双流注意力视频语言事件预测模型还包括多尺度融合模块,所述多尺度融合模块用于融合所述不同尺度的第一融合视频特征,得到第二融合视频特征,并用于融合所述不同尺度的第一融合字幕特征,得到第二融合字幕特征。
[0026]根据本专利技术提供的一种多尺度双流注意力视频语言事件预测的方法,所述基于所述第一融合视频特征和所述第一融合字幕特征得到所述目标视频流的未来候选事件预测结果,包括:
[0027]对所述第二融合视频特征进行压缩,得到压缩后的第二融合视频特征;并对所述第二融合字幕特征进行压缩,得到压缩后的第二融合字幕特征;
[0028]基于所述压缩后的第二融合视频特征进行事件预测,得到目标视频流对应多个未来候选事件的多个第一得分;并基于所述压缩后的第二融合字幕特征进行事件预测,得到目标视频流对应多个未来候选事件的多个第二得分;
[0029]将每一未来候选事件的第一得分与每一未来候选事件的第二得分相加,得到所述目标视频流对应每一未来候选事件的总得分;
[0030]基于所述述目标视频流对应每一未来候选事件的总得分确定目标视频流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多尺度双流注意力视频语言事件预测的方法,其特征在于,包括:获取原始输入数据;其中,所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件;将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型,得到所述目标视频流的事件预测结果;其中,所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块;所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征;所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征,生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征;所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果,基于所述事件预测结果确定所述目标视频流的最终事件预测结果。2.根据权利要求1所述的多尺度双流注意力视频语言事件预测的方法,其特征在于,所述多尺度视频特征的生成包括:采用不同的采样步长对所述目标视频流采样得到不同采样尺度的视频帧;对所述不同采样尺度的视频帧进行特征提取,得到多尺度视频特征。3.根据权利要求2所述的多尺度双流注意力视频语言事件预测的方法,其特征在于,所述不同采样尺度的视频帧包括:密集采样尺度的视频帧、一般采样尺度的视频帧和稀疏采样尺度的视频帧;相应地,所述对所述不同采样尺度的视频帧进行特征提取,得到多尺度视频特征,包括:基于所述密集采样尺度的视频帧和预训练好的SlowFast模型,得到所述密集采样尺度的视频帧的第一视频特征;基于所述一般采样尺度的视频帧和预训练好的ResNet

152模型,得到所述一般采样尺度的视频帧的第二视频特征;基于所述稀疏采样尺度的视频帧和预训练好的SlowFast模型,得到所述稀疏采样尺度的视频帧的第三视频特征;基于所述稀疏采样尺度的视频帧和预训练好的ResNet

152模型,得到所述稀疏采样尺度的视频帧的第四视频特征;并将所述第三视频特征和所述第四视频特征拼接得到第五视频特征;基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征。4.根据权利要求3所述的多尺度双流注意力视频语言事件预测的方法,其特征在于,所述不同尺度的第一融合视频特征的生成,包括以下步骤:基于未来候选事件引导的单模态特征转换层,将所述多尺度视频特征中不同尺度的视频特征分别与每一所述未来候选事件的特征融合,得到未来候选事件引导的不同尺度的视频特征的第六视频特征;基于双流视频字幕跨模态融合层,将所述多尺度视频特征中不同尺度的视频特征分别与所述目标视频流对应的字幕的特征融合,并且将融合后的特征与每一所述未来候选事件的特征串联,得到字幕引导的不同尺度的视频特征;并将所述字幕引导的不同尺度的视频
特征输入基于所述未来候选事件引导的单模态特征转换层,得到每一尺度的视频特征的第七视频特征;将每一尺度的视频特征对应的第六视频特征和第七视频特征拼接得到所述每一尺度的第一融合视频特征。5.根据权利要求3所述的多尺度双流注意力视频语言事件预测的方法,其特征在于,所述不同尺度的第一融合字幕特征的生成,包括以下步骤:基于未来候选事件引导的单模态特征转换层,将所述目标视频流对应的字幕的特征与每一所述未来候选事件的特征分别融合得到未来候选事件引导的第一字幕特征;基于双流视频字幕跨模态融合层,将所述目标视频流对应的字幕的特征与所述多尺度视频特征分别融合,得到不同尺度的视频帧引导的字幕特征;并且基于所述未来候选事件引导的单模态特征转换层,将融合后的特征与每一所述未来候选事件的特征分别融合,得到视频引导的多个第二字幕特征;将所述多个第一字幕特征和所述多个第二字幕特征拼接得到所述第一融合字幕特征。6.根据权利要求1所述的多...

【专利技术属性】
技术研发人员:王丹力郑楠马鑫伟
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1