【技术实现步骤摘要】
一种基于多模态异质特征融合的视频密集事件描述方法
[0001]本专利技术涉及计算机视觉,涉及视频描述领域,具体涉及一种基于多模态异质特征融合的视频密集事件描述方法。
技术介绍
[0002]计算机视觉的应用范围与规模是目前人工智能应用中最为广泛与普遍的,且早已深入日常生活与工作的多方面,涉及到网络安全、系统评价、监控、智能机器等,在人类文明发展中有着重要的推动作用,推动社会的发展和进步。计算机视觉人工智能的图像识别中,主要分为静态图像和动态图像,静态图像主要包含图片等内容,动态图像主要是视频等内容。对于视频描述任务来说,可以识别视频中这些事件之间的关系,并把所有事件描述出来,是目前比较重要的研究领域,尤其是涉及到视频监控、网络安全、系统评价等具体应用中。
[0003]目前,由于互联网以及终端应用的高度发展,涉及的开放域、长视频、密集事件的视频往往数不胜数,而且处于不断的更新状态。又因为在开放域的长视频中通常包括多个事件,其中牵涉多个行为以及实体,因此合理的描述方式应是对每个事件进行定位并描述。一般的视频描述任务针对一个 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于多模态异质特征融合的视频密集事件描述方法,其特征在于,包括以下步骤:特征提取,利用I3D卷积网络选取开放域中长视频进行剪辑得到对应的视频帧,并对所述视频帧中的动态视觉特征F
m
进行提取,获取动态视觉特征向量;利用VGGish模型来提取所述视频片段中的音频韵律特征向量;场景图特征嵌入,将视频帧中的场景对象信息进行语义化表征,生成场景图谱,得到实体编码,属性编码和关系编码,通过图卷积对所述实体编码、属性编码、关系编码中对应的特征向量进行图嵌入,得到场景图特征嵌入向量;三重多模态循环融合,将场景图特征嵌入向量、所述动态视觉特征向量、所述音频特征向量作为输入,并将其进行三重多模态循环融合,再将输出的向量使用规范化函数沿通道做归一化,并且利用Dropout进行正则化后输入到解码器中,并为重构解码器做准备;描述重构解码器,包括预训练的语言字典解码器以及描述重构算法,通过描述重构算法对视频密集事件进行检测;并利用预训练的语言字典解码器来解码生成视频场景事件的描述;所述预训练的语言字典解码器是指利用预训练的语言字典来对视频场景事件的描述进行解码的模块。2.根据权利要求1所述的视频密集事件描述方法,其特征还在于,所述动态视觉特征F
m
,其中其中N为抽取的视频剪辑的数量,整体对应的维度是T
v
×
d
v
;所述音频韵律特征向量对应的维度是T
a
×
d
a
,音频特征向量被转化为具有语义的128维的特征向量。3.根据权利要求1或2所述的视频密集事件描述方法,其特征还在于,在场景图特征嵌入过程中,输入为视频帧,首先经过Mask R
‑
CNN检测视频帧图片中的物体包围框坐标等物体位置信息,确定物体目标所在位置,得到物体区域;再将所述视频帧原图和所述物体区域分别送入视觉场景图生成器生成场景图,将所述视频帧图片信息以及被检测出来的物体位置信息等视觉信息进行语义化表征,得到实体编码、属性编码和关系编码,之后将这些编码送入联合嵌入层进行联合表征得到语义信息,将所述语义信息嵌入所述实体编码、属性编码和关系编码中对应的特征向量;再通过图卷积对特征向量进行图嵌入,得到场景图特征嵌入向量;在此过程中对实体之间的关联进行强化推理。4.根据权利要求1所述的视频密集事件描述方法,其特征还在于,在三重多模态循环融合之后,还包括:自适应多模态数据平衡,利用全卷积网络对所述动态视觉特征向量和所述音频韵律特征向量在时序维度上进行特征提取,并使用特定值来预测事件的时序边界以及置信度分数;其次,将预测得到的事件送入公共池中,并按照降序排列并选取高置信度分数的事件;最终对所述高置信度分数的事件进行聚类,选择各个对应的聚类中心来组成最终的事件集合。5.根据权利要求4所述的视频密集事件描述方法,其特征还在于,所述特定值是指中心位置center=p+σ(c),其中σ(
·
)是sigmoid函数,作用是把c的值缩放到[0,1]区间内,用来确定中心点p的右邻域;事件时长length=anchor
·
e,其中e是缩
放系数;置信度分数confidence=σ(o)。6.根据权利要求1或4或5所述的视频密集事件描述方法,其特征还在于,所述全卷积网络皆采用一维卷积对时序维度上进行特征提取,第一层的卷积核大小为k,第二层和第三层的卷积核都为1,前两层的激活函数是Relu,最后一层的激活函数是sigmoid。7.根据权利要求1或4所述的视频密集事件描述方法,其特征还在于,在三重多模态循环融合过程中,所述规范化函数指是Softmax函数。8.根据权利要求1或4所述的视频密集事件描述方法,其特征还在于,在在三重多模态循环融合过程中,维度为T
v
×
d
技术研发人员:刘晋,龚沛朱,张喜亮,吴中岱,王骏翔,郭磊,胡蓉,韩冰,朱晓蓉,
申请(专利权)人:上海船舶运输科学研究所有限公司大连海事大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。