【技术实现步骤摘要】
一种基于多模态融合的视频常识性知识推理实现方法
[0001]本专利技术涉及计算机视觉、自然语言处理
,特别是涉及一种利用多头注意力机制融合视频多模态信息,执行词语级别和语义级别的常识性知识推理实现方法。
技术介绍
[0002]视频理解是计算机视觉领域和自然语言处理领域相结合的一个交叉技术,是指利用计算机表达视频帧输入序列,对视频序列中包含的时间信息和空间信息进行数学建模,以达到深入分析视频内容的目的。其中视频描述(video captioning)就是在视频理解的基础上,利用机器模型对视频包含的信息进行深度挖掘和分析理解,然后将机器模型输出自然语言称为对视频的描述。
[0003]近期,对视频常识性知识推理研究的关注度逐渐提升,因为它为视频和语言提供了更深层次的底层关联,从而促进了更高级别的视觉语言推理。其中“Video2Commonsense”任务旨在给定一段视频,生成视频描述,以及三种类型的常识知识,包括属性(attribute)、意图(intention)与结果(effect)。但当前研究的视频理解模型存在 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态融合的视频常识性知识推理实现方法,其步骤包括:1)对输入视频分别提取帧内空间特征V
i
、帧间时序特征V
t
以及声音特征V
s
;2)将帧内空间特征V
i
、帧间时序特征V
t
以及声音特征V
s
进行融合,得到该输入视频的多模态的视频特征V
E
;3)对该输入视频的描述性文本进行特征抽取,得到语言特征C
cap
,并将视频特征V
E
和语言特征C
cap
进行融合,得到上下文特征[V
E
,C
cap
];4)将所述上下文特征[V
E
,C
cap
]输入常识推理解码器得到答案的概率分布,然后根据所得答案的概率分布预测该输入视频的常识性知识文本序列。2.如权利要求1所述的方法,其特征在于,得到所述视频特征V
E
的方法为:将帧内空间特征V
i
通过一个线性层以及一个长短期记忆网络映射到一特征空间,并添加帧内空间特征V
i
对应的位置编码PE
i
和段编码SE
i
,得到特征E
i
;将帧间时序特征V
t
通过一个线性层以及一个长短期记忆网络映射到一特征空间,并添加帧间时序特征V
t
对应的位置编码PE
t
和段编码SE
t
,得到特征E
t
;将声音特征V
s
通过一个线性层以及一个长短期记忆网络映射到一特征空间,并添加声音特征V
s
对应的位置编码PE
s
和段编码SE
s
,得到特征E
s
;然后将E
i
,E
t
,E
s
进行融合,得到所述视频特征V
E
=[E
i
,E
t
,E
s
]。3.如权利要求1所述的方法,其特征在于,得到所述语...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。