【技术实现步骤摘要】
基于视觉和语言语义自主优化对齐的视频描述方法及介质
[0001]本专利技术涉及视频标题生成领域,尤其是涉及一种基于视觉和语言语义自主优化对齐的视频描述方法及介质。
技术介绍
[0002]视频标题生成是使用自然语言/文本对视频中的视觉内容进行抽象、总结与表述。它首先需要提取视频中的视觉语义特征,然后将其翻译成符合人类表达习惯的描述语句,对视频中的物体、人物、动作、场景、事件等进行连贯的表达。它属于视觉高层理解范畴,要求模型不仅能够对视频的静态和动态信息进行较为准确地检测和表征,还要能够将各个视觉语义对象映射为语义标签,并将其按照语法格式重新排列组合,生成可读的视频描述句子。整个过程涉及计算机视觉、机器学习、自然语言处理等多个领域,数据变换和处理较为复杂。
[0003]目前,多数工作一般是将视觉特征编码和语言建模分为两个阶段,这一方面会造成视觉信息在后续的解码过程中逐渐弥散,致使句子的准确性受到一定的影响;另一方面视觉与语言的分离难以对其内部的语义关联进行建模,造成生成的句子在语义丰富程度上受到一定的限制。这种模型优化和 ...
【技术保护点】
【技术特征摘要】
1.一种基于视觉和语言语义自主优化对齐的视频描述方法,其特征在于,包括以下步骤:提取视觉特征和语言特征,在每个时间步上对所述视觉特征和语言特征进行对齐融合,获得多模态对齐特征;基于所述多模态对齐特征,通过一视频标题生成模型获得每个时间步上的词汇输出,获得视频描述结果;其中,所述视频标题生成模型包括基于因子分解方式的VL
‑
AOA
u
模块和基于非因子分解方式的VL
‑
AOA
f
模块,基于所述VL
‑
AOA
u
模块和VL
‑
AOA
f
模块的输出以及两个模块的融合输出进行序列加权融合,获得所述每个时间步上的词汇输出。2.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法,其特征在于,所述多模态对齐特征基于LSTM网络获得。3.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法,其特征在于,所述对齐融合具体为:采用串联、逐元素加法或逐元素乘法的方式将所述视觉特征和语言特征进行融合。4.根据权利要求3所述的基于视觉和语言语义自主优化对齐的视频描述方法,其特征在于,所述对齐融合过程中,以输入<pad>方式进行填充对齐。5.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法,其特征在于,所述VL
‑
AOA
u
模块和VL
‑
AOA
f
模块均基于LSTM网络构建,其中,所述VL
‑
AOA
u
模块以所述多模态对齐特征为输入,并在语言解码阶段与语言特征进行融合,所述VL
‑
AOA
f
模块以所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。