基于非结构化知识嵌入的视频常识文本生成方法技术

技术编号:35755845 阅读:23 留言:0更新日期:2022-11-26 19:02
本发明专利技术公开了一种基于非结构化知识嵌入的视频常识文本生成方法,包括:S1、提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;S2、将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;S3、对扩充到的文本知识进行筛选处理,并与视频的图像特征、视频特征和音频特征进行有效的跨模态常识融合,最终生成可准确理解视频内涵的常识描述文本。本发明专利技术提出了一种多模态知识引入的学习方法,通过借助非结构化大规模预训练模型,分别从知识扩充和知识融合两个角度,实现模型对视频内容的深度理解,有助于互联网时代下基于视频的文本描述生成任务。任务。任务。

【技术实现步骤摘要】
基于非结构化知识嵌入的视频常识文本生成方法


[0001]本专利技术涉及基于视觉的跨模态文本生成
,具体涉及一种基于非结构化知识嵌入的视频常识文本生成方法。

技术介绍

[0002]海量互联网数据中存在着大量的视频,为了能快速获取这些视频中的知识,基于视频的文本生成任务开始在学术圈和工业界都得到了广泛的关注。人们在看视频的时候,不但可以理解视频中发生的事件,还能理解视频中事件背后的深层次含义。比如一个视频中讲述的是“一个人在做早饭”,人类在看该视频时可以对视频进行进一步推理,视频中人的目的是“他想吃健康的食物”,视频中事件会带来的影响是“他马上可以饱餐一顿了”,视频中做饭的人是“一个心灵手巧的人”。因此,亟待研究有效的文本生成模型,它可以对视频内容进行深度推理,分别从视频中事件的目的、影响和人物属性等角度出发,生成视频背后的深层次常识描述。
[0003]针对该任务,现有的方法往往想尝试通过构建视觉和非结构化实体之间的关联来生成常识描述。它们通常采用基于编解码器的模型架构,首先通过编码器将视频编码成特征向量,再将视频特征通过解码器解码本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,包括:步骤S1:提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;步骤S11、提取视频的图像特征、视频特征和音频特征;步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征;步骤S13、将多模态特征通过与预训练好的视频内容解码器解码生成视频内容的文本描述;步骤S2:将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;步骤S3:对深层次常识描述进行编码特征提取后与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征,对多模态常识特征进行解码生成包含视频深层内涵的常识描述文本;步骤S31、利用Bert模型对深层次常识描述进行编码特征提取,得到文本常识特征;步骤S32、将文本常识特征与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征;步骤S33、利用视频深层次常识解码器对所述多模态常识特征进行解码生成包含视频深层内涵的常识描述文本。2.根据权利要求1所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,步骤S11、提取视频的图像特征、视频特征和音频特征,包括:利用预训练好的ResNet152网络结构编码提取视频的图像特征;利用预训练好的I3D网络结构编码提取视频的视频特征;利用预训练好的SoundNet网络结构编码提取视频的音频特征。3.根据权利要求2所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征,包括:通过多个LSTM分别对图像特征、视频特征和音频特征进行编码后拼接得到经拼接而成的多模态特征向量F

video
:F

video
=LSTM(FC(V
3D
))+LSTM(FC(I
2D
))+LSTM(FC(A
1D
))其中,F

video
表示的是经拼接而成的多模态特征向量;V
3D
是视频特征;I
2D
是图像特征;A
1D
是音频特征;FC为全连接网络层,LSTM为长短期记忆神经网络;利用基于Transformer结构的编码器将经拼接而成的多模态特征向量F

video
重新融合编码,得到最终的多模态特征F
video
;其中所述基于Transformer结构的编码器包括一组Self

attention自注意力层和Feedforward前馈网络层;Self

attention层表示如下:将经拼接而成的多模态特征向量F

video
分别通过三个映射矩阵W
Q
、W
K
和W
V
,得到三个输入矩阵Q、K和V;d
k
为归一化参数;softmax为归一化激活函数,T表示转置矩阵。
4.根据权利要求1所述的基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,步骤S13中,所述视频内容解码器采用基于Transformer的解码器,依次包括:Self

attention自注意力层、Cross

attention交叉注意力层和Feedforward前馈网络层;其中Self

attention层,用于对文本模态特征进行归一化处理;Cross

attention层,用于处理文本和视频编码间的跨模态关联,通过刻画文本和视频特征的跨模态关联,生成当前位置上最能表现出视频内容的单词;Feedforward前馈网络层,设置在Cross

attention层之后,由一个双层的全连接层组成,通过激活函数来强化每个单词的表达,对每个单词特征的标准化处理,同时将数据先映射到高维空间再映射到低维空间中,以学习到更加抽象的文本表达;所述视频内容解码器训练损失采用的是交叉熵损失函数,在生成每个单词时,根据之前生成出的单词,逐个预测下一个位置上出现概率最大的单词;其...

【专利技术属性】
技术研发人员:鲍秉坤袁梦奇谭智一邵曦
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1