【技术实现步骤摘要】
基于Transformer的模态间联合编码方法、装置及设备
[0001]本专利技术涉及多模态融合
技术介绍
[0002]目前已经有较多的研究围绕着视频的多模态分析展开,特别是近些年来随着深度学习的发展,在视频多模态分析任务上,相关的研究取得了长足的进步。对于视频来说,其通常存在三种模态,即文本、音频、视频。对于文本形式来说,主要包括了视频对应的文本文案、视频帧带有的字幕以及对白文字等等;音频主要为视频的听觉信息,包括对话、背景音乐;视频则主要是视频中的视觉信息。
[0003]现有的多模态下的情感分析主要基于深度学习技术,对不同模态内的信息和模态之间的交互信息进行建模。模态内的建模指在某一个特定模态内并且独立于其他模态对模态内的信息进行建模。模态之间的建模指在不同模态之间对信息进行建模,这种形式包括同步的信息和非同步的信息建模。对于视频的多模态分析任务,主要的挑战在于寻求模态内的特征表示和不同模态之间特征融合。参见图1,视频多模态分析的基础就是要分别采用合适的特征提取机制对视觉、听觉和文本的特征进行抽取,将三 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的模态间联合编码方法,其特征在于,包括:获取包含多模态信息的待分析视频;提取所述待分析视频的文本特征;提取所述待分析视频的音频特征;提取所述待分析视频的视频画面特征;基于全连接层和LSTM层,将所述文本特征、音频特征以及视频画面特征统一为相同的维度;基于Transformer模型,对所述文本特征、音频特征以及视频画面特征进行多模态注意力联合编码,得到文本表征特征、音频表征特征以及视频画面表征特征;基于多层感知机分类模型,对所述文本表征特征、音频表征特征以及视频画面表征特征进行加权,得到所述待分析视频的分类结果。2.根据权利要求1所述的方法,其特征在于,所述文本特征基于预先训练好的Chinese
‑
BERT
‑
wmm模型进行提取;所述Chinese
‑
BERT
‑
wmm模型通过Hugging face Transformer进行加载;所述Chinese
‑
BERT
‑
wmm模型在训练过程中采用全词掩码机制。3.根据权利要求1所述的方法,其特征在于,采取R(2+1)D模型提取待分析视频的视频画面特征;提取所述待分析视频的视频画面特征,包括:提取所述待分析视频中的三维序列特征;将所述三维序列特征展平为二维序列特征;对所述二维序列特征进行降采样,每16帧选取1帧提取特征,选取所述R(2+1)D模型在时空池化层的网络输出特征作为提取的视频画面特征。4.根据权利要求1所述的方法,其特征在于,进行多模态注意力联合编码过程中,将所述文本模态作为主模态,对音频模态和视频画面模态进行调制编码;所述Transformer模型包括三个联合编码单元,每个所述联合编码单元包括依次连接的多头注意力模块Multi
‑
Head、第一残差连接标准化模块、前馈模块Feed
‑
Forward、第二残差连接标准化模块、软注意力模块soft
‑
attention以及第三残差连接标准化模块;基于Transformer模型,对所述文本特征、音频特征以及视频画面特征进行多模态注意力联合编码,得到文本表征特征、音频表征特征以及视频画面表征特征,包括:将所述文本特征输入第一联合编码单元,得到文本表征特征;将所述文本特征和音频特征输入至第二联合编码单元,得到音频表征特征;将所述文本特征和视频画面特征输入至第三联合编码单元,得到视频画面表征特征。5.根据权利要求4所述的方法,其特征在于,所述软注意力模块包括多个软注意力层;所述软注意力模块对输入的特征进行运算,包括:在每个所述软注意力层对输入的特征进行软注意力运算;对各个软注意力层运算得到的结果进行叠加,得到软注意力模块的输出,通过如下公式表示:S
M
=stack(m1,...mG
m
);其中,S
M
为软注意力模块的输出,stack表示叠加计算,m1表示软注意力运算得到的一维
向量,mG
m
表示对软注意力运算得到的向量进行加权计算。6.根据权利要求1或5所述的方法,其特征在于,基于多层感知机分类模型,对所述文本表征特征、音频表征特征以及视频画面表征特征进行加权,得到所述待分析视频的分类结果,包括:将所述文本表征特征、音频表征特征以及视频画面表征特征分别输入至第一全连接层、RELU激活函数层以及第二全连接层,并且引入随机失活Dropout机制,得到中间文本表征特征、中间音频表征特征以及中间视频画面表征特征;基于soft
‑
attention机制,根据所述...
【专利技术属性】
技术研发人员:刘绍辉,米亚纯,郭富博,姜峰,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。