一种用于分类的互编码器模型制造技术

技术编号:35269232 阅读:18 留言:0更新日期:2022-10-19 10:37
一种用于分类的互编码器模型,对于嘈杂混乱的音视频环境,加入注意力模型以提高对嘈杂音视频的特征提取能力。依赖互编码器模型来实现多模态之前的信息交互以及融合,并且相对与使用多个单独模态的自编码器。本模型优化改进了自编码器,提出了互编码器的概念;通过互编码器和注意力机制的运用提升了分类的准确度;提升了多个模态间的关联性。提升了多个模态间的关联性。提升了多个模态间的关联性。

【技术实现步骤摘要】
一种用于分类的互编码器模型


[0001]本专利技术涉及机器学习
,具体涉及一种用于分类的互编码器模型。

技术介绍

[0002]多模态机器学习旨在建立能够处理和关联多模态信息的模型,通过不同的网络模块来学习不同模态的特征信息并且以此来训练网络。为了提高分类准确率,目前常见的分类模型有:基于自编码器的分类模型、基于注意力的分类模型等。
[0003]自编码器常见的有VAE(Variational Auto

Encoder,VAE)、CVAE(Conditional VAE)、VQ

VA(Vector Quantised
ꢀ‑ꢀ
Variational AutoEncoder)等,自编码器通过重构输入的信息来学习信息的特征,通过加入噪声来提高自编码器的鲁棒性并且提高特性提取的能力;当前的自编码器分类模型由于要对多个模态进行单独的自编码器再进行融合,使得计算过于复杂,对服务器带来额外的性能开销。
[0004]Attention通过对序列本身进行注意力计算,给不同的元素分配不同的权重信息来获取序列内部的联系。自注意力机制通过计算查询向量Q(Query)、键矩阵K(Key)、值矩阵V(Value)之间的映射关系关注全局相关性信息,其中Q=K=V,即音频和视频简单拼接后的嵌入向量,每个序列中的单元和该序列中所有单元进行 attention 计算。注意力模型可以很好的抓取特性,提高分类准确性,但是当前的单独使用注意力模型的网络往往分类准确率不够高,不能够发挥注意力模型的性能。

技术实现思路

[0005]为解决现有技术存在的不足,本专利技术提出一种使用了注意力模型和互编码器的用于分类的互编码器模型,对于嘈杂混乱的音视频环境,加入注意力模型以提高对嘈杂音视频的特征提取能力。依赖互编码器模型来实现多模态之前的信息交互以及融合,并且相对与使用多个单独模态的自编码器。
[0006]一种用于分类的互编码器模型,其构成包括自注意力单元、深度残差网络单元、attention单元、分类单元、卷积单元、互编码器;自注意力单元通过卷积单元连接互编码器;深度残差网络单元连接互编码器,同时和互编码器的输出一并通过attention单元连接至分类单元。
[0007]进一步地,各组件中,自注意力单元,对不同的内容分配不同的注意力权重;深度残差网络单元,进行残差学习;分类单元,对特征进行分类;卷积单元,提取局部特征;互编码器,对多模态信息进行编解码。
[0008]进一步地,互编码器包括编码器单元和解码器单元。
[0009]进一步地,编码器接收输入并处理输出至解码器,然后由编码器和解码器的输出组合得到互编码器的输出。
[0010]进一步地,将接收的输入进行编制、转换为用以通讯、传输和存储的信号形式,互编码器中音频和视频模态共同训练相同的互编码器。
[0011]进一步地,解码器单元,将数字视音频数据流解码还原成模拟音视频信号的设备,互编码器中音频模态和视频模态均用单独各自模态的解码器单元。
[0012]本专利技术达到的有益效果为:1) 优化改进了自编码器,提出了互编码器的概念;2)通过互编码器和注意力机制的运用提升了分类的准确度;3)提升了多个模态间的关联性。
附图说明
[0013]图1为本专利技术实施例中的用于分类的互编码器模型构成图。
[0014]图2为本专利技术实施例中的EAE工作原理流程。
[0015]图3为本专利技术实施例中的未引入互编码器模型的混淆矩阵。
[0016]图4为本专利技术实施例中的引入互编码器模型的混淆矩阵。
具体实施方式
[0017]下面结合说明书附图对本专利技术的技术方案做进一步的详细说明。
[0018]模型构成包括Self

attention (自注意力单元)、ResNet50 (Residual Network50,深度残差网络单元)、attention(注意力单元)、Classification layer (分类单元)、Convolutional layer (卷积单元)、EAE(Each encoder,互编码器)。各组件的功能描述如下:1)Self

attention (自注意力单元):对不同的内容分配不同的注意力权重。将从OpenL3网络获取的音频隐层向量输送至self

attention层进行声学特征抓取,信息抓取后,声学特征能够更多关注特征信息。
[0019]2)ResNet50 (深度残差网络单元):本模型采用预训练模型 ResNet50 作为视觉特征提取器。残差学习相比原始特征直接学习更容易。当残差为0时,此时堆积层仅仅做了恒等映射,至少网络性能不会下降,实际上残差不会为0,这也会使得堆积层在输入特征基础上学习到新的特征,从而拥有更好的性能。本模型使用的ResNet50网络结构是由49个卷积层和一个全连接层组成,卷积核大小有三种,分别为7
×
7、1
×
1、3
×
3,卷积层的激活函数为非线性Relu激活函数,为了与声学模块保持一致,视觉模块输出的数据维度同样设置为 16
×
10
×
1024,这意味着本模型希望输入的图像序列可以重新被表示为10 帧且每一帧为1024维的视觉嵌入向量。
[0020]3)attention (注意力单元):注意力机制可以通过重点关注目标信息来解决信息过载问题以及提高神经网络处理信息的能力,通常可以分为两类:一类是聚焦式注意力,为自上而下的主动注意方式,具有预定目的性、任务依赖性,主动地将意识聚焦于某一对象;另一类是显著性注意力,为自下而上的被动注意方式,由外界刺激驱动注意,无需主动干预且与任务无关。在神经网络的研究中,大多采用聚焦式注意力进行研究。Attention机制实质上是寻址,给定一个与任务相关的查询向量Query,计算Query与键矩阵Key 的相关性,得到各个Key对应Value的权重系数,然后对各Value加权求和得到Attention值。本模型中实质就是将视觉模块输出的视频嵌入向量作为注意力机制中的查询向量 Query,而互编码器模块输出的音频嵌入向量则作为注意力机制中的 Key 和 Value。
[0021]4)Classification layer (分类单元):对网络特征进行分类,本文为十分类任务,将特征分为十类,这10类场景又可以分为室内、室外和交通场所三个类别。
[0022]5)Convolutional layer (卷积单元):对特征进行进一步的深层提取以及对场景特征进行特征抽取,并且有效的降低了网络的计算复杂度。卷积层利用卷积操作对输入数据进行特征提取。对于一个输入特征图,输出特征图的大小由卷积核、步长和填充(Padding)三个参数确定。其中,卷积核用于对输入特征进行提取,当一个卷积神经网络的卷积核越多,产生的特征图越多,网络的内部结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于分类的互编码器模型,其特征在于:模型构成包括自注意力单元、深度残差网络单元、分类单元、attention单元、卷积单元、互编码器;自注意力单元通过卷积单元连接互编码器;深度残差网络单元连接互编码器,同时和互编码器的输出一并通过attention单元连接至分类单元。2.根据权利要求1所述的一种用于分类的互编码器模型,其特征在于:各组件中,自注意力单元,对不同的内容分配不同的注意力权重;深度残差网络单元,进行残差学习;分类单元,对特征进行分类;卷积单元,提取局部特征;互编码器,对多模态信息进行编解码。3.根据权利要求1所述的一种用于分类的互编码器模型,其特征在于:互编码器包括编码器单元和解码器单元。4.根据权利要求3所述的一种用于分类的互编码器模型,其特征在于:编码器接收输入并处理输出至解码器,然后由编码器和解码器的输出组合得到互编码器的输出。5.根据权利要求3所...

【专利技术属性】
技术研发人员:邵曦黄天阳
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1