一种基于Transformer进行音视频联合场景分类方法及系统技术方案

技术编号:38867219 阅读:10 留言:0更新日期:2023-09-22 14:05
本发明专利技术属于深度学习技术领域,具体涉及一种用于分类的Transformer网络模型,公开了一种基于Transformer进行音视频联合场景分类方法包括,通过利用Transformer单元对嘈杂的音频、视频和音视频分别进行早期融合和特征提取;对融合后的特征表示利用EfficientNetV2_S单元进行视频侧的预训练网络;通过利用分类单元进行音频特征、视频特征以及音视频联合特征三者加权求和所得的特征输入到分类器中进行场景分类。本发明专利技术提出了将原本的注意力机制替换为Transformer结构,将原本的预训练模型从ResNet50替换为EfficientNetV2_S,提高了分类的准确度,通过Transformer单元的运用提高了场景分类的准确率,提升了多模态之间的关联性。性。性。

【技术实现步骤摘要】
一种基于Transformer进行音视频联合场景分类方法及系统


[0001]本专利技术涉及深度学习
,具体涉及一种用于分类的Transformer网络模型。

技术介绍

[0002]多模态机器学习旨在建立能够处理和关联多模态信息的模型,目前常见的分类模型有:基于ResNet网络的分类模型、基于注意力的分类模型:ResNet网络可以得到一个性能很好的深层网络,但如果要在硬件资源受限的情况下得到与之匹配的性能最好的模型,这时候需要协同考虑的有三个参数,分别是:输入图像的分辨率,网络深度和网络宽度,这时候ResNet网络就束手无策了,也就是其在有限的硬件资源情况下难以达到较优的性能;Attention通过对序列本身进行注意力计算,给不同的元素分配不同的权重信息来获取序列内部的联系,注意力模型可以很好的抓取特性,提高分类准确性,但是当前的单独使用注意力模型的网络往往分类准确率不够高,不能够发挥注意力模型的性能。
[0003]而本专利技术采用一种用于音视频联合场景分类的模型,对于混乱无序的各类城市场景,先利用Transformer单元对嘈杂的音频和视频分别进行特征提取,在对提取的特征进行早期融合之后再次利用Transformer单元进行深层的特征提取,最后给音频特征、视频特征以及音视频联合特征都赋予一个可学习的权重参数,三者加权求和所得特征输入到分类器中用于场景分类。本模型通过Transformer单元的运用提高了场景分类的准确率,提升了多模态之间的关联性。

技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述现有存在的问题,提出了本专利技术。
[0006]因此,提供一种基于Transformer进行音视频联合场景分类方法,旨在将原本的注意力机制替换为Transformer结构,将原本的预训练模型从ResNet50替换为EfficientNetV2_S,提高了分类的准确度,提升了音视频模态间的关联性。
[0007]为解决上述技术问题,本专利技术提供如下技术方案,一种基于Transformer进行音视频联合场景分类方法,包括:
[0008]通过利用Transformer单元对嘈杂的音频、视频和音视频分别进行早期融合和特征提取;对融合后的特征表示利用EfficientNetV2_S单元进行视频侧的预训练网络;通过利用分类单元进行音频特征、视频特征以及音视频联合特征加权求和所得的特征输入到分类器中进行场景分类。
[0009]作为本专利技术所述的基于Transformer进行音视频联合场景分类方法的一种优选方案,其中:述Transformer单元包括,对嘈杂的音频和视频分别进行特征提取,在对提取的特征进行早期融合之后再次利用transformer单元进行深层的特征提取;
[0010]所述的音频、视频和音视频特征提取包括,通过OpenL3网络获取音频隐层向量、经过EfficientNetV2_S预训练网络获取视频特征向量以及音视频向量拼接后的多模态特征向量输入到Transformer单元中后先进入到Multi

HeadAttention部分。
[0011]作为本专利技术所述的基于Transformer进行音视频联合场景分类方法的一种优选方案,其中:所述Encoder层面包括,Transformer单元组成部分Encoder层面,具体步骤如下,
[0012]首先,将音频信号从原始信号中提取出来利用Transformer单元中Encoder部分进行输入序列转换为高维度表示,将输出结果引入Add&Norm层,进行的操作为:
[0013]LayerNorm(X+Multi

HeadAttention(X))
[0014]其次,Norm层快速收敛后结果输入FeedForward部分是一个两层的全连接层,第一层的输入为x,使用激活函数为Relu则输出为max(0,x),当x小于0,则输出为0,否则输出为x,进入第二层后不使用激活函数,结果原值输出后循环进入Add&Norm层:
[0015]LayerNorm(X+FeedForward(X))
[0016]得到Encoder部分的输出,输入到Classificationlayer分类单元中完成任务。
[0017]作为本专利技术所述的基于Transformer进行音视频联合场景分类方法的一种优选方案,其中:所述Decoder层面包括,利用Multi

HeadAttention层采用Masked操作、利用Attention的K、V矩阵得到输出矩阵;
[0018]所述Masked操作包括,遮挡住t时刻之后的每一个特征,将attentionscore设置为0,输入的序列长度为T,Mask矩阵表示为一个大小为(T,T)的上三角矩阵M,其中:
[0019]M[i,j]=0,i≤j
[0020]M[i,j]=

inf,i>j
[0021]其中,

inf为负无穷,i和j都是序列位置的索引,从1开始编号。
[0022]作为本专利技术所述的基于Transformer进行音视频联合场景分类方法的一种优选方案,其中:所述K、V矩阵包括如下步骤,首先,利用Attention的K、V矩阵使用Encoder的输出矩阵计算,根据Encoder的输出矩阵计算得到K、V,根据Decoder上一个Add&Norm层的输出计算得到Q;
[0023]K、V矩阵Encoder的输出矩阵表示为:
[0024]H∈R
n
×
d
[0025][0026][0027]其中,n表示序列长度,d表示每个位置的向量维度,W
k
是一个可训练的权重矩阵,d
k
是自注意力机制中Q、K、V向量的维度,W
v
是一个可训练的权重矩阵,d
v
是自注意力机制中V向量的维度;
[0028]其次,Multi

HeadAttention层输出继续循环Add&Norm层、FeedForward层、Add&Norm层以及Linear层,由Softmax层得到最后输出OutputProbabilities并同时输入到Classificationlayer分类单元中完成任务。
[0029]作为本专利技术所述的基于Transformer进行音视频联合场景分类方法的一种优选方案,其中:所述EfficientNetV2_S单元包括,步骤如下,
[0030]首先,进行视频侧的预训练网络,其次,将预训练网络分为Stage0到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer进行音视频联合场景分类方法,其特征在于:包括,通过利用Transformer单元分为Encoder层面和Decoder层面分别对嘈杂的音频、视频和音视频分别进行早期融合和特征提取;对融合后的特征表示利用EfficientNetV2_S单元进行视频侧的预训练网络;通过利用分类单元进行音频特征、视频特征以及音视频联合特征加权求和所得的特征输入到分类器中进行场景分类。2.如权利要求1所述的一种基于Transformer进行音视频联合场景分类方法,其特征在于:所述Transformer单元包括,对嘈杂的音频和视频分别进行特征提取,在对提取的特征进行早期融合之后再次利用transformer单元进行深层的特征提取;所述的音频、视频和音视频特征提取包括,通过OpenL3网络获取音频隐层向量、经过EfficientNetV2_S预训练网络获取视频特征向量以及音视频向量拼接后的多模态特征向量输入到Transformer单元中后先进入到Multi

HeadAttention部分。3.如权利要求2所述的一种基于Transformer进行音视频联合场景分类方法,其特征在于:所述Encoder层面包括,Transformer单元组成部分Encoder层面,具体步骤如下,首先,将音频信号从原始信号中提取出来利用Transformer单元中Encoder部分进行输入序列转换为高维度表示,将输出结果引入Add&Norm层,进行的操作为:LayerNorm(X+Multi

HeadAttention(X))其次,Norm层快速收敛后结果输入FeedForward部分是一个两层的全连接层,第一层的输入为x,使用激活函数为Relu则输出为max(0,x),当x小于0,则输出为0,否则输出为x,进入第二层后不使用激活函数,结果原值输出后循环进入Add&Norm层:LayerNorm(X+FeedForward(X))得到Encoder部分的输出,输入到Classificationlayer分类单元中完成任务。4.如权利要求3所述的一种基于Transformer进行音视频联合场景分类方法,其特征在于:所述Decoder层面包括,利用Multi

HeadAttention层采用Masked操作、利用Attention的K、V矩阵得到输出矩阵;所述Masked操作包括,遮挡住t时刻之后的每一个特征,将attentionscore设置为0,输入的序列长度为T,Mask矩阵表示为一个大小为(T,T)的上三角矩阵M,其中:M[i,j]=0,i≤jM[i,j]=

inf,i>j其中,

inf为负无穷,i和j都是序列位置的索引,从1开始编号。5.如权利要求4所述的一种基于Transformer进行音视频联合场景分类方法,其特征在于:所述K、V矩阵包括如下步骤,首先,利用Attention的K、V矩阵使用Encoder的输出矩阵计算,根据Encoder的输出矩阵计算得到K、V,根据Decoder上一个Add&Norm层的输出计算得到Q;K、V矩阵Encoder的输出矩阵表示为:H∈R
n
×
d
其中,n表示序列长度,d表示每个位置的向量维度,W
k
是一个可训练的权重矩阵...

【专利技术属性】
技术研发人员:邵曦张鹏程潘超凡朱俊屹王恬陈雯瑶
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1