一种基于图增强的音频分类方法、装置、设备及介质制造方法及图纸

技术编号:38866418 阅读:7 留言:0更新日期:2023-09-22 14:05
本发明专利技术涉及一种基于图增强的音频分类方法、装置、设备及介质,其中,方波包括:获取待分类的音频;将所述待分类的音频输入至分类模型中得到音频的分类结果;其中,所述分类模型包括:音频特征提取模块,用于从所述待分类的音频中提取出第一音频特征和第二音频特征;音频转换模块,用于将所述待分类的音频转换为图,并提取出图的顶点信息和边缘信息;特征融合模块,用于将第一音频特征、第二音频特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;分类模块,用于基于融合特征对待分类的音频进行分类,得到音频的分类结果。本发明专利技术能够利用Graph信息来辅助音频分类,从而提升音频分类的准确性。音频分类的准确性。音频分类的准确性。

【技术实现步骤摘要】
一种基于图增强的音频分类方法、装置、设备及介质


[0001]本专利技术涉及音频分类
,特别是涉及一种基于图增强的音频分类方法、装置、设备及介质。

技术介绍

[0002]现有的音频分类方法是将一张图片输入至1DConv+RNN的神经网络中,经过1DConv+RNN的神经网络处理后输出类别。上述方式没有考虑到将音频转换为图(Graph,包含edge和node)作为输入来增强音频分类的识别效果,整个神经网络模型只有音频作为信息传递,没有考虑将Graph与图像做信息的交互。本专利技术的专利技术人发现,现有技术没有将音频转换为图作为输入的主要原因是,如果将音频直接作为Graph的话,会导致Graph的node(顶点)和edge(边)过于多,假如音频的采样率为16K,时长为10秒,那么一共有16000
×
10=160000个点,将每个采样点作为node的话,那么node的数量160000个,如此相当耗费资源,不利于网络推理。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种基于图增强的音频分类方法、装置、设备及介质,能够利用Graph信息来辅助音频分类,从而提升音频分类的准确性。
[0004]本专利技术解决其技术问题所采用的技术方案是:提供一种基于图增强的音频分类方法,包括以下步骤:
[0005]获取待分类的音频;
[0006]将所述待分类的音频输入至分类模型中得到音频的分类结果;其中,所述分类模型包括:
[0007]音频特征提取模块,用于从所述待分类的音频中提取出第一音频特征和第二音频特征;
[0008]音频转换模块,用于将所述待分类的音频转换为图,并提取出图的顶点信息和边缘信息;
[0009]特征融合模块,用于将第一音频特征、第二音频特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;
[0010]分类模块,用于基于融合特征对待分类的音频进行分类,得到音频的分类结果。
[0011]所述获取待分类的音频后,还包括判断所述待分类的音频的时长是否等于预设时长,若所述待分类的音频的时长大于预设时长,则从所述待分类的音频中截取出预设时长的片段,作为分类模型的输入;若所述待分类的音频的时长小于预设时长,则在所述待分类的音频后补入0值直至达到预设时长。
[0012]所述音频特征提取模块包括:
[0013]第一音频特征提取单元,用于对所述待分类的音频进行特征抽取,得到N个卷积嵌入,并将N个卷积嵌入作为第一音频特征;
[0014]第二音频特征提取单元,用于对所述待分类的音频进行特征抽取,得到1个音频嵌入,并将所述音频嵌入重复N次,得到第二音频特征。
[0015]所述音频转换模块包括:
[0016]顶点信息提取单元,用于对所述待分类的音频进行特征提取,得到N个图嵌入,并将N个图嵌入作为图的顶点信息;
[0017]边缘信息提取单元,用于将所述N个图嵌入作为一个音频序列,并初始化一个形状为(N,N)、默认值均为0的邻接矩阵,将音频序列中当前特征后面的特征作为当前特征的邻居,将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。
[0018]所述特征融合模块包括:
[0019]第一融合单元,用于将图的顶点信息和边缘信息进行求和,得到图嵌入融合特征;
[0020]第二融合单元,用于对第一音频特征、第二音频特征、图的顶点信息和边缘信息进行加权求和,得到融合嵌入特征;
[0021]第三融合单元,用于将第一音频特征、图嵌入融合特征和融合嵌入特征进行交叉注意处理,得到融合特征。
[0022]本专利技术解决其技术问题所采用的技术方案是:提供一种基于图增强的音频分类装置,包括:
[0023]获取部分,用于获取待分类的音频;
[0024]分类部分,用于将所述待分类的音频输入至分类模型中得到音频的分类结果;其中,所述分类模型包括:
[0025]音频特征提取模块,用于从所述待分类的音频中提取出第一音频特征和第二音频特征;
[0026]音频转换模块,用于将所述待分类的音频转换为图,并提取出图的顶点信息和边缘信息;
[0027]特征融合模块,用于将第一音频特征、第二音频特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;
[0028]分类模块,用于基于融合特征对待分类的音频进行分类,得到音频的分类结果。
[0029]所述音频特征提取模块包括:
[0030]第一音频特征提取单元,用于对所述待分类的音频进行特征抽取,得到N个卷积嵌入,并将N个卷积嵌入作为第一音频特征;
[0031]第二音频特征提取单元,用于对所述待分类的音频进行特征抽取,得到1个音频嵌入,并将所述音频嵌入重复N次,得到第二音频特征。
[0032]所述音频转换模块包括:
[0033]顶点信息提取单元,用于对所述待分类的音频进行特征提取,得到N个图嵌入,并将N个图嵌入作为图的顶点信息;
[0034]边缘信息提取单元,用于将所述N个图嵌入作为一个音频序列,并初始化一个形状为(N,N)、默认值均为0的邻接矩阵,将音频序列中当前特征后面的特征作为当前特征的邻居,将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。
[0035]本专利技术解决其技术问题所采用的技术方案是:提供一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算
机程序时实现上述的基于图增强的音频分类方法的步骤。
[0036]本专利技术解决其技术问题所采用的技术方案是:提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于图增强的音频分类方法的步骤。
[0037]有益效果
[0038]由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术将音频转换为图,并将图与音频进行特征融合,以此来辅助音频分类,提升音频分类的准确性。
附图说明
[0039]图1是本专利技术第一实施方式的流程图;
[0040]图2是本专利技术第一实施方式中分类模型的方框图;
[0041]图3是本专利技术第一实施方式中提取出的边缘信息示意图。
具体实施方式
[0042]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0043]本专利技术的第一实施方式涉及一种基于图增强的音频分类方法,如图1所示,包括以下步骤:获取待分类的音频;将所述待分类的音频输入至分类模型中得到音频的分类结果。
[0044]如图2所示,本实施方式中的分类模型包括:
[0045]音频特征提取模块,用于从所述待分类的音频中提取出第一音频特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图增强的音频分类方法,其特征在于,包括以下步骤:获取待分类的音频;将所述待分类的音频输入至分类模型中得到音频的分类结果;其中,所述分类模型包括:音频特征提取模块,用于从所述待分类的音频中提取出第一音频特征和第二音频特征;音频转换模块,用于将所述待分类的音频转换为图,并提取出图的顶点信息和边缘信息;特征融合模块,用于将第一音频特征、第二音频特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;分类模块,用于基于融合特征对待分类的音频进行分类,得到音频的分类结果。2.根据权利要求1所述的基于图增强的音频分类方法,其特征在于,所述获取待分类的音频后,还包括判断所述待分类的音频的时长是否等于预设时长,若所述待分类的音频的时长大于预设时长,则从所述待分类的音频中截取出预设时长的片段,作为分类模型的输入;若所述待分类的音频的时长小于预设时长,则在所述待分类的音频后补入0值直至达到预设时长。3.根据权利要求1所述的基于图增强的音频分类方法,其特征在于,所述音频特征提取模块包括:第一音频特征提取单元,用于对所述待分类的音频进行特征抽取,得到N个卷积嵌入,并将N个卷积嵌入作为第一音频特征;第二音频特征提取单元,用于对所述待分类的音频进行特征抽取,得到1个音频嵌入,并将所述音频嵌入重复N次,得到第二音频特征。4.根据权利要求1所述的基于图增强的音频分类方法,其特征在于,所述音频转换模块包括:顶点信息提取单元,用于对所述待分类的音频进行特征提取,得到N个图嵌入,并将N个图嵌入作为图的顶点信息;边缘信息提取单元,用于将所述N个图嵌入作为一个音频序列,并初始化一个形状为(N,N)、默认值均为0的邻接矩阵,将音频序列中当前特征后面的特征作为当前特征的邻居,将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。5.根据权利要求1所述的基于图增强的音频分类方法,其特征在于,所述特征融合模块包括:第一融合单元,用于将图的顶点信息和边缘信息进行求和,得到图嵌入融合特征;第二融合单元,用于对第一音频特征、第二音频特征、图的顶点信息和边缘信息进行加权...

【专利技术属性】
技术研发人员:孔欧
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1