一种基于图增强的音频分类方法、装置、设备及介质制造方法及图纸

技术编号：38866418 阅读：7 留言：0更新日期：2023-09-22 14:05

本发明专利技术涉及一种基于图增强的音频分类方法、装置、设备及介质，其中，方波包括：获取待分类的音频；将所述待分类的音频输入至分类模型中得到音频的分类结果；其中，所述分类模型包括：音频特征提取模块，用于从所述待分类的音频中提取出第一音频特征和第二音频特征；音频转换模块，用于将所述待分类的音频转换为图，并提取出图的顶点信息和边缘信息；特征融合模块，用于将第一音频特征、第二音频特征与所述图的顶点信息和边缘信息进行特征融合，得到融合特征；分类模块，用于基于融合特征对待分类的音频进行分类，得到音频的分类结果。本发明专利技术能够利用Graph信息来辅助音频分类，从而提升音频分类的准确性。音频分类的准确性。音频分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图增强的音频分类方法、装置、设备及介质

[0001]本专利技术涉及音频分类
，特别是涉及一种基于图增强的音频分类方法、装置、设备及介质。

技术介绍

[0002]现有的音频分类方法是将一张图片输入至1DConv+RNN的神经网络中，经过1DConv+RNN的神经网络处理后输出类别。上述方式没有考虑到将音频转换为图(Graph，包含edge和node)作为输入来增强音频分类的识别效果，整个神经网络模型只有音频作为信息传递，没有考虑将Graph与图像做信息的交互。本专利技术的专利技术人发现，现有技术没有将音频转换为图作为输入的主要原因是，如果将音频直接作为Graph的话，会导致Graph的node(顶点)和edge(边)过于多，假如音频的采样率为16K，时长为10秒，那么一共有16000
×
10＝160000个点，将每个采样点作为node的话，那么node的数量160000个，如此相当耗费资源，不利于网络推理。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种基于图增强的音频分类方法、装置、设备及介质，能够利用Graph信息来辅助音频分类，从而提升音频分类的准确性。
[0004]本专利技术解决其技术问题所采用的技术方案是：提供一种基于图增强的音频分类方法，包括以下步骤：
[0005]获取待分类的音频；
[0006]将所述待分类的音频输入至分类模型中得到音频的分类结果；其中，所述分类模型包括：
[0007]音频特征提取模块，用于从...

【技术保护点】

【技术特征摘要】
1.一种基于图增强的音频分类方法，其特征在于，包括以下步骤：获取待分类的音频；将所述待分类的音频输入至分类模型中得到音频的分类结果；其中，所述分类模型包括：音频特征提取模块，用于从所述待分类的音频中提取出第一音频特征和第二音频特征；音频转换模块，用于将所述待分类的音频转换为图，并提取出图的顶点信息和边缘信息；特征融合模块，用于将第一音频特征、第二音频特征与所述图的顶点信息和边缘信息进行特征融合，得到融合特征；分类模块，用于基于融合特征对待分类的音频进行分类，得到音频的分类结果。2.根据权利要求1所述的基于图增强的音频分类方法，其特征在于，所述获取待分类的音频后，还包括判断所述待分类的音频的时长是否等于预设时长，若所述待分类的音频的时长大于预设时长，则从所述待分类的音频中截取出预设时长的片段，作为分类模型的输入；若所述待分类的音频的时长小于预设时长，则在所述待分类的音频后补入0值直至达到预设时长。3.根据权利要求1所述的基于图增强的音频分类方法，其特征在于，所述音频特征提取模块包括：第一音频特征提取单元，用于对所述待分类的音频进行特征抽取，得到N个卷积嵌入，并将N个卷积嵌入作为第一音频特征；第二音频特征提取单元，用于对所述待分类的音频进行特征抽取，得到1个音频嵌入，并将所述音频嵌入重复N次，得到第二音频特征。4.根据权利要求1所述的基于图增强的音频分类方法，其特征在于，所述音频转换模块包括：顶点信息提取单元，用于对所述待分类的音频进行特征提取，得到N个图嵌入，并将N个图嵌入作为图的顶点信息；边缘信息提取单元，用于将所述N个图嵌入作为一个音频序列，并初始化一个形状为(N，N)、默认值均为0的邻接矩阵，将音频序列中当前特征后面的特征作为当前特征的邻居，将邻接矩阵中对应位置的值设置为1，并用更新后的邻接矩阵作为图的边缘信息。5.根据权利要求1所述的基于图增强的音频分类方法，其特征在于，所述特征融合模块包括：第一融合单元，用于将图的顶点信息和边缘信息进行求和，得到图嵌入融合特征；第二融合单元，用于对第一音频特征、第二音频特征、图的顶点信息和边缘信息进行加权...

【专利技术属性】
技术研发人员：孔欧，
申请(专利权)人：上海蜜度信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人