一种音频类别的确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39175528 阅读：8 留言：0更新日期：2023-10-27 08:23

本申请提供了一种音频类别的确定方法、装置、电子设备及存储介质，确定方法包括：对待检测音频进行处理，对傅里叶变换处理后的待检测音频进行音频特征提取；将音频特征输入至音频类别检测模型的扩散网络层之中，确定出待检测音频的音频特征相对应的视频特征；将视频特征以及音频特征输入至分类网络层之中，对视频特征以及音频特征进行特征融合，并确定出融合后的特征，并对融合后的特征进行分类，输出待检测音频的音频类别信息。通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。从而提高了音频类别确定的准确性。从而提高了音频类别确定的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频类别的确定方法、装置、电子设备及存储介质

[0001]本申请涉及音频识别
，尤其是涉及一种音频类别的确定方法、装置、电子设备及存储介质。

技术介绍

[0002]音频类别的确定在音乐识别、环境音识别和说话者识别等多种场景下应用广泛，声音作为人类感知周围环境和认知世界的一个重要途径备受关注。音频类别的识别主要有基于k近邻等的机器学习方法，虽然该种方法简单有效，但是当数据集规模变大时，计算复杂度会显著增大，此外该方法对不平衡的数据集不友好，较易受异常值影响；或者是基于马尔科夫模型的数学建模方法、基于HMM
‑
GMM算法，该算法将HMM作为时间序列建模的框架，使用GMM对每个状态的观测概率建模，但是该算法的特征表征能力有限，由于GMM只对每个状态的观测概率建模，它对于捕捉更高级别的语义信息可能有限。这种限制可能导致在一些复杂的语音识别任务中性能不如其他更高级别的模型会导致音频类别的识别不准确的问题。所以，如何提高音频类别确定的准确性成为了不容小觑的技术问题。

技术实现思路

[0003]有鉴于此，本申请的目的在于提供一种音频类别的确定方法、装置、电子设备及存储介质，通过利用扩散网络层确定出音频特征相对应的视频特征，将音频特征以及视频特征进行融合，利用融合后的特征进行音频类别分类，确定出待检测音频的音频类别信息，从而提高了音频类别确定的准确性。
[0004]本申请实施例提供了一种音频类别的确定方法，所述确定方法包括：对待检测音频进行音频处理，对处理后的所述待检测音频进行音频...

【技术保护点】

【技术特征摘要】
1.一种音频类别的确定方法，其特征在于，所述确定方法包括：对待检测音频进行音频处理，对处理后的所述待检测音频进行音频特征提取；将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征；将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息。2.根据权利要求1所述的确定方法，其特征在于，所述将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中，对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征，包括：在所述扩散网络层依次对所述音频特征进行前向扩散处理、反向去噪处理以及采样生成处理，确定出所述音频特征相对应的视频特征。3.根据权利要求1所述的确定方法，其特征在于，将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中，对所述视频特征以及所述音频特征进行特征融合，并确定出融合后的特征，并对所述融合后的特征进行分类，输出所述待检测音频的音频类别信息，包括：所述分类网络层对所述视频特征以及所述音频特征进行融合，确定出融合后的特征；所述分类网络层对所述融合后的特征进行分类，确定出所述融合后的特征相对应的音频类别得分值，基于多个所述音频类别得分值输出所述待检测音频的音频类别信息。4.根据权利要求3所述的确定方法，其特征在于，所述分类网络层对所述视频特征以及所述音频特征进行融合，确定出融合后的特征，包括：在所述分类网络层之中确定出所述视频特征以及所述音频特征之间的相似度分值；基于所述相似度分值，确定出所述视频特征以及所述音频特征之间的注意力得分值；基于所述注意力得分值对所述视频特征以及所述音频特征进行加权融合，确定出融合后的特征。5.根据权利要求3所述的确定方法，其特征在于，所述分类网络层对所述融合后的特征进行分类，确定出所述融合后的特征相对应的音频类别得分值，基于多个所述音频类别得分值输出所述待检测音频的音频类别信息，包括：在所述分类网络层中基于归一化指数函数确定出所述融合后的特征相对应的各个音频类别得分值；在多个所述音频类别得分值之中筛选出最大的音频类别得分值，将所述最大的音频类别得分值相对应的音频类别信息确定...

【专利技术属性】
技术研发人员：张德俊，王秋明，
申请(专利权)人：北京远鉴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人