一种音频类别的确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39175528 阅读:8 留言:0更新日期:2023-10-27 08:23
本申请提供了一种音频类别的确定方法、装置、电子设备及存储介质,确定方法包括:对待检测音频进行处理,对傅里叶变换处理后的待检测音频进行音频特征提取;将音频特征输入至音频类别检测模型的扩散网络层之中,确定出待检测音频的音频特征相对应的视频特征;将视频特征以及音频特征输入至分类网络层之中,对视频特征以及音频特征进行特征融合,并确定出融合后的特征,并对融合后的特征进行分类,输出待检测音频的音频类别信息。通过利用扩散网络层确定出音频特征相对应的视频特征,将音频特征以及视频特征进行融合,利用融合后的特征进行音频类别分类,确定出待检测音频的音频类别信息,从而提高了音频类别确定的准确性。从而提高了音频类别确定的准确性。从而提高了音频类别确定的准确性。

【技术实现步骤摘要】
一种音频类别的确定方法、装置、电子设备及存储介质


[0001]本申请涉及音频识别
,尤其是涉及一种音频类别的确定方法、装置、电子设备及存储介质。

技术介绍

[0002]音频类别的确定在音乐识别、环境音识别和说话者识别等多种场景下应用广泛,声音作为人类感知周围环境和认知世界的一个重要途径备受关注。音频类别的识别主要有基于k近邻等的机器学习方法,虽然该种方法简单有效,但是当数据集规模变大时,计算复杂度会显著增大,此外该方法对不平衡的数据集不友好,较易受异常值影响;或者是基于马尔科夫模型的数学建模方法、基于HMM

GMM算法,该算法将HMM作为时间序列建模的框架,使用GMM对每个状态的观测概率建模,但是该算法的特征表征能力有限,由于GMM只对每个状态的观测概率建模,它对于捕捉更高级别的语义信息可能有限。这种限制可能导致在一些复杂的语音识别任务中性能不如其他更高级别的模型会导致音频类别的识别不准确的问题。所以,如何提高音频类别确定的准确性成为了不容小觑的技术问题。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供一种音频类别的确定方法、装置、电子设备及存储介质,通过利用扩散网络层确定出音频特征相对应的视频特征,将音频特征以及视频特征进行融合,利用融合后的特征进行音频类别分类,确定出待检测音频的音频类别信息,从而提高了音频类别确定的准确性。
[0004]本申请实施例提供了一种音频类别的确定方法,所述确定方法包括:对待检测音频进行音频处理,对处理后的所述待检测音频进行音频特征提取;将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中,对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征;将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中,对所述视频特征以及所述音频特征进行特征融合,并确定出融合后的特征,并对所述融合后的特征进行分类,输出所述待检测音频的音频类别信息。
[0005]在一种可能的实施方式之中,所述将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中,对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征,包括:在所述扩散网络层依次对所述音频特征进行前向扩散处理、反向去噪处理以及采样生成处理,确定出所述音频特征相对应的视频特征。
[0006]在一种可能的实施方式之中,将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中,对所述视频特征以及所述音频特征进行特征融合,并确定出融合后的特征,并对所述融合后的特征进行分类,输出所述待检测音频的音频类别信息,包括:
所述分类网络层对所述视频特征以及所述音频特征进行融合,确定出融合后的特征;所述分类网络层对所述融合后的特征进行分类,确定出所述融合后的特征相对应的音频类别得分值,基于多个所述音频类别得分值输出所述待检测音频的音频类别信息。
[0007]在一种可能的实施方式之中,所述分类网络层对所述视频特征以及所述音频特征进行融合,确定出融合后的特征,包括:在所述分类网络层之中确定出所述视频特征以及所述音频特征之间的相似度分值;基于所述相似度分值,确定出所述视频特征以及所述音频特征之间的注意力得分值;基于所述注意力得分值对所述视频特征以及所述音频特征进行加权融合,确定出融合后的特征。
[0008]在一种可能的实施方式之中,所述分类网络层对所述融合后的特征进行分类,确定出所述融合后的特征相对应的音频类别得分值,基于多个所述音频类别得分值输出所述待检测音频的音频类别信息,包括:在所述分类网络层中基于归一化指数函数确定出所述融合后的特征相对应的各个音频类别得分值;在多个所述音频类别得分值之中筛选出最大的音频类别得分值,将所述最大的音频类别得分值相对应的音频类别信息确定为所述待检测音频的音频类别信息。
[0009]在一种可能的实施方式之中,通过以下步骤对所述音频类别检测模型进行训练:获取多个样本音频特征、每个所述样本音频特征相对应的样本视频特征以及每个所述样本音频特征相对应的标签信息;基于多个所述样本音频特征以及多个所述样本视频特征对深度学习网络层进行迭代训练,确定出所述扩散网络层;基于多个所述样本音频特征、多个所述样本音频特征以及多个所述标签信息对神经网络层进行迭代训练,确定出所述分类网络层;基于所述扩散网络层以及所述分类网络层,确定出所述音频类别检测模型。
[0010]在一种可能的实施方式之中,所述基于多个所述样本音频特征、多个所述样本音频特征以及多个所述标签信息对神经网络层进行迭代训练,确定出所述分类网络层,包括:对所述样本音频特征以及相对应的样本视频特征进行融合,确定出融合后的样本特征;基于所述融合后的样本特征,预测出所述融合后的样本特征相对应的所述样本音频特征的预测音频类别得分值;确定出所述样本音频特征的预测音频类别得分值以及所述样本音频特征相对应的所述标签信息中的样本音频类别得分值之间的损失值;基于所述损失值对所述神经网络层的网络参数进行调整,确定出所述分类网络层。
[0011]本申请实施例还提供了一种音频类别的确定装置,所述确定装置包括:特征提取模块,用于对待检测音频进行音频处理,对处理后的所述待检测音频进
行音频特征提取;扩散模块,用于将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中,对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征;分类模块,用于将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中,对所述视频特征以及所述音频特征进行特征融合,并确定出融合后的特征,并对所述融合后的特征进行分类,输出所述待检测音频的音频类别信息。
[0012]本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的音频类别的确定方法的步骤。
[0013]本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的音频类别的确定方法的步骤。
[0014]本申请实施例提供的一种音频类别的确定方法、装置、电子设备及存储介质,所述确定方法包括:对待检测音频进行处理,对处理后的所述待检测音频进行音频特征提取;将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中,对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征;将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中,对所述视频特征以及所述音频特征进行特征融合,并确定出融合后的特征,并对所述融合后的特征进行分类,输出所述待检测音频的音频类别信息。通过利用扩散网络层确定出音频特征相对应的视频特征,将音频特征以及视频特征进行融合,利用融合后的特征进行音频类别分类,确定出待检测音频的音频类别信息,从而提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频类别的确定方法,其特征在于,所述确定方法包括:对待检测音频进行音频处理,对处理后的所述待检测音频进行音频特征提取;将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中,对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征;将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中,对所述视频特征以及所述音频特征进行特征融合,并确定出融合后的特征,并对所述融合后的特征进行分类,输出所述待检测音频的音频类别信息。2.根据权利要求1所述的确定方法,其特征在于,所述将所述音频特征输入至预先训练好的音频类别检测模型的扩散网络层之中,对所述音频特征进行特征处理确定出所述待检测音频的所述音频特征相对应的视频特征,包括:在所述扩散网络层依次对所述音频特征进行前向扩散处理、反向去噪处理以及采样生成处理,确定出所述音频特征相对应的视频特征。3.根据权利要求1所述的确定方法,其特征在于,将所述视频特征以及所述音频特征输入至所述音频类别检测模型的分类网络层之中,对所述视频特征以及所述音频特征进行特征融合,并确定出融合后的特征,并对所述融合后的特征进行分类,输出所述待检测音频的音频类别信息,包括:所述分类网络层对所述视频特征以及所述音频特征进行融合,确定出融合后的特征;所述分类网络层对所述融合后的特征进行分类,确定出所述融合后的特征相对应的音频类别得分值,基于多个所述音频类别得分值输出所述待检测音频的音频类别信息。4.根据权利要求3所述的确定方法,其特征在于,所述分类网络层对所述视频特征以及所述音频特征进行融合,确定出融合后的特征,包括:在所述分类网络层之中确定出所述视频特征以及所述音频特征之间的相似度分值;基于所述相似度分值,确定出所述视频特征以及所述音频特征之间的注意力得分值;基于所述注意力得分值对所述视频特征以及所述音频特征进行加权融合,确定出融合后的特征。5.根据权利要求3所述的确定方法,其特征在于,所述分类网络层对所述融合后的特征进行分类,确定出所述融合后的特征相对应的音频类别得分值,基于多个所述音频类别得分值输出所述待检测音频的音频类别信息,包括:在所述分类网络层中基于归一化指数函数确定出所述融合后的特征相对应的各个音频类别得分值;在多个所述音频类别得分值之中筛选出最大的音频类别得分值,将所述最大的音频类别得分值相对应的音频类别信息确定...

【专利技术属性】
技术研发人员:张德俊王秋明
申请(专利权)人:北京远鉴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1