音频处理方法、设备、存储介质及计算机程序产品技术

技术编号：36951698 阅读：36 留言：0更新日期：2023-03-22 19:12

本申请公开一种音频处理方法、设备、存储介质及计算机程序产品，方法包括：基于歌曲特征库及噪声特征库构建样本组；歌曲特征库包括多首歌曲的歌曲特征组，歌曲特征组中的各个歌曲特征是同一歌曲片段不同版本的声学特征，噪声特征库中的噪声特征为噪声片段的声学特征；样本组满足以下任一条件：正样本及参照样本是同一歌曲特征组中的不同歌曲特征，负样本是噪声特征，或负样本是从歌曲特征库中其他歌曲特征组中选取的歌曲特征；或正样本及参照样本是不同噪声特征，负样本是歌曲特征；基于样本组训练歌曲识别模型；训练后的歌曲识别模型用于提取待识别音频对应的指纹特征，以对待识别音频进行歌曲识别；可提高模型的抗噪性能及歌曲识别的准确性。识别的准确性。识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、设备、存储介质及计算机程序产品

[0001]本申请涉及人工智能领域，尤其涉及一种音频处理方法、设备、存储介质及计算机程序产品。

技术介绍

[0002]在歌曲识别场景中，通常可以先将待识别音频通过噪声过滤模型进行噪声过滤，在待识别音频被判定为非噪声的情况下，通过训练后的歌曲识别模型提取待识别音频对应的指纹特征，进而基于待识别音频对应的指纹特征对待识别音频进行歌曲识别。现有方法中，高度依赖于噪声过滤模型的准确性，如果噪声过滤模型筛选过于严格，会导致能识别的待识别音频被过滤掉，如果筛选过于松弛，会导致在待识别音频为噪声的情况下，进入训练后的歌曲识别模型；并且，现有方法中所使用的训练后的歌曲识别模型通常抗噪性能低，若由于噪声过滤模型筛选过于松弛，导致在待识别音频为噪声的情况下仍进入了训练后的歌曲识别模型，此时通过训练后的歌曲识别模型提取得到的待识别音频对应的指纹特征的准确性低，进而基于待识别音频对应的指纹特征进行歌曲识别的准确性低。

技术实现思路

[0003]本申请实施例提供一种音频处理方法、装置、设备...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：获取歌曲特征库以及噪声特征库；所述歌曲特征库包括多首歌曲的多个歌曲特征组，所述歌曲特征组中的各个歌曲特征是所述歌曲的同一歌曲片段不同版本的声学特征，所述噪声特征库中的一个噪声特征为一个噪声片段的声学特征；基于所述歌曲特征库以及所述噪声特征库构建样本组；所述样本组包括正样本、负样本以及参照样本，且所述样本组满足以下第一条件、第二条件或第三条件：第一条件为，所述正样本以及所述参照样本是从同一所述歌曲特征组中选取的不同歌曲特征，所述负样本是从所述噪声特征库中选取的噪声特征；第二条件为，所述正样本以及所述参照样本是从同一所述歌曲特征组中选取的不同歌曲特征，所述负样本是从所述歌曲特征库中其他歌曲特征组中选取的歌曲特征，所述其他歌曲特征组为所述正样本对应的歌曲之外的其他歌曲的歌曲特征组；第三条件为，所述正样本以及所述参照样本是从所述噪声特征库中选取的不同噪声特征，所述负样本是从所述歌曲特征库中选取的歌曲特征；通过歌曲识别模型，提取所述正样本对应的指纹特征、所述负样本对应的指纹特征以及所述参照样本对应的指纹特征；基于所述正样本对应的指纹特征、所述负样本对应的指纹特征以及所述参照样本对应的指纹特征对所述歌曲识别模型进行训练，以得到训练后的歌曲识别模型；其中所述训练后的歌曲识别模型用于提取待识别音频对应的指纹特征，所述待识别音频对应的指纹特征用于对所述待识别音频进行歌曲识别。2.如权利要求1所述的方法，其特征在于，所述方法还包括：从所述噪声特征库中选取多个噪声特征，并基于所述多个噪声特征确定新增的噪声特征，并将所述新增的噪声特征添加至所述噪声特征库，以更新所述噪声特征库；所述基于所述歌曲特征库以及所述噪声特征库构建样本组，包括：基于所述歌曲特征库以及更新后的噪声特征库构建所述样本组。3.如权利要求2所述的方法，其特征在于，所述基于所述多个噪声特征确定新增的噪声特征，包括：对所述多个噪声特征进行平均处理，得到所述新增的噪声特征。4.如权利要求1所述的方法，其特征在于，所述基于所述正样本对应的指纹特征、所述负样本对应的指纹特征以及所述参照样本对应的指纹特征对所述歌曲识别模型进行训练，包括：基于所述参照样本对应的指纹特征确定目标指纹特征；朝着减小所述正样本对应的指纹特征与所述目标指纹特征之间的特征距离的方向，以及增大所述负样本对应的指纹特征与所述目标指纹特征之间的特征距离的方向，调整所述歌曲识别模型的模型参数。5.如权利要求4所述的方法，其特征在于，所述样本组包括多个参照样本，所述基于所述参照样本对应的指纹特征确定目标指纹特征，包括：对各个所述参照样本对应的指纹特征进行平均处理，得到所述目标指纹特征。6.如权利要求1所述的方法，其特征在于，所述方法还包括：通过所述训练后的歌曲识别模型，提取所述歌曲特征库中各个歌曲特征对应的指纹特征，以及所述噪声特征库中各个噪声特征对应的指纹特征；
获取所述待识别音频的声学特征，并通过所述训练后的歌曲识别模型，对所述待识别音频的声学特征进行特征转换处理，得到所述待识别音频对应的指纹特征；基于所述待识别音频对应的指纹特征与所述各个歌曲特征对应的指纹特征之间的特征距离，以及所述待识别音频对应的指纹特征与所述各个噪声特征对应的指纹特征之间...

【专利技术属性】
技术研发人员：王武城，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人