音频处理方法、设备及存储介质技术

技术编号：36455321 阅读：18 留言：0更新日期：2023-01-25 22:53

本申请公开一种音频处理方法、设备及存储介质，其相关实施例可应用于云技术、智慧交通及自动驾驶等场景。方法包括：对目标音频进行特征提取处理，得到目标音频的类型判别特征；类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征，基频波动特征用于指示目标音频在持续的目标时间段内的基频的波动情况，能量占比特征用于指示目标音频处于预设频段内的能量与目标音频在所处全频段内的能量之间的差异；根据目标音频的类型判别特征与类型判别特征对应的预设特征值范围的比较结果，确定目标音频的音频类型；音频类型为歌声类型或说话声类型；可准确判别音频的音频类型。音频类型。音频类型。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种音频处理方法、设备及存储介质。

技术介绍

[0002]在音频处理的相关场景中，由于对歌声类型的音频和说话声类型的音频有着不同的处理需求，例如，需要对说话声类型的音频进行说话声增强，以使说话声更加突出，又如，需要对歌声类型的音频进行修音，以使歌声更加优美动听；基于此，能够准确判别音频为歌声类型还是说话声类型是非常重要的，但现有的判别方案中，通常基于音频的频宽来进行判别，即由于说话声的频率一般在300至3400赫兹之间，而歌声的频率涵盖了人耳所能听到的20至20千赫兹，所以可以在音频的频率处于300至3400赫兹时，将该音频判别为说话声类型，在音频的频率处于20至20千赫兹时，将该音频判别为歌声类型，判别准确度低。

技术实现思路

[0003]本申请实施例提供一种音频处理方法、装置、设备、存储介质及计算机程序产品，可以准确判别音频的音频类型。
[0004]一方面，本申请实施例提供了一种音频处理方法，包括：
[0005]对目标音频进行特征提取处理，得到所述目标音频的类型判别特征；所述类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征，所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况，所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异；
[0006]根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：对目标音频进行特征提取处理，得到所述目标音频的类型判别特征；所述类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征，所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况，所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异；根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果，确定所述目标音频的音频类型；所述音频类型为歌声类型或说话声类型。2.如权利要求1所述的方法，其特征在于，所述根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果，确定所述目标音频的音频类型，包括：若所述目标音频的类型判别特征为多种，且在所述目标音频的多种类型判别特征中，存在至少一种类型判别特征符合所述至少一种类型判别特征对应的预设特征值范围，则将所述目标音频的音频类型判别为歌声类型；若所述目标音频的类型判别特征为多种，且在所述目标音频的多种类型判别特征中，每种类型判别特征均不符合所述每种类型判别特征对应的预设特征值范围，则将所述目标音频的音频类型判别为说话声类型。3.如权利要求1所述的方法，其特征在于，对目标音频进行特征提取处理，得到所述目标音频的语速特征，包括：对所述目标音频进行语音识别处理，得到所述目标音频对应的文字内容以及各个文字内容在所述目标音频中的发声开始时间和发声结束时间；基于所述各个文字内容的发声开始时间和发声结束时间，确定所述各个文字内容的平均发声时长；基于所述平均发声时长，确定所述目标音频的语速特征；所述目标音频的语速特征与所述平均发声时长呈负相关关系。4.如权利要求1所述的方法，其特征在于，对目标音频进行特征提取处理，得到所述目标音频的基频波动特征，包括：提取所述目标音频的基频；在所述目标时间段内，对所述目标音频的基频进行采样处理，得到各个采样点对应的基频；基于所述各个采样点对应的基频之间的差异，确定所述目标音频的基频波动特征。5.如权利要求4所述的方法，其特征在于，所述基于所述各个采样点对应的基频之间的差异，确定所述目标音频的基频波动特征，包括：对所述各个采样点对应的基频进行标准差计算处理，得到目标标准差；将所述目标标准差确定为所述目标音频的基频波动特征。6.如权利要求5所述的方法，其特征在于，所述对所述各个采样点对应的基频进行标准差计算处理，得到目标标准差，包括：对所述各个采样点对应的基频进行音符映射处理，得到所述各个采样点对应的音符映射结果...

【专利技术属性】
技术研发人员：张超鹏，陈梦，赵伟峰，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人