【技术实现步骤摘要】
一种语音处理的方法、装置及电子设备
本专利技术涉及语音识别
,尤其涉及一种语音处理的方法、装置及电子设备。
技术介绍
随着科技的不断发展,自动语音识别技术的应用也越来越广泛;由于是语音信号在不同的语音环境中不断受到各种噪音的干扰,会影响语音识别的结果,因此,需要对语音信号进行语音增强,即对语音信号中的噪音进行降噪处理。现有技术中,通常采用传统的降噪方法,例如谱减法、维纳滤波法以及小波变换等算法实现平稳噪音或非平稳噪音的消除,但是在实际场景中往往面对多种类、宽频域、非平稳的噪音,传统的降噪算法效果往往并不理想的效果;而且对于一些极低信噪比、以及鸡尾酒效应明显的场景,降噪性能也较差。综上所述,如何对语音信号中的各种噪音进行有效的降噪,获取噪音较小的音频,是目前需要解决的问题。
技术实现思路
本专利技术实施例提供了一种语音处理的方法、装置及电子设备,可以有效的对音频数据中的噪音进行降噪,获取噪音较小的音频数据。根据本专利技术实施例的第一个方面,提供了一种语音处理的方法,包括 ...
【技术保护点】
1.一种语音处理的方法,其特征在于,包括:/n获取包括至少一个音频信号帧的音频数据;/n根据各音频信号帧确定所述音频数据的类型,所述类型包括需要降噪和不需要降噪;/n响应于所述音频数据的类型为需要降噪,确定所述音频数据的信号特征;/n将所述信号特征输入到预先训练的降噪模型中,确定降噪后的音频数据。/n
【技术特征摘要】 【专利技术属性】
1.一种语音处理的方法,其特征在于,包括:
获取包括至少一个音频信号帧的音频数据;
根据各音频信号帧确定所述音频数据的类型,所述类型包括需要降噪和不需要降噪;
响应于所述音频数据的类型为需要降噪,确定所述音频数据的信号特征;
将所述信号特征输入到预先训练的降噪模型中,确定降噪后的音频数据。
2.如权利要求1所述的方法,其特征在于,所述根据各音频信号帧确定所述音频数据的类型具体包括:
确定所述音频数据的各音频信号帧中语音帧的信噪比,以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧,其中,语音帧为包含非噪声信号的音频信号帧,所述非语音帧为不包含非噪声信号的音频信号帧;
确定所述信噪比小于第一设定阈值的音频信号帧的第一数量,以及所述含噪音段的非语音帧的第二数量;
根据所述第一数量和所述第二数量确定第三数量;
响应于所述第三数量与音频信号帧的总数的比值大于或等于第二设定阈值;
确定所述音频数据的类型为需要降噪。
3.如权利要求2所述的方法,其特征在于,所述根据各音频信号帧确定所述音频数据的类型还包括:
响应于所述第三数量与所述音频信号帧的总数的比值小于所述第二设定阈值;
确定所述音频数据的类型为不需要降噪。
4.如权利要求2所述的方法,其特征在于,所述确定所述音频数据的各音频信号帧中语音帧的信噪比,以及所述各音频信号帧中的非语音帧中含噪音段的非语音帧,具体为:
将各音频信号帧输入到预先训练的语音活动检测VAD判别模型,确定各音频信号帧的帧类型,所述帧类型包括语音帧和非语音帧;
响应于所述音频信号帧的帧类型为语音帧,输出所述语音帧的信噪比;
响应于所述音频信号帧的帧类型为非语音帧,确定所述非语音帧中含噪音段的非语音帧。
5.根据权利要求4所述的方法,其特征在于,所述VAD判别模型的训练过程包括:
获取训练语料数据,其中,所述训练语料数据包括第一音频数据、所述第一音频数据对应的标识、第二音频数据以及所述第二音频数据对应的标识,所述第一音频数据为无噪音的语音数据,所述第二音频数据为在第一音频数据中增加了噪音后得到的音频数据;
根据所述训练语料数据训练所述VAD判别模型。
6.如权利要求1所述的方法,其特征在于,所述信号特征包括线性预测系数特征、梅尔频率倒谱系数特征、线性预测倒谱系数特征以及Fbank特征中的任一项。
7.如权利要求1所述的方法,其特征在于,所述降噪模型的训练过程包括:
技术研发人员:陈昌儒,包英泽,
申请(专利权)人:北京大米科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。