音频信号的处理方法及系统、音频处理芯片、蓝牙设备技术方案

技术编号:26224684 阅读:22 留言:0更新日期:2020-11-04 10:59
本发明专利技术涉及一种音频信号的处理方法及处理系统、音频处理芯片、蓝牙设备、计算机可读介质,处理方法包括步骤:将获取的音频信号帧转换成频域信号,并求能量谱,得到音频能量谱;然后判断音频信号帧是否包含丢包数据,对于未丢包的,将音频能量谱作傅里叶变换,得到第二信号;计算第二信号中低频分量的占比;并根据占比与预估可能性估算音频信号帧中包含有人声的实际可能性;再将实际可能性作为预估可能性,并判断实际可能性是否大于人声可能性阈值;若是,则音频信号帧包含有人声;若否,则音频信号帧不包含有人声;对于丢包的则进行修复。本发明专利技术能够提高人声识别时对复杂环境的抵抗力,降低人声识别方法失效的概率和提高音频信号输出的实时性。

【技术实现步骤摘要】
音频信号的处理方法及系统、音频处理芯片、蓝牙设备
本专利技术涉及通讯
,具体涉及一种音频信号的处理方法及处理系统、音频处理芯片、蓝牙设备、计算机可读介质。
技术介绍
随着通讯技术的发展,常常会在不同设备之间传输音频信号帧,或者直接采集音频信号帧,以作进一步处理。但是,实际传输中,受环境、带宽或者接收设备的能力等原因在传输中常常会带入干扰,造成音频信号发生丢包,对听感带来极大不适。因此,现有技术中,在收到音频信号帧后,首先会判断音频信号帧是否为丢包信号,如果是,则直接要求重新发送该音频信号;如果否,则直接将该音频信号输出。显然,上述这种对音频信号的处理方法,对系统资源的占用太大,尤其是对丢包信号的处理方式,每次遇到丢包信号就要重新发送,在重发过程中必然会占用带宽,增加传输带宽的负担,且影响时效性。
技术实现思路
基于上述现状,本专利技术的主要目的在于提供一种音频信号的处理方法及处理系统、音频处理芯片、电子设备、计算机可读介质,以解决现有音频处理方法尤其是在音频信号为丢包信号时对系统资源占用大的问题。为实现上述目的,本专利技术采用的技术方案如下:本专利技术的第一方面提供了一种音频信号的处理方法,包括步骤:S1:获取音频信号帧,并将所述音频信号帧转换成第一信号,所述第一信号为频域信号,对所述第一信号求能量谱,得到音频能量谱;S2:判断所述音频信号帧是否包含丢包数据;若否,则执行S3;若是,则执行S8;S3:对所述音频能量谱作傅里叶变换,得到第二信号;S4:计算所述第二信号中低频分量在整个频谱内的占比B;并根据所述占比B与预估可能性P1估算所述音频信号帧中包含有人声的实际可能性P2;其中,所述预估可能性P1的初始值为0;S5:将所述实际可能性P2作为预估可能性P1,并判断所述实际可能性是否大于人声可能性阈值;若是,则所述音频信号帧包含有人声,执行S6;若否,则所述音频信号帧不包含有人声,执行S7;S6:根据所述实际可能性和所述音频能量谱更新背景声估计频域能量谱,并将所述第一信号作为预输出信号,然后执行S9;S7:直接使用所述音频能量谱更新背景声估计频域能量谱,并将所述第一信号作为预输出信号,然后执行S9;S8:判断上一音频信号帧是否包含有人声,若是,则对所述第一信号进行修正,得到预输出信号,然后执行S9;若否,使用上一个未包含丢包数据的音频信号帧的背景声估计频域能量谱生成预输出信号,然后执行S9;S9:对所述预输出信号作傅里叶反变换,得到实际输出信号;其中,背景声估计频域能量谱的初始值为0。优选地,所述步骤S4包括:S41:计算所述第二信号中低频分量在整个频谱内的所述占比B;S42:计算所述音频信号帧包含有人声的预估最小可能性M=0.9×min(M,(1-B))+0.1×(1-B);其中,所述预估最小可能性M的初始值为0;S43:计算实际可能性P2=P1×0.7+(1-B-M)×0.5/(1-M)。优选地,所述步骤S5中的人声可能性阈值为0.4~0.7。优选地,所述步骤S6包括:S60:求所述背景声估计频域能量谱Q与所述音频能量谱中的较小者,并用所述较小者更新所述背景声估计频域能量谱Q;S61:再次更新背景声估计频域能量谱Q=(Q×(1-P2)+P2×音频能量谱)×0.6+音频能量谱×0.4;S62:将所述第一信号作为预输出信号,然后执行S9。优选地,所述步骤S7包括:S70:求所述背景声估计频域能量谱Q与所述音频能量谱中的较小者,并用所述较小者更新所述背景声估计频域能量谱Q;S71:再次更新背景声估计频域能量谱Q=(Q×0.09+0.01×音频能量谱);S72:将所述第一信号作为预输出信号,然后执行S9。优选地,所述步骤S1还包括:获取所述音频信号帧中各音频数据包对应的丢包判断信号,其中,所述丢包判断信号为各所述音频数据包的差错标志形成的序列,若所述音频数据包中的数据为丢包数据,则该数据对应的差错标志为0,否则为1;所述步骤S8包括:S81:判断上一音频信号帧是否包含有人声,若是,则执行S82;若否,则执行S83;其中,默认音频信号帧的初始状态为包含有人声;S82:对丢包判断信号进行傅里叶变换,并求能量谱,得到丢包能量谱,选取所述丢包能量谱中主瓣和与其相邻的部分旁瓣生成调制信号;选取所述音频能量谱中能量最大的L个峰值,以每一个能量最大的峰值作为主峰,并选取所述音频能量谱中该主峰左右两侧对称的多个次峰生成调制能量谱,然后通过所述调制信号和各所述调制能量谱生成对应各所述调制能量谱的增益系数,使用多个所述增益系数对所述第一信号进行多次调制修正处理,得到所述修正信号;其中,所述调制能量谱中各峰值的位置使用其所在的所述音频能量谱中的位置,且各所述调制能量谱中次峰的个数为其主峰所在音频能量谱中左侧次峰个数和右侧次峰个数较少的一者,然后执行S9;S83:使用上一个未包含丢包数据的音频信号帧的背景声估计频域能量谱生成所述预输出信号,然后执行S9。优选地,所述步骤S82包括:S821:对丢包判断信号进行傅里叶变换,并求能量谱,得到丢包能量谱;然后选出所述丢包能量谱中主瓣和与其相邻的部分旁瓣,并对其进行归一化处理,且所述主瓣的幅值使用其倒数代替,生成所述调制信号delta;S822:记所述音频能量谱为AMP,选出其幅值最大的五个峰值记为AMP[Ki]i;其中,以每一个AMP[Ki]i作为主峰,并选取所述音频能量谱中该主峰左右两侧的多个次峰生成调制能量谱,AMP[Ki]i表示所述音频能量谱中的第i个峰值,其位于所述音频能量谱中的第Ki个位置;Ki为0、1、2、…、n-1;i为1、2、3、…、5;n为所述调制信号detla的长度;S823:设置i=1;S824:设置j=0,使用delta[j]×AMP[Ki+j]i更新第一信号中的第Ki个位置处的值;其中,delta[j]指调制信号delta第j个位置的值;AMP[Ki+j]i指音频能量谱AMP中第[Ki+j]个位置的值;S825:计算j=j+1;判断rate1=1-delta[j]×AMP[Ki]i/AMP[Ki+j]i是否小于0;若是,则将第一信号中的第[Ki+j]个位置的值设置为0;若否,则将第一信号中的第[Ki+j]个位置的值与rate1相乘,作为第一信号中第[Ki+j]个位置的值;判断rate2=1-delta[j]×AMP[Ki]i/AMP[Ki-j]i是否小于0;若是,则将第一信号中的第[Ki-j]个位置的值设置为0;若否,则将第一信号中的第[Ki-j]个位置的值与rate2相乘,作为第一信号中第[Ki-j]个位置的值;S826:判断j是否小于n,如果小于n,则返回S825;若否,则执行S827;S827:判断i是否小于6,若是,则i=i+1,然后返回S824;若否,则执行S本文档来自技高网...

【技术保护点】
1.一种音频信号的处理方法,其特征在于,包括步骤:/nS1:获取音频信号帧,并将所述音频信号帧转换成第一信号,所述第一信号为频域信号,对所述第一信号求能量谱,得到音频能量谱;/nS2:判断所述音频信号帧是否包含丢包数据;若否,则执行S3;若是,则执行S8;/nS3:对所述音频能量谱作傅里叶变换,得到第二信号;/nS4:计算所述第二信号中低频分量在整个频谱内的占比B;并根据所述占比B与预估可能性P1估算所述音频信号帧中包含有人声的实际可能性P2;其中,所述预估可能性P1的初始值为0;/nS5:将所述实际可能性P2作为预估可能性P1,并判断所述实际可能性是否大于人声可能性阈值;若是,则所述音频信号帧包含有人声,执行S6;若否,则所述音频信号帧不包含有人声,执行S7;/nS6:根据所述实际可能性和所述音频能量谱更新背景声估计频域能量谱,并将所述第一信号作为预输出信号,然后执行S9;/nS7:直接使用所述音频能量谱更新背景声估计频域能量谱,并将所述第一信号作为预输出信号,然后执行S9;/nS8:判断上一音频信号帧是否包含有人声,若是,则对所述第一信号进行修正,得到预输出信号,然后执行S9;若否,使用上一个未包含丢包数据的音频信号帧的背景声估计频域能量谱生成预输出信号,然后执行S9;/nS9:对所述预输出信号作傅里叶反变换,得到实际输出信号;/n其中,背景声估计频域能量谱的初始值为0。/n...

【技术特征摘要】
1.一种音频信号的处理方法,其特征在于,包括步骤:
S1:获取音频信号帧,并将所述音频信号帧转换成第一信号,所述第一信号为频域信号,对所述第一信号求能量谱,得到音频能量谱;
S2:判断所述音频信号帧是否包含丢包数据;若否,则执行S3;若是,则执行S8;
S3:对所述音频能量谱作傅里叶变换,得到第二信号;
S4:计算所述第二信号中低频分量在整个频谱内的占比B;并根据所述占比B与预估可能性P1估算所述音频信号帧中包含有人声的实际可能性P2;其中,所述预估可能性P1的初始值为0;
S5:将所述实际可能性P2作为预估可能性P1,并判断所述实际可能性是否大于人声可能性阈值;若是,则所述音频信号帧包含有人声,执行S6;若否,则所述音频信号帧不包含有人声,执行S7;
S6:根据所述实际可能性和所述音频能量谱更新背景声估计频域能量谱,并将所述第一信号作为预输出信号,然后执行S9;
S7:直接使用所述音频能量谱更新背景声估计频域能量谱,并将所述第一信号作为预输出信号,然后执行S9;
S8:判断上一音频信号帧是否包含有人声,若是,则对所述第一信号进行修正,得到预输出信号,然后执行S9;若否,使用上一个未包含丢包数据的音频信号帧的背景声估计频域能量谱生成预输出信号,然后执行S9;
S9:对所述预输出信号作傅里叶反变换,得到实际输出信号;
其中,背景声估计频域能量谱的初始值为0。


2.根据权利要求1所述的处理方法,其特征在于,所述步骤S4包括:
S41:计算所述第二信号中低频分量在整个频谱内的所述占比B;
S42:计算所述音频信号帧包含有人声的预估最小可能性M=0.9×min(M,(1-B))+0.1×(1-B);其中,所述预估最小可能性M的初始值为0;
S43:计算实际可能性P2=P1×0.7+(1-B-M)×0.5/(1-M)。


3.根据权利要求1所述的处理方法,其特征在于,所述步骤S5中的人声可能性阈值为0.4~0.7。


4.根据权利要求1所述的处理方法,其特征在于,所述步骤S6包括:
S60:求背景声估计频域能量谱Q与所述音频能量谱中的较小者,并用所述较小者更新所述背景声估计频域能量谱Q;
S61:再次更新背景声估计频域能量谱Q=(Q×(1-P2)+P2×音频能量谱)×0.6+音频能量谱×0.4;
S62:将所述第一信号作为预输出信号,然后执行S9。


5.根据权利要求1所述的处理方法,其特征在于,所述步骤S7包括:
S70:求背景声估计频域能量谱Q与所述音频能量谱中的较小者,并用所述较小者更新所述背景声估计频域能量谱Q;
S71:再次更新背景声估计频域能量谱Q=(Q×0.09+0.01×音频能量谱);
S72:将所述第一信号作为预输出信号,然后执行S9。


6.根据权利要求1-5任一项所述的处理方法,其特征在于,所述步骤S1还包括:
获取所述音频信号帧中各音频数据包对应的丢包判断信号,其中,所述丢包判断信号为各所述音频数据包的差错标志形成的序列,若所述音频数据包中的数据为丢包数据,则该数据对应的差错标志为0,否则为1;
所述步骤S8包括:
S81:判断上一音频信号帧是否包含有人声,若是,则执行S82;若否,则执行S83;其中,默认音频信号帧的初始状态为包含有人声;
S82:对丢包判断信号进行傅里叶变换,并求能量谱,得到丢包能量谱,选取所述丢包能量谱中主瓣和与其相邻的部分旁瓣生成调制信号;选取所述音频能量谱中能量最大的L个峰值,以每一个能量最大的峰值作为主峰,并选取所述音频能量谱中该主峰左右两侧对称的多个次峰生成调制能量谱,然后通过所述调制信号和各所述调制能量谱生成对应各所述调制能量谱的增益系数,使用多个所述增益系数对所述第一信号进行多次调制修正处理,得到所述修正信号;其中,所述调制能量谱中各峰值的位置使用其所在的所述音频能量谱中的位置,且各所述调制能量谱中次峰的个数为其主峰所在音频能量谱中左侧次峰个数和右侧次峰个数较少的一者,然后执行S9;
S83:使用上一个未包含丢包数据的音频信号帧的背景声估计频域能量谱生成所述预输出信号,然后执行S9。


7.根据权利要求6所述的处理方法,其特征在于,所述步骤S82包括:
S821:对丢包判断信号进行傅里叶变换,并求能量谱,得到丢包能量谱;然后选出所述丢包能量谱中主瓣和与其相邻的部分旁瓣,并对其进行归一化处理,且所述主瓣的幅值使用其倒数代替,生成所述调制信号delta;
S822:记所述音频能量谱为AMP,选出其幅值最大的五个峰值记为AMP[Ki]i;其中,以每一个AMP[Ki]i作为主峰,并选取所述音频能量谱中该主峰左右两侧的多个次峰生成调制能量谱,AMP[Ki]i表示所述音频能量谱中的第i个峰值,其位于所述音频能量谱中的第Ki个位置;Ki为0、1、2、…、n-1;i为1、2、3、…、5;n为所述调制信号detla的长度;
S823:设置i=1;
S824:设置j=0,使用delta[j]×AMP[Ki+j]i更新第一信...

【专利技术属性】
技术研发人员:方桂萍肖全之
申请(专利权)人:珠海市杰理科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1