The application provides a voice processing method and a terminal, which is applied to the terminal and can recognize whispering signals. The method includes: receiving signals from multiple microphones, including main microphones and auxiliary microphones; converting multi-channel signals received from multiple microphones by analog-to-digital conversion at the same sampling rate to obtain multi-channel digital signals in time domain; converting multi-channel digital signals in frequency domain to obtain multi-channel signal in frequency domain, and multi-channel signal in frequency domain includes one main signal. Frequency domain signal and M-channel auxiliary frequency domain signal, the main frequency domain signal corresponds to the main microphone, and M-channel auxiliary frequency domain signal corresponds to M-channel auxiliary microphone one by one. According to the main frequency domain signal and the N-channel auxiliary frequency domain signal in M-channel auxiliary frequency domain, the sound pressure difference of each auxiliary frequency domain signal, the phase difference between the main frequency domain signal and the N-channel auxiliary frequency domain signal, and the frequency division of the main frequency domain signal. At least one of the distribution features determines the signal type of the main frequency domain signal.
【技术实现步骤摘要】
语音处理方法和终端
本申请涉及语音处理领域,并且更具体地,涉及一种语音处理方法和终端。
技术介绍
手机已经成为当今最主要的通话设备,手机通话中手持方式是应用最广的通话方式。在某些特定场合中,通话人旁边可能有其他人存在,通话人不方便大声讲话,为了避免打扰其他人,往往刻意压低说话音量,甚至使用耳语(即通常说的悄悄话)方式讲话。在通话时,一般都存在各种干扰音源,比如回声、混响及环境噪声,语音增强技术需要分离目标语音和干扰声,因此需要检测出目标语音段。然而,耳语讲话时人的声带不震动,语音特征和普通语音差别很大,当前的语音检测方式都是针对带谐波的浊音,无法区分耳语语音和干扰声。因此,如何检测出耳语语音或耳语信号成为一个亟需解决的问题。
技术实现思路
本申请提供一种语音处理方法和终端,能够在不增加设备成本的前提下,识别出耳语信号,有利于增强耳语通话用户体验。第一方面,提供了一种语音处理方法,该方法可以应用于终端。该方法包括:从多个麦克风接收信号,该多个麦克风包括主麦克风和M个辅麦克风,M≥1,且M为整数;采用相同的采样率对从该多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对多路时域数字信号分别进行频域转换,得到多路频域信号,该多路频域信号包括一路主频域信号和M路辅频域信号,该主频域信号与所述主麦克风对应,M路辅频域信号与所述M个辅麦克风一一对应;根据主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项,确定主频域信号的信号类型,1 ...
【技术保护点】
1.一种语音处理方法,其特征在于,所述方法应用于终端,包括:从多个麦克风接收信号,所述多个麦克风包括主麦克风和M个辅麦克风,M≥1,且M为整数;采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对所述多路时域数字信号分别进行频域转换,得到多路频域信号,所述多路频域信号包括一路主频域信号和M路辅频域信号,所述主频域信号与所述主麦克风对应,所述M路辅频域信号与所述M个辅麦克风一一对应;根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项,确定所述主频域信号的信号类型,1≤N≤M,且N为整数。
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法应用于终端,包括:从多个麦克风接收信号,所述多个麦克风包括主麦克风和M个辅麦克风,M≥1,且M为整数;采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对所述多路时域数字信号分别进行频域转换,得到多路频域信号,所述多路频域信号包括一路主频域信号和M路辅频域信号,所述主频域信号与所述主麦克风对应,所述M路辅频域信号与所述M个辅麦克风一一对应;根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项,确定所述主频域信号的信号类型,1≤N≤M,且N为整数。2.如权利要求1所述的方法,其特征在于,所述信号的类型包括耳语信号;以及,所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差和所述主频域信号的频率分布特征中的至少一项,确定所述主频域信号的信号类型,包括:当满足下述条件中的至少一项时,确定所述主频域信号为耳语信号:所述主频域信号与所述N路辅频域信号中的每路辅频域信号的声压差均大于或等于对应的第一阈值且小于对应的第二阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第一阈值和一个第二阈值;所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第三阈值时且小于对应的第四阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第三阈值和一个第四阈值;所述主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值,其中,所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应,且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比,所述子带的能量为该子带内各频点能量之和。3.如权利要求1所述的方法,其特征在于,所述信号的类型包括耳语信号;以及,所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差和所述主频域信号的频率分布特征中的至少一项,确定所述主频域信号的信号类型,包括:当满足下述条件时,确定所述主频域信号为耳语信号:所述主频域信号与所述N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第七阈值;所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第八阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第八阈值;所述主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值,其中,所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应,且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比,所述子带的能量为该子带内各频点能量之和。4.如权利要求2或3所述的方法,其特征在于,在确定所述主频域信号为耳语信号的情况下,所述方法还包括:对所述主频域信号进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理;对估计出的噪声进行降噪处理。5.如权利要求4所述的方法,其特征在于,所述对所述主频域信号进行背景人声噪声估计,包括:采用波束宽度为第一宽度的自适应波束形成器对所述主频域信号进行背景人声噪声估计,所述第一宽度小于预设波束宽度。6.如权利要求5所述的方法,其特征在于,所述对所述主频域信号进行突发噪声估计,包括:采用时窗长度小于预设长度的第一时窗统计所述第一时窗内的主频域信号的变化速度;当所述信号的变化速度大于预设速度阈值时,确定所述第一时窗内的主频域信号的每个子带的归一化能量是否均大于或等于对应的第九阈值,以及所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减,其中,所述第一时窗内的主频域信号包括至少一个子带,所述每个子带的归一化能量为该子带的能量与所述至少一个子带的总能量之比,所述子带的能量为该子带内各频点能量之和;当所述第一时窗内的主频域信号的每个子带的归一化能量大于或等于对应的第九阈值,且所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减,将所述第一时窗内的信号确定为突发噪声。7.如权利要求5或6所述的方法,其特征在于,所述方法还包括:对所述降噪后的信号进行增益控制,得到增益调整后的信号。8.如权利要求7所述的方法,其特征在于,在对所述降噪后的信号进行增益控制时,满足如下条件中的至少一项:增益下限为目标下限、增益上限为目标上限、所述降噪后的信号的最大电平值为目标电平值、增益平滑速度为目标速度;其中,所述目标下限大于预设下限,所述目标上限小于预设上限,所述目标电平值小于预设电平值,所述目标速度小于预设速度。9.如权利要求7或8所述的方法,其特征在于,所述方法还包括:对所述增益调整后的信号进行频响控制,得到频响调整后的信号。10.如权利要求9所述的方法,其特征在于,对所述增益调整后的信号进行频响控制,包括:采用第一目标频响对所述增益控制后的信号的第一频带进行频响控制,采用第二目标频响对所述增益控制后的信号的第二频带进行频响控制,采用第三目标频响对所述增益控制后的信号的第三频带进行频响控制,其中,所述第一目标频响大于或等于第一预设频响,所述第二目标频响大于第二预设频响,所述第三目标频响小于第三预设频响,所述第一频带的最小频率大于或等于所述第二频带的最大频率且小于或等于所述第三频带的最小频率。11.一种语音处理方法,其特征在于,所述方法应用于终端,包括:从多个麦克风接收信号,所述多个麦克风包括主麦克风和M个辅麦克风,M≥1,且M为整数;采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对所述多路时域数字信号分别进行频域转换,得到多路频域信号,所述多路频域信号包括一路主频域信号和M路辅频域信号,所述主频域信号与所述主麦克风对应,所述M路辅频域信号与所述M个辅麦克风一一对应;根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差,以及所述主频域信号的频率分布特征,确定所述主频域信号的信号类型,1≤N≤M,且N为整数。12.如权利要求11所述的方法,其特征在于,所述信号的类型包括耳语信号;以及,所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差,以及所述主频域信号的频率分布特征,确定所述主频域信号的信号类型,包括:当所述主频域信号与所述N路辅频域信号中的每路辅频域信号的声压差均大于或等于对应的第一阈值且小于对应的第二阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第一阈值和一个第二阈值;且所述主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值时,确定所述主频域信号为耳语信号;其中,所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应,且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比,所述子带的能量为该子带内各频点能量之和。13.如权利要求11所述的方法,其特征在于,所述信号的类型包括耳语信号;以及,所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差,以及所述主频域信号的频率分布特征,确定所述主频域信号的信号类型,包括:当所述主频域信号与所述N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第七阈值;且所述主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值时,确定所述主频域信号为耳语信号;其中,所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应,且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比,所述子带的能量为该子带内各频点能量之和。14.如权利要求12或13所述的方法,其特征在于,在确定所述主频域信号为耳语信号的情况下,所述方法还包括:对所述主频域信号进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理;对估计出的噪声进行降噪处理。15.如权利要求14所述的方法,其特征在于,所述对所述主频域信号进行背景人声噪声估计,包括:采用波束宽度为第一宽度的自适应波束形成器对所述主频域信号进行背景人声噪声估计,所述第一宽度小于预设波束宽度。16.如权利要求15所述的方法,其特征在于,所述对所述主频域信号进行突发噪声估计,包括:采用时窗长度小于预设长度的第一时窗统计所述第一时窗内的主频域信号的变化速度;当所述信号的变化速度大于预设速度阈值时,确定所述第一时窗内的主频域信号的每个子带的归一化能量是否均大于或等于对应的第九阈值以及所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减,其中,所述第一时窗内的主频域信号包括至少一个子带,所述每个子带的归一化能量为该子带的能量与所述至少一个子带的总能量之比,所述子带的能量为该子带内各频点能量之和;当所述第一时窗内的主频域信号的每个子带的归一化能量大于或等于对应的第九阈值,且所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减,将所述第一时窗内的信号确定为突发噪声。17.如权利要求15或16所述的方法,其特征在于,所述方法还包括:对所述降噪后的信号进行增益控制,得到增益调整后的信号。18.如权利要求17所述的方法,其特征在于,在对所述降噪后的信号进行增益控制时,满足如下条件中的至少一种:增益下限为目标下限、增益上限为目标上限、所述降噪后的信号的最大电平值为目标电平值、增益平滑速度为目标速度;其中,所述目标下限大于预设下限,所述目标上限小于预设上限,所述目标电平值小于预设电平值,所述目标速度小于预设速度。19.如权利要求17或18所述的方法,其特征在于,所述方法还包括:对所述增益调整后的信号进行频响控制,得到频响调整后的信号。20.如权利要求19所述的方法,其特征在于,对所述增益调整后的信号进行频响控制,包括:采用第一目标频响对所述增益控制后的信号的第一频带进行频响控制,采用第二目标频响对所述增益控制后的...
【专利技术属性】
技术研发人员:杜艳斌,朱志海,廖猛,郑伟军,陈伟宾,鲍光照,仇存收,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。