语音处理方法和终端技术

技术编号:20972388 阅读:36 留言:0更新日期:2019-04-29 17:47
本申请提供了一种语音处理方法和终端,该方法应用于终端,能够识别出耳语信号。该方法包括:从多个麦克风接收信号,多个麦克风包括主麦克风和M个辅麦克风;采用相同的采样率对从多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对多路时域数字信号分别进行频域转换,得到多路频域信号,多路频域信号包括一路主频域信号和M路辅频域信号,主频域信号与主麦克风对应,M路辅频域信号与M个辅麦克风一一对应;根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差以及主频域信号的频率分布特征中的至少一项,确定主频域信号的信号类型。

Speech Processing Method and Terminal

The application provides a voice processing method and a terminal, which is applied to the terminal and can recognize whispering signals. The method includes: receiving signals from multiple microphones, including main microphones and auxiliary microphones; converting multi-channel signals received from multiple microphones by analog-to-digital conversion at the same sampling rate to obtain multi-channel digital signals in time domain; converting multi-channel digital signals in frequency domain to obtain multi-channel signal in frequency domain, and multi-channel signal in frequency domain includes one main signal. Frequency domain signal and M-channel auxiliary frequency domain signal, the main frequency domain signal corresponds to the main microphone, and M-channel auxiliary frequency domain signal corresponds to M-channel auxiliary microphone one by one. According to the main frequency domain signal and the N-channel auxiliary frequency domain signal in M-channel auxiliary frequency domain, the sound pressure difference of each auxiliary frequency domain signal, the phase difference between the main frequency domain signal and the N-channel auxiliary frequency domain signal, and the frequency division of the main frequency domain signal. At least one of the distribution features determines the signal type of the main frequency domain signal.

【技术实现步骤摘要】
语音处理方法和终端
本申请涉及语音处理领域,并且更具体地,涉及一种语音处理方法和终端。
技术介绍
手机已经成为当今最主要的通话设备,手机通话中手持方式是应用最广的通话方式。在某些特定场合中,通话人旁边可能有其他人存在,通话人不方便大声讲话,为了避免打扰其他人,往往刻意压低说话音量,甚至使用耳语(即通常说的悄悄话)方式讲话。在通话时,一般都存在各种干扰音源,比如回声、混响及环境噪声,语音增强技术需要分离目标语音和干扰声,因此需要检测出目标语音段。然而,耳语讲话时人的声带不震动,语音特征和普通语音差别很大,当前的语音检测方式都是针对带谐波的浊音,无法区分耳语语音和干扰声。因此,如何检测出耳语语音或耳语信号成为一个亟需解决的问题。
技术实现思路
本申请提供一种语音处理方法和终端,能够在不增加设备成本的前提下,识别出耳语信号,有利于增强耳语通话用户体验。第一方面,提供了一种语音处理方法,该方法可以应用于终端。该方法包括:从多个麦克风接收信号,该多个麦克风包括主麦克风和M个辅麦克风,M≥1,且M为整数;采用相同的采样率对从该多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对多路时域数字信号分别进行频域转换,得到多路频域信号,该多路频域信号包括一路主频域信号和M路辅频域信号,该主频域信号与所述主麦克风对应,M路辅频域信号与所述M个辅麦克风一一对应;根据主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项,确定主频域信号的信号类型,1≤N≤M,且N为整数。可选地,信号类型包括耳语信号。耳语信号也可以称为耳语语音。确定主频域信号的信号类型,即确定主频域信号,或者说从主麦克风接收到的信号是否为耳语信号。可选地,在N路辅频域信号为M路辅频域信号中的部分时,N路辅频域信号的选取可以按照以下原则进行:选取M路辅频域信号中能量最大的N路信号作为该N路辅频域信号;或者选择M路辅频域信号中所对应的辅麦克风距离主麦克风最近的N路信号作为该N路辅频域信号;或者从M路辅频域信号中随机选择N路信号作为该N路辅频域信号。应理解,本申请并不限定如何从M路辅频域信号中选取所述N路辅频域信号。因此,本申请实施例的语音处理方法,根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差以及主频域信号的频率分布特征中的至少一项,可以确定主频域信号的是否为耳语信号。因本申请实施例的方法不依赖于传感器信息,因此在不增加设备成本的情况下,能够识别耳语信号,进而能够为后续的语音处理提供基础,有利于增强耳语通话用户体验。在一种可能的实现方式中,信号的类型包括耳语信号。以及,根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差和主频域信号的频率分布特征中的至少一项,确定主频域信号的信号类型,包括:当满足下述条件中的至少一项时,确定主频域信号为耳语信号:主频域信号与N路辅频域信号中的每路辅频域信号的声压差均大于或等于对应的第一阈值且小于对应的第二阈值,其中,N路辅频域信号中的每路辅频域信号均对应一个第一阈值和一个第二阈值;主频域信号与N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第三阈值时且小于对应的第四阈值,其中,N路辅频域信号中的每路辅频域信号均对应一个第三阈值和一个第四阈值;主频域信号满足下述条件:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值中的至少一项,其中,主频域信号所包括的至少三个子带与预定义的耳语信号所包括的至少三个子带一一对应,且主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,每个子带的归一化能量为该子带的能量与至少三个子带的总能量之比,子带的能量为该子带内各频点能量之和。因此,通过确定主频域信号是否满足上述条件中的其中一项或多项,可确定主频域信号是否为耳语信号。可选地,主频域信号与某一路辅频域信号的声压差可以采用主频域信号与该路辅频域信号的幅度的差值,或者主频域信号与该路辅频域信号的幅度比值来表示。可选地,主频域信号与某一路辅频域信号的相位差可以采用主频域信号与该路辅频域信号的相位的差值,或者主频域信号与该路辅频域信号的相位的比值来表示。可选地,主频域信号的频率分布特征可以通过主频域信号是否有基频、谐波次数、各子带的归一化能量表征。应理解,上述所描述第一阈值,第二阈值,第三阈值和第四阈值,可以根据对应的麦克风的位置确定。但本申请并不限定上述各阈值的具体确定方式。在一种可能的实现方式中,信号的类型包括耳语信号。以及,根据主频域信号与M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、主频域信号与N路辅频域信号中的每路辅频域信号的相位差和主频域信号的频率分布特征中的至少一项,确定主频域信号的信号类型,包括:当满足下述条件时,确定主频域信号为耳语信号:主频域信号与N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值,其中,N路辅频域信号中的每路辅频域信号均对应一个第七阈值;主频域信号与N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第八阈值,其中,N路辅频域信号中的每路辅频域信号均对应一个第八阈值;主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值,其中,主频域信号所包括的至少三个子带与预定义的耳语信号所包括的至少三个子带一一对应,且主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,每个子带的归一化能量为该子带的能量与至少三个子带的总能量之比,子带的能量为该子带内各频点能量之和。因此,通过确定主频域信号是否满足上述条件中的其中一项或多项,可确定主频域信号是否为耳语信号。应理解,上述所描述第七阈值和第八阈值,可以根据对应的麦克风的位置确定。但本申请并不限定第七阈值和第八阈值的具体确定方式。在一种可能的实现方式中,在确定主频域信号为耳语信号的情况下,该方法还可以包括:对主频域信号进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理;对估计出的噪声进行降噪处理。在一种可能的实现方式中,对主频域信号进行背景人声噪声估计,包括:采用波束宽度为第一宽度的自适应波束形成器对主频域信号进行背景人声噪声估计,第一宽度小于预设波束宽度。其中,预设波束宽度为对普通语音(或,普通语音信号)进行背景人声噪声估计时的适应波束形成器的波束宽度。第一宽度可以自适应调整,也可以是预定义的,本申请实施对此不作限定。适应波束形成器可以采用最小方差无失真响应(MinimumVarianceDistortionlessResponse,MVDR),也可以采用其他方法,本申请实本文档来自技高网...

【技术保护点】
1.一种语音处理方法,其特征在于,所述方法应用于终端,包括:从多个麦克风接收信号,所述多个麦克风包括主麦克风和M个辅麦克风,M≥1,且M为整数;采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对所述多路时域数字信号分别进行频域转换,得到多路频域信号,所述多路频域信号包括一路主频域信号和M路辅频域信号,所述主频域信号与所述主麦克风对应,所述M路辅频域信号与所述M个辅麦克风一一对应;根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项,确定所述主频域信号的信号类型,1≤N≤M,且N为整数。

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法应用于终端,包括:从多个麦克风接收信号,所述多个麦克风包括主麦克风和M个辅麦克风,M≥1,且M为整数;采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对所述多路时域数字信号分别进行频域转换,得到多路频域信号,所述多路频域信号包括一路主频域信号和M路辅频域信号,所述主频域信号与所述主麦克风对应,所述M路辅频域信号与所述M个辅麦克风一一对应;根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差以及所述主频域信号的频率分布特征中的至少一项,确定所述主频域信号的信号类型,1≤N≤M,且N为整数。2.如权利要求1所述的方法,其特征在于,所述信号的类型包括耳语信号;以及,所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差和所述主频域信号的频率分布特征中的至少一项,确定所述主频域信号的信号类型,包括:当满足下述条件中的至少一项时,确定所述主频域信号为耳语信号:所述主频域信号与所述N路辅频域信号中的每路辅频域信号的声压差均大于或等于对应的第一阈值且小于对应的第二阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第一阈值和一个第二阈值;所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第三阈值时且小于对应的第四阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第三阈值和一个第四阈值;所述主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值,其中,所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应,且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比,所述子带的能量为该子带内各频点能量之和。3.如权利要求1所述的方法,其特征在于,所述信号的类型包括耳语信号;以及,所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差、所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差和所述主频域信号的频率分布特征中的至少一项,确定所述主频域信号的信号类型,包括:当满足下述条件时,确定所述主频域信号为耳语信号:所述主频域信号与所述N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第七阈值;所述主频域信号与所述N路辅频域信号中的每路辅频域信号的相位差均大于或等于对应的第八阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第八阈值;所述主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值,其中,所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应,且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比,所述子带的能量为该子带内各频点能量之和。4.如权利要求2或3所述的方法,其特征在于,在确定所述主频域信号为耳语信号的情况下,所述方法还包括:对所述主频域信号进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理;对估计出的噪声进行降噪处理。5.如权利要求4所述的方法,其特征在于,所述对所述主频域信号进行背景人声噪声估计,包括:采用波束宽度为第一宽度的自适应波束形成器对所述主频域信号进行背景人声噪声估计,所述第一宽度小于预设波束宽度。6.如权利要求5所述的方法,其特征在于,所述对所述主频域信号进行突发噪声估计,包括:采用时窗长度小于预设长度的第一时窗统计所述第一时窗内的主频域信号的变化速度;当所述信号的变化速度大于预设速度阈值时,确定所述第一时窗内的主频域信号的每个子带的归一化能量是否均大于或等于对应的第九阈值,以及所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减,其中,所述第一时窗内的主频域信号包括至少一个子带,所述每个子带的归一化能量为该子带的能量与所述至少一个子带的总能量之比,所述子带的能量为该子带内各频点能量之和;当所述第一时窗内的主频域信号的每个子带的归一化能量大于或等于对应的第九阈值,且所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减,将所述第一时窗内的信号确定为突发噪声。7.如权利要求5或6所述的方法,其特征在于,所述方法还包括:对所述降噪后的信号进行增益控制,得到增益调整后的信号。8.如权利要求7所述的方法,其特征在于,在对所述降噪后的信号进行增益控制时,满足如下条件中的至少一项:增益下限为目标下限、增益上限为目标上限、所述降噪后的信号的最大电平值为目标电平值、增益平滑速度为目标速度;其中,所述目标下限大于预设下限,所述目标上限小于预设上限,所述目标电平值小于预设电平值,所述目标速度小于预设速度。9.如权利要求7或8所述的方法,其特征在于,所述方法还包括:对所述增益调整后的信号进行频响控制,得到频响调整后的信号。10.如权利要求9所述的方法,其特征在于,对所述增益调整后的信号进行频响控制,包括:采用第一目标频响对所述增益控制后的信号的第一频带进行频响控制,采用第二目标频响对所述增益控制后的信号的第二频带进行频响控制,采用第三目标频响对所述增益控制后的信号的第三频带进行频响控制,其中,所述第一目标频响大于或等于第一预设频响,所述第二目标频响大于第二预设频响,所述第三目标频响小于第三预设频响,所述第一频带的最小频率大于或等于所述第二频带的最大频率且小于或等于所述第三频带的最小频率。11.一种语音处理方法,其特征在于,所述方法应用于终端,包括:从多个麦克风接收信号,所述多个麦克风包括主麦克风和M个辅麦克风,M≥1,且M为整数;采用相同的采样率对从所述多个麦克风接收到的多路信号分别进行模数转换,得到多路时域数字信号;对所述多路时域数字信号分别进行频域转换,得到多路频域信号,所述多路频域信号包括一路主频域信号和M路辅频域信号,所述主频域信号与所述主麦克风对应,所述M路辅频域信号与所述M个辅麦克风一一对应;根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差,以及所述主频域信号的频率分布特征,确定所述主频域信号的信号类型,1≤N≤M,且N为整数。12.如权利要求11所述的方法,其特征在于,所述信号的类型包括耳语信号;以及,所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差,以及所述主频域信号的频率分布特征,确定所述主频域信号的信号类型,包括:当所述主频域信号与所述N路辅频域信号中的每路辅频域信号的声压差均大于或等于对应的第一阈值且小于对应的第二阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第一阈值和一个第二阈值;且所述主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值时,确定所述主频域信号为耳语信号;其中,所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应,且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比,所述子带的能量为该子带内各频点能量之和。13.如权利要求11所述的方法,其特征在于,所述信号的类型包括耳语信号;以及,所述根据所述主频域信号与所述M路辅频域信号中的N路辅频域信号中的每路辅频域信号的声压差,以及所述主频域信号的频率分布特征,确定所述主频域信号的信号类型,包括:当所述主频域信号与所述N路辅频域信号中的每路辅频域信号声压差均大于或等于对应的第七阈值,其中,所述N路辅频域信号中的每路辅频域信号均对应一个第七阈值;且所述主频域信号满足下述条件中的至少一项:无基频、谐波次数小于或等于第五阈值、子带的能量最大的子带属于第一频带且所述主频域信号所包括的至少三个子带中每个子带的归一化能量与预定义的耳语信号所包括的至少三个子带中对应的子带的归一化能量之差小于对应的第六阈值时,确定所述主频域信号为耳语信号;其中,所述主频域信号所包括的至少三个子带与所述预定义的耳语信号所包括的至少三个子带一一对应,且所述主频域信号所包括的至少三个子带中的每个子带均对应一个第六阈值,所述每个子带的归一化能量为该子带的能量与所述至少三个子带的总能量之比,所述子带的能量为该子带内各频点能量之和。14.如权利要求12或13所述的方法,其特征在于,在确定所述主频域信号为耳语信号的情况下,所述方法还包括:对所述主频域信号进行平稳噪声估计、背景人声噪声估计和突发噪声估计中的至少一种处理;对估计出的噪声进行降噪处理。15.如权利要求14所述的方法,其特征在于,所述对所述主频域信号进行背景人声噪声估计,包括:采用波束宽度为第一宽度的自适应波束形成器对所述主频域信号进行背景人声噪声估计,所述第一宽度小于预设波束宽度。16.如权利要求15所述的方法,其特征在于,所述对所述主频域信号进行突发噪声估计,包括:采用时窗长度小于预设长度的第一时窗统计所述第一时窗内的主频域信号的变化速度;当所述信号的变化速度大于预设速度阈值时,确定所述第一时窗内的主频域信号的每个子带的归一化能量是否均大于或等于对应的第九阈值以及所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减,其中,所述第一时窗内的主频域信号包括至少一个子带,所述每个子带的归一化能量为该子带的能量与所述至少一个子带的总能量之比,所述子带的能量为该子带内各频点能量之和;当所述第一时窗内的主频域信号的每个子带的归一化能量大于或等于对应的第九阈值,且所述第一时窗内的主频域信号的每个子带的归一化能量是否按照频率由低到高的顺序递减,将所述第一时窗内的信号确定为突发噪声。17.如权利要求15或16所述的方法,其特征在于,所述方法还包括:对所述降噪后的信号进行增益控制,得到增益调整后的信号。18.如权利要求17所述的方法,其特征在于,在对所述降噪后的信号进行增益控制时,满足如下条件中的至少一种:增益下限为目标下限、增益上限为目标上限、所述降噪后的信号的最大电平值为目标电平值、增益平滑速度为目标速度;其中,所述目标下限大于预设下限,所述目标上限小于预设上限,所述目标电平值小于预设电平值,所述目标速度小于预设速度。19.如权利要求17或18所述的方法,其特征在于,所述方法还包括:对所述增益调整后的信号进行频响控制,得到频响调整后的信号。20.如权利要求19所述的方法,其特征在于,对所述增益调整后的信号进行频响控制,包括:采用第一目标频响对所述增益控制后的信号的第一频带进行频响控制,采用第二目标频响对所述增益控制后的...

【专利技术属性】
技术研发人员:杜艳斌朱志海廖猛郑伟军陈伟宾鲍光照仇存收
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1