一种短时语音信号处理的方法、装置、设备及存储介质制造方法及图纸

技术编号:19242793 阅读:40 留言:0更新日期:2018-10-24 05:26
本发明专利技术实施例公开了一种短时语音信号处理的方法、装置、设备及存储介质。其中,该方法包括:获取近端时域信号,并确定与近端时域信号匹配的远端时域信号以及误差时域信号;确定与近端时域信号匹配的音频采集状态,音频采集状态包括:单讲状态或者双讲状态;根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱;根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号,生成与近端时域信号匹配的输出时域信号。本发明专利技术实施例的技术方案可以在回声场景下,有效抑制语音信号中的残留回声和环境噪声,提高语音信号清晰度。

【技术实现步骤摘要】
一种短时语音信号处理的方法、装置、设备及存储介质
本专利技术实施例涉及音频处理技术,尤其涉及一种短时语音信号处理的方法、装置、设备及存储介质。
技术介绍
随着终端的不断发展,越来越多的终端具备音频输入与音频输出的功能,并由于输出音频再次被音频输入设备拾取,形成回声。例如,具有扬声器和麦克风的智能设备。回声信号的存在会对音频信号的质量造成影响。现有技术中,对终端的回声的处理一般是采用自适应滤波器构造回声消除器,来对回声进行消除。从麦克风拾取的近端音频信号中减去自适应滤波器输出估计回声信号,其相减结果称之为误差信号。理想情况下认为误差信号是使用者的有效语音信号。现有技术存在以下缺陷:在终端同时使用音频输入与音频输出功能的情况下,例如,智能设备的扬声器和麦克风同时工作时,经过预处理的声音信号中的回声信号消除不干净,仍包含残留回声和环境噪声。在终端的短时语音信号处理系统中,短时的语音信号中的残留回声和环境噪声会降低语音信号清晰度,会对系统的正常工作造成影响。例如,在语音短消息应用场景中,残留回声和环境噪声会影响语音质量;对于小词量的语音识别系统,残留回声和环境噪声会影响识别率。
技术实现思路
本专利技术提供一种短时语音信号处理的方法、装置、设备及存储介质,以实现在回声场景下,有效抑制语音信号中的残留回声和环境噪声,提高语音信号清晰度。第一方面,本专利技术实施例提供了一种短时语音信号处理的方法,包括:获取近端时域信号,并确定与近端时域信号匹配的远端时域信号以及误差时域信号;根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号,确定与近端时域信号匹配的音频采集状态,音频采集状态包括:单讲状态或者双讲状态;根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱;根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号,生成与近端时域信号匹配的输出时域信号。第二方面,本专利技术实施例还提供了一种短时语音信号处理的装置,包括:信号获取模块,用于获取近端时域信号,并确定与近端时域信号匹配的远端时域信号以及误差时域信号;状态确定模块,用于根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号,确定与近端时域信号匹配的音频采集状态,音频采集状态包括:单讲状态或者双讲状态;幅度谱确定模块,用于根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱;信号生成模块,用于根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号,生成与近端时域信号匹配的输出时域信号。第三方面,本专利技术实施例还提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被所述一个或多个处理器执行,使得一个或多个处理器实现本专利技术实施例所提供的短时语音信号处理的方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本专利技术实施例所提供的短时语音信号处理的方法。本专利技术实施例的技术方案,通过根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱,并根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号,生成与近端时域信号匹配的输出时域信号,增加了对可以在回声场景下有效抑制语音信号中的残留回声和环境噪声,提高语音信号清晰度。附图说明图1为本专利技术实施例一提供的一种短时语音信号处理的方法的流程图;图2为本专利技术实施例二提供的一种短时语音信号处理的方法的流程图;图3为本专利技术实施例三提供的一种短时语音信号处理的方法的流程图;图4为本专利技术实施例四提供的一种短时语音信号处理的装置的结构框图;图5为本专利技术实施例五提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种短时语音信号处理的方法的流程图,本实施例可适用于对语音信号进行处理的情况,该方法可以由语音信号处理的装置来执行,所述装置由软件和/或硬件来执行,并一般可集成在语音信号处理的设备中。语音信号处理的设备包括但不限定于计算机等。示例性的,语音信号处理的设备包括具有扬声器-麦克风回路的终端设备,可以是智能手机、智能手环等音频采集设备、智能音箱或者智能电视等。尤其是针对语音信号处理的设备的短时语音信号处理系统,该方法可以有效抑制短时语音信号中的残留回声和环境噪声,提高短时语音信号清晰度,保证系统的正常工作。例如,在语音短消息应用场景中,该方法可以有效抑制短时语音信号中的残留回声和环境噪声,残留回声和环境噪声会影响语音质量。针对语音信号处理的设备的小词量的语音识别系统,该方法可以有效抑制短时语音信号中的残留回声和环境噪声,提高短时语音信号清晰度,提高识别率。如图1所示,其具体包括如下步骤:步骤101、获取近端时域信号,并确定与近端时域信号匹配的远端时域信号以及误差时域信号。其中,远端时域信号指的是语音信号处理的设备的信号接收模块接收的,用于播放的音频信号。近端时域信号指的是语音信号处理的设备的信号采集模块采集的音频信号。可选的,近端时域信号可以包括用户的近端语音信号、环境噪声信号以及终端播放远端信号时被再次采集的回声信号。获取信号采集模块采集的近端时域信号,并确定在信号采集模块采集近端时域信号的同时,接收模块接收并播放的音频信号,即与近端时域信号匹配的远端时域信号。误差时域信号与远端时域信号和近端时域信号相关。根据近端时域信号和远端时域信号确定与近端时域信号匹配的误差时域信号。可选的,基于自适应滤波器对远端时域信号进行滤波处理,得到时域估计回声信号,将近端时域信号与时域估计回声信号的差值确定为误差时域信号。可选的,误差时域信号可以包含残留回声信号、用户的近端语音信号以及环境噪声信号。对于语音识别系统来说,只有用户的近端语音信号是有效的,残留回声信号和环境噪声信号都是干扰信息,需要对误差时域信号进行后处理,尽可能地保留用户的近端语音信号,抑制残留回声信号和环境噪声信号。步骤102、根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号,确定与近端时域信号匹配的音频采集状态,音频采集状态包括:单讲状态或者双讲状态。其中,将近端时域信号、远端时域信号以及误差时域信号在时域上分成帧的形式。可以通过对每一帧近端时域信号、远端时域信号以及误差时域信号进行傅里叶变换得到对应的频域信号,即近端频域信号、远端频域信号和误差频域信号。对当前帧的近端时域信号、远端时域信号以及误差时域信号进行傅里叶变换得到对应的频域信号,即当前帧的近端频域信号、远端频域信号和误差频域信号。获取当前帧的近端频域信号、远端频域信号和误差频域信号之后,根据近端频域信号、远端频域信号和误差频域信号确定近端频域信号与误差频域信号的第一相干系数和远端频域信号与误差频域信号的第二相干系数。然后,根据第一相干系数与第二相干系数确定当前帧的相干性差值和差值跟踪值,其中,当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值本文档来自技高网...

【技术保护点】
1.一种短时语音信号处理的方法,其特征在于,包括:获取近端时域信号,并确定与所述近端时域信号匹配的远端时域信号以及误差时域信号;根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号,确定与所述近端时域信号匹配的音频采集状态,所述音频采集状态包括:单讲状态或者双讲状态;根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱;根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号,生成与所述近端时域信号匹配的输出时域信号。

【技术特征摘要】
1.一种短时语音信号处理的方法,其特征在于,包括:获取近端时域信号,并确定与所述近端时域信号匹配的远端时域信号以及误差时域信号;根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号,确定与所述近端时域信号匹配的音频采集状态,所述音频采集状态包括:单讲状态或者双讲状态;根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱;根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号,生成与所述近端时域信号匹配的输出时域信号。2.根据权利要求1所述的方法,其特征在于,根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号,确定与所述近端时域信号匹配的音频采集状态,所述音频采集状态包括:单讲状态或者双讲状态,包括:获取当前帧的近端频域信号、远端频域信号和误差频域信号,其中,所述近端频域信号、所述远端频域信号和所述误差频域信号为与所述近端时域信号、所述远端时域语音信号以及所述误差时域信号分别对应的频域信号;根据所述近端频域信号、所述远端频域信号和所述误差频域信号确定所述近端频域信号与所述误差频域信号的第一相干系数和所述远端频域信号与所述误差频域信号的第二相干系数;根据所述第一相干系数与所述第二相干系数确定当前帧的相干性差值和差值跟踪值,其中,当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值确定;根据当前帧的所述相干性差值与所述差值跟踪值确定双讲概率;若所述双讲概率大于概率判决阈值,则确定所述当前帧的音频采集状态为双讲状态;若所述双讲概率小于等于所述概率判决阈值,则确定所述当前帧的音频采集状态为单讲状态。3.根据权利要求1所述的方法,其特征在于,根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱,包括:根据所述误差时域信号和所述音频采集状态确定所述误差时域信号的噪声阈值,其中,所述噪声包括残留回声和环境噪声;根据所述误差时域信号、所述远端时域信号、所述音频采集状态以及所述噪声阈值确定所述残留回声幅度谱;根据所述误差时域信号、所述音频采集状态以及所述噪声阈值确定所述环境噪声幅度谱。4.根据权利要求1所述的方法,其特征在于,根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号,生成与所述近端时域信号匹配的输出时域信号,包括:对所述误差时域信号进行短时傅里叶变换,得到误差频域信号;根据以下公式,计算与所述近端时域信号匹配的输出频域信号:S(f,i)=E(f,i)-N(f,i)-Y(f,i),其中,S(f,i)为所述输出频域信号,E(f,i)为所述误差频域信号,N(f,i)为所述环境噪声幅度谱,Y(f,i)为所述残留回声幅度谱;对所述输出频域信号进行短时傅里叶逆变换,得到输出时域信...

【专利技术属性】
技术研发人员:陈超邓滨宋晨枫
申请(专利权)人:北京小鱼在家科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1