一种改进的非线性自适应语音端点检测方法技术

技术编号:15692531 阅读:110 留言:0更新日期:2017-06-24 06:38
本发明专利技术提供了一种改进的非线性自适应语音端点检测方法,所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步,之后通过Legendre非线性滤波器把输入信号拓展为高维度函数,再通过回声消除NLMS算法进行降噪处理,所述回声消除NLMS算法中对迭代步长进行分段处理,再通过谱减法进行语音增强,最后通过能熵对语音端点检测,相较于传统的方法,此方法提高了整体系统的自适应性,能够很好地适应不同的语音对话环境,与此同时提高语音端点检测率和稳定性。

An improved nonlinear adaptive speech endpoint detection method

The invention provides a nonlinear adaptive improved speech endpoint detection method, the method includes first through the microphone array collect signals and by time delay estimation and time delay compensation input signal synchronization, after the input signal is extended to high dimension function through Legendre nonlinear filter, then through the echo cancellation NLMS algorithm for noise reduction, the echo cancellation is segmented on the iteration step in NLMS algorithm, and then through the spectral subtraction speech enhancement, finally can entropy to detect the speech endpoint, compared with traditional method, this method improves the adaptability of the overall system can be well adapted to speech dialogue in different environment, at the same time improve the speech endpoint detection rate and stability.

【技术实现步骤摘要】
一种改进的非线性自适应语音端点检测方法
本专利技术属于电子、通讯、与信息工程领域,尤其涉及阵列信号处理、自适应滤波、语音信号识别与检测邻域,具体的是一种改进的非线性自适应语音端点检测方法。
技术介绍
语音是人类相互交流和通信最便捷和高效的方式,如何有效地实现语音信号传输、存储或与机器进行语音人机交互,是语音信号处理领域中的重要研究课题。语音信号端点检测是语音分析、语音合成、语音编码等语音信号处理方式的重要环节。在语音信号检测过程中总会伴有背景噪音,如果信噪比较低,常用的语音端点检测方式在语音信号端点检测时识别率会降低。麦克风阵列自适应滤波与语音端点检测相结合的方式能改善检测效果,该检测方式能够提高语音端点检测端输入信号信噪比,从而提高语音端点识别率。而这种语音端点检测方法使用的一般是线性自适应滤波,要实现高信噪比,滤波算法本身需要较高的样本维度,才能更好地逼近理想值,但是由于实验本身实现的成本和难度,很多都是止步在理论阶段。为克服上述局限性,本专利技术实现了一种麦克风阵列非线性自适应滤波语音信号端点检测方法。该专利技术方法在达到同样的去噪效果的情况下使用的麦克风数量要少得多,检测的正确率也得到大幅度提高。在麦克风阵列技术基础上引入自适应滤波可灵活地控制波束方向,实时跟踪目标语音信号。自适应滤波只需要很少的或根本不需要任何关于信号和噪声统计特性的先验知识,仅根据观测信息就能实时估计信号和噪声的统计特性。在自适应滤波算法中,最小均方算法(LMS)收敛速度慢于递归最小二乘法(RLS),但该算法简单,便于实时实现。本专利技术使用归一化最小均方算法(NLMS),不仅能实时实现而且收敛速度快。滤波后的语音信号还会伴有一些背景噪声或其它难以去除的噪声,这些噪声可以利用谱减法来进一步去除。谱减法作为一种常用的语音增强方法,具有简单方便,计算量小等优点。通过谱减之后更好的滤除了背景噪音,这也使得能熵比法在低信噪比环境下能更高准确率的定位语音段。
技术实现思路
针对上述缺点本专利技术提供了一种改进的非线性自适应语音端点检测方法,方案如下:一种改进的非线性自适应语音端点检测方法,所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步,之后通过Legendre非线性滤波器把输入信号拓展为高维度函数,再通过回声消除NLMS算法进行降噪处理,在所述回声消除NLMS算法中对迭代步长进行分段处理,再通过谱减法进行语音增强,最后通过能熵对语音端点检测。进一步所述具体的检测方法如下:步骤一,对麦克风阵列接收到的带噪语音信号X(n)=A(q)S(n)+N(n)进行时延估计和时延补偿,使各个麦克风通道中的信号在时间上是一致的,对齐后的带噪语音信号X(n)=[x1(n),x2(n)…xd(n)]T,其中,θ为目标信号的来波方向,A(θ)为目标信号的阵列流型,S(n)为目标语音信号,N(n)为方向性干扰噪声或是随机噪声;步骤二,然后把输入信号通过反正切激活函数tanh(·),使同步后的信号映射为(0,1)范围内的单值函数,这样能满足Legendre非线性滤波器的收敛条件,通过此函数之后的信号为Z(n)=[z1(n),z2(n)…zd(n)]T=[tanh(x1(n)),tanh(x2(n))…tanh(xd(n))]T;步骤三,利用Legendre非线性滤波器对信号Z(n)进行扩展,输入信号向量Z(n)经Legendre非线性滤波器非线性扩展为XM(n)=[L0(z1(n)),L0(z2(n))…L0(zd(n))…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T式中Li(x)为第i阶Legendre非线性滤波器;由于L0(x)=1,所有的0阶扩展可合并为一个输入量如下式XM(n)=[1…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T滤波器输出为式中权值矢量定义为B(n)=[b0(n),b11(n)…b1d(n),…bM1(n),…bMd(n)]Tbij(n)对应的是Legendre非线性滤波器Li(zj(n))的权值,i=1,2,…M,j=1,2,…d;步骤四,采用回声消除NLMS算法对自适应滤波器权值进行更新,该算法中对迭代步长进行分段处理;式中mc是迭代步长,通过这种方式来提高整体算法的收敛速度,在200次迭代之后获得更加好的收敛精度,由此提高整个系统的收敛性和稳态失调噪声;由回声消除NLMS算法可导出滤波器权值系数递推公式为式中误差估计e(n)=d(n)-y1(n),其中d(n)为期望信号即纯净人声语音信号,XM(n)为麦克风阵列瞬时接收到的语音信号,g是为了避免过小而设定的参数,通常情况下的取值范围是0和1之间;步骤五,为了进一步去除可能存在的残余噪声,在输出信号y1(n)后续衔接谱减法进行降噪处理;利用以下方法来估计噪声的功率:其中0<σ<1,K是带噪语音总帧数,得到的每帧纯净语音功率为:其中,α>1,β<<1,在噪声段保留一定的噪声可以取得较好的降噪及抑制纯音噪声的效果,降低“音乐”噪声的产生,改善听觉效果,经过谱减,平滑滤波之后的信号为y2(n);步骤六,语音信号的时间序列为y2(n),加窗分帧后处理得到第i帧语音信号为y2i(n),帧长为N,语音信号的每一帧能量可以表示为所述能量关系表示为LEi=log10(1+AMPi/a)式中AMPi是每一帧的能量,a是一个常数,由于有a的存在,当其取较大数值时,能幅值得以缓和,所以适当选择a的值能够更好地区分噪音和清音,能熵比则可表示为之后通过能熵比算出经过谱减后y2(n)的能熵比幅值图,通过计算出的值来设置对应的阈值T1和T2,T1为较高阈值,只要能熵比超过了此阈值就判定这段语音是人声点dst1,然后以这个点为中心向两边扩展搜索T1与此段语音的相交的两个点,粗判为此段语音的起止点,然后再想两边扩展搜索,知道检测到较低阈值T2与此段语音相交的两个点,由于考虑到发音时词与词之间的静音区会有一个最小长度表示发音间的停顿于是在满足T2较小阈值之后加上这个最小长度,最终判定为此段语音的起止点。更进一步所述步骤三中的Legendre非线性滤波器中扩展的阶数为i=4阶。本专利技术提出的自适应语音端点检测方法,是在传统语音端点检测的基础上加入非线性自适应滤波,以及改进的谱减法和能熵比法,相较于传统的方法,此方法提高了整体系统的自适应性,能够很好地适应不同的语音对话环境,与此同时提高语音端点检测率和稳定性。附图说明图1、本专利技术采用的语音端点检测系统结构框图;图2、传统语音端点检测系统框图;图3、Legendre系统扩展;图4、谱减法系统框图(图中实线框部分);图5、纯净语音信号(方向角度为10度);图6、方向性干扰信号(方向角度为30度);图7、麦克风阵列接收到的语音信号(带噪语音信号);图8、传统双门限语音端点检测处理后得到的语音信号;图9、本专利技术方法处理后得到的语音信号;图10、本专利技术方法处理后得到瞬时方差;图11、本专利技术方法处理后得到的瞬时方差。具体实施方式实施例为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施方式,进一步阐明本专利技术。本专利技术提供的一种改进自适应语音端点检测本文档来自技高网
...
一种改进的非线性自适应语音端点检测方法

【技术保护点】
一种改进的非线性自适应语音端点检测方法,其特征在于,所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步,之后通过Legendre非线性滤波器把输入信号拓展为高维度函数,再通过回声消除NLMS算法进行降噪处理,所述回声消除NLMS算法中对迭代步长进行分段处理,再通过谱减法进行语音增强,最后通过能熵对语音端点检测。

【技术特征摘要】
1.一种改进的非线性自适应语音端点检测方法,其特征在于,所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步,之后通过Legendre非线性滤波器把输入信号拓展为高维度函数,再通过回声消除NLMS算法进行降噪处理,所述回声消除NLMS算法中对迭代步长进行分段处理,再通过谱减法进行语音增强,最后通过能熵对语音端点检测。2.根据权利要求1所述的改进的非线性自适应语音端点检测方法,其特征在于,具体步骤如下:步骤一,对麦克风阵列接收到的带噪语音信号X(n)=A(q)S(n)+N(n)进行时延估计和时延补偿,使各个麦克风通道中的信号在时间上是一致的,对齐后的带噪语音信号X(n)=[x1(n),x2(n)…xd(n)]T,其中,θ为目标信号的来波方向,A(θ)为目标信号的阵列流型,S(n)为目标语音信号,N(n)为方向性干扰噪声或是随机噪声;步骤二,把输入信号通过反正切激活函数tanh(·),使同步后的信号映射为(0,1)范围内的单值函数,这样能满足Legendre非线性滤波器的收敛条件,通过此函数之后的信号为Z(n)=[z1(n),z2(n)…zd(n)]T=[tanh(x1(n)),tanh(x2(n))…tanh(xd(n))]T;步骤三,利用Legendre非线性滤波器对信号Z(n)进行扩展,输入信号向量Z(n)经Legendre非线性滤波器非线性扩展为XM(n)=[L0(z1(n)),L0(z2(n))…L0(zd(n))…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]TLi(x)为第i阶Legendre非线性滤波器;由于L0(x)=1,所有的0阶扩展可合并为一个输入量如下式XM(n)=[1…Li(z1(n)),Li(z2(n))…LM(z1(n))…LM(zd(n))]T滤波器输出为式中权值矢量定义为B(n)=[b0(n),b11(n)…b1d(n),…bM1(n),…bMd(n)]Tbij(n)对应的是Legendre非线性滤波器Li(zj(n))的权值,i=1,2,…M,j=1,2,…d;步骤四,采用回声消除NLMS算法对自适应滤波器权值进行更新,该算法中对迭代步长进行分段处理;式中mc是...

【专利技术属性】
技术研发人员:赵益波蒋祎靳炜徐进
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1