基于图像识别的短波语音端点检测方法技术

技术编号:17996798 阅读:192 留言:0更新日期:2018-05-19 13:45
本发明专利技术属于语音检测领域,尤其基于图像识别的短波语音端点检测方法。本发明专利技术的技术方案为:首先对数据进行预处理,提高信噪比;然后按特定长度分帧,同时进行短时傅里叶变换,从而得到语谱图;最后使用图像识别方法寻找语谱图中的声纹,依据声纹分布确定数据中有话段。采用本发明专利技术方法在预处理后的语音具有相似信噪比,后续步骤不需要调节参数,因此,本发明专利技术方法可以从不同背景噪声中自适应地选取有话段。

【技术实现步骤摘要】
基于图像识别的短波语音端点检测方法
本专利技术属于语音检测领域,尤其一种基于图像识别的短波语音端点检测方法。
技术介绍
尽管新型无线电通信系统不断出现,短波电台由于其自主通信能力和覆盖范围广的特点,依然受到普遍重视。但是短波通信发射电波需要经过电离层反射,因此其噪声较大。强背景噪声的存在使得监听人员无法长时间工作,必须做降噪处理,同时对无话音段进行静噪处理。此时为了防止漏听,语音端点检测方法的性能显得尤为重要。传统语音处理中,依据不同特征,已经有很多端点检测的方法,如基于相关函数的端点检测、基于倒谱距离的端点检测、基于能零比的端点检测以及基于小波分解的端点检测等。针对不同语音,调整参数,能准确地选取语音有话段。但在多变环境,要求实时通信的情况下,调整端点检测参数是不现实的,传统语音处理方法就不再适用了。语音频谱图简称语谱图,通过语音的短时傅里叶变换分析研究语音的短时频谱随时间的变化关系。语谱图水平方向是时间轴,垂直方向是频率轴,其上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的动态频谱特性,在语音分析中具有重要的实用价值,被称为可视语音。
技术实现思路
针对现有技术的缺陷,根据人类发声的特有机制,以及噪声频谱中不会存在声纹这一特征,本专利技术提出一种自适应的处理方法。本专利技术的技术方案为:首先对数据进行预处理,提高信噪比;然后按特定长度分帧,同时进行短时傅里叶变换,从而得到语谱图;最后使用图像识别方法寻找语谱图中的声纹,依据声纹分布确定数据中有话段。一种基于图像识别的短波语音端点检测方法,其步骤具体如下:S1、进行语音预处理,进行语音预处理的目的是为保证形成的语谱图声纹清晰度大致相同,这是进行有效图像识别的前提,具体步骤为:S11、在采集语音信号数据的过程中,由于测试系统的某些原因,在时间序列中会产生一个线性的或者慢变的趋势误差,使语音信号的零线偏离基线,甚至偏离的大小会随着时间变化,这会导致语音的相关函数,功率谱函数在处理计算中变形,采用最小二乘法拟合趋势项去除趋势误差;S12、进行幅值归一化;S13、低通滤波,去除高于3500Hz的噪声;S14、使用多窗谱的谱减法对语音进行加强;S2、对获取的语谱图进行图像识别,获取结构体,此结构体包含语谱图声纹位置的起始点和结束点,具体为:S21、对语音信号进行分帧处理,以帧为单位进行短时傅里叶变换,得到短时频谱;S22、按帧的时间顺序排列S21得到的短时频谱,获取语谱图;S23、识别S22所述语谱图中的声纹,即:将彩色语谱图变成灰度图像;提取灰度图的图像边缘,识别灰度图中线段的位置;将得到的包含语谱图声纹位置的起始点和结束点构成结构体;S3、进行端点检测,具体为:S31、从S2所述结构体中提取出起始点位置向量ST=[st1,st2,...,sti,...,stn]和结束点位置向量EN=[en1,en2,...,eni,...,enn],其中,sti指第i个起始点位置,eni指第i个结束点位置。对所述起始点位置向量ST和结束点位置向量EN按照升序进行排序;S32、判断有话段,当有三条水平线段时即可认为是声纹,其余为噪声。在数值上体现为,当eni>sti+2即可认为第i点为起始点的线段是在有话段中的;S33、选出所有肯定在有话段中的线段,向左右两个方向100帧范围内寻找是否有ST的元素st'i存在,有的话也包含在有话段内,并替代原本sti再重复向左右100帧范围内寻找,直到左右100帧范围不存在ST的元素。进一步地,S14所述使用多窗谱的谱减法对语音进行加强具体步骤如下:步骤A、设语音信号的时间序列为x(n),用长度为wlen的汉明窗对x(n)进行加窗分帧处理,得到第i帧语音信号为xi(m),所述xi(m)的的帧长为wlen,所述xi(m)离散傅立叶变换为步骤B、以i帧为中心的前后各取M帧,共2M+1帧计算步骤A所述Xi(k)中每个分量的平均幅度谱和相角其中j指以i帧为中心的后j帧,Im指虚部,Re指实部;步骤C、求多个正交数据窗对同一数据序列的平均得到谱估计,多窗谱定义为其中,L为数据窗个数,Smt为数据窗w的谱,即Tx(n)为数据序列,N为序列长度,aw(n)为第w个数据窗,aw(n)是一组相互正交的离散椭球序列,用于与同一列信号分别求直接谱,aw(n)满足多个数据窗之间相互正交,即用上述多窗谱定义方法对分帧后的信号xi(m)进行多窗谱估计,即步骤D、对多窗谱功率密度估计值进行平滑处理,计算平滑功率谱密度计算噪声平均功率谱密度计算增益因子其中,NIS表示前导无话段占有的帧数;步骤E、根据得到的多窗谱谱减后的幅度谱合成加强语音信号其中,多窗谱谱减法是利用前导无话段求出噪声的功率,整体声音的功率减去噪声的成分后,利用相角关系恢复语音信号,过减因子决定对信号的加强程度,增益补偿因子决定计算时长。进一步地,所述过减因子的选取方法如下:Ⅰ、过减因子初始值为1,并取初始信噪比snr'=0;Ⅱ、使用多窗谱谱减法对语音进行加强处理,计算处理后信号的信噪比snr;Ⅲ、若处理后的信号的信噪比snr大于初始信噪比snr',则进行下一步骤,若处理后的信号的信噪比snr小于或者等于初始信噪比snr',说明信号中语音不显著,则不做处理,保留所有语音信号,直接输出;Ⅳ、若处理后的信号的信噪比snr小于8dB,则过减因子增加0.5,令snr'=snr,重复步骤Ⅱ-步骤Ⅳ直到信号信噪比大于8dB。本专利技术的有益效果是:采用本专利技术方法在预处理后的语音具有相似信噪比,后续步骤不需要调节参数,因此,本专利技术方法可以从不同背景噪声中自适应地选取有话段。附图说明图1为多窗谱改进谱减法原理图。图2为语音加强处理流程图。图3为本专利技术方法流程图。图4为具体实施例1中语音预处理之前的语音时域图。图5为具体实施例1中语音预处理之后的语音时域图。图6为具体实施例1中语音各帧频谱图。图7为具体实施例1中灰度处理后的语谱图。图8为具体实施例1中灰度处理后的语谱图中水平线段部分。图9为具体实施例1中灰度处理后的语谱图端点检测结果。图10为具体实施例1中端点检测结果时域图,其中,左为原始语音,右为预处理后语音。图11为具体实施例2中语音预处理前的语音时域图。图12为具体实施例2中语音预处理后的语音时域图。图13为具体实施例2中语音各帧频谱图。图14为具体实施例2中灰度处理后的语谱图。图15为具体实施例2中灰度处理后的语谱图中水平线段部分。图16为具体实施例2中灰度处理后的语谱图端点检测结果。图17为具体实施例2中端点检测结果时域图,其中,左为原始语音,右为预处理后语音。具体实施方式下面结合附图对本专利技术进行说明。本专利技术方法选取声纹特性作为声音的特征。由于人类发声的独特生理结构,从语音频谱图(语谱图)中可以看到声纹。人类语音的声纹具有显著特征,在有话段,可以看到不同频率上能量分布有特定规律;在语音的频谱图中,呈现横向平行的若干纹路,这些纹路就是声纹。声纹可以体现个人发音特征以及音素特征,在语音识别方面得到广泛运用。如图3所示,本专利技术方法步骤如下:S1、进行语音预处理,进行语音预处理的目的是为保证形成的语谱图声纹清晰度大致相同,这是进行有效图像识别的前提,具体步骤为:S11、在采集语音信号数据的过程中,由于测试系统的某些本文档来自技高网...
基于图像识别的短波语音端点检测方法

【技术保护点】
一种基于图像识别的短波语音端点检测方法,其特征在于,其步骤具体如下:S1、进行语音预处理,进行语音预处理的目的是为保证形成的语谱图声纹清晰度大致相同,这是进行有效图像识别的前提,具体步骤为:S11、在采集语音信号数据的过程中,由于测试系统的某些原因,在时间序列中会产生一个线性的或者慢变的趋势误差,使语音信号的零线偏离基线,甚至偏离的大小会随着时间变化,这会导致语音的相关函数,功率谱函数在处理计算中变形,采用最小二乘法拟合趋势项去除趋势误差;S12、进行幅值归一化;S13、低通滤波,去除高于3500Hz的噪声;S14、使用多窗谱的谱减法对语音进行加强;S2、对获取的语谱图进行图像识别,获取结构体,此结构体包含语谱图声纹位置的起始点和结束点,具体为:S21、对语音信号进行分帧处理,以帧为单位进行短时傅里叶变换,得到短时频谱;S22、按帧的时间顺序排列S21得到的短时频谱,获取语谱图;S23、识别S22所述语谱图中的声纹,即:将彩色语谱图变成灰度图像;提取灰度图的图像边缘,识别灰度图中线段的位置;将得到的包含语谱图声纹位置的起始点和结束点构成结构体;S3、进行端点检测,具体为:S31、从S2所述结构体中提取出起始点位置向量ST=[st1,st2,...,sti,...,stn]和结束点位置向量EN=[en1,en2,...,eni,...,enn],其中,sti指第i个起始点位置,eni指第i个结束点位置。对所述起始点位置向量ST和结束点位置向量EN按照升序进行排序;S32、判断有话段,当有三条水平线段时即可认为是声纹,其余为噪声。在数值上体现为,当eni>sti+2即可认为第i点为起始点的线段是在有话段中的;S33、选出所有肯定在有话段中的线段,向左右两个方向100帧范围内寻找是否有ST的元素st'i存在,有的话也包含在有话段内,并替代原本sti再重复向左右100帧范围内寻找,直到左右100帧范围不存在ST的元素。...

【技术特征摘要】
1.一种基于图像识别的短波语音端点检测方法,其特征在于,其步骤具体如下:S1、进行语音预处理,进行语音预处理的目的是为保证形成的语谱图声纹清晰度大致相同,这是进行有效图像识别的前提,具体步骤为:S11、在采集语音信号数据的过程中,由于测试系统的某些原因,在时间序列中会产生一个线性的或者慢变的趋势误差,使语音信号的零线偏离基线,甚至偏离的大小会随着时间变化,这会导致语音的相关函数,功率谱函数在处理计算中变形,采用最小二乘法拟合趋势项去除趋势误差;S12、进行幅值归一化;S13、低通滤波,去除高于3500Hz的噪声;S14、使用多窗谱的谱减法对语音进行加强;S2、对获取的语谱图进行图像识别,获取结构体,此结构体包含语谱图声纹位置的起始点和结束点,具体为:S21、对语音信号进行分帧处理,以帧为单位进行短时傅里叶变换,得到短时频谱;S22、按帧的时间顺序排列S21得到的短时频谱,获取语谱图;S23、识别S22所述语谱图中的声纹,即:将彩色语谱图变成灰度图像;提取灰度图的图像边缘,识别灰度图中线段的位置;将得到的包含语谱图声纹位置的起始点和结束点构成结构体;S3、进行端点检测,具体为:S31、从S2所述结构体中提取出起始点位置向量ST=[st1,st2,...,sti,...,stn]和结束点位置向量EN=[en1,en2,...,eni,...,enn],其中,sti指第i个起始点位置,eni指第i个结束点位置。对所述起始点位置向量ST和结束点位置向量EN按照升序进行排序;S32、判断有话段,当有三条水平线段时即可认为是声纹,其余为噪声。在数值上体现为,当eni>sti+2即可认为第i点为起始点的线段是在有话段中的;S33、选出所有肯定在有话段中的线段,向左右两个方向100帧范围内寻找是否有ST的元素st'i存在,有的话也包含在有话段内,并替代原本sti再重复向左右100帧范围内寻找,直到左右100帧范围不存在ST的元素。2.根据权利要求1所述的一种基于图像识别...

【专利技术属性】
技术研发人员:陈章鑫杨孟文司进修黄际彦
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1