一种语音端点检测方法技术

技术编号:21688460 阅读:13 留言:0更新日期:2019-07-24 15:18
本发明专利技术公开了一种语音端点检测方法,通过多窗谱减算法,将有噪声环境下的语音信号减噪,对语音进行增强,计算增强后语音的频域信号能量,并将该能量作为语音检测时的特征;分别计算每一帧的短时和长时能量均值作为每一帧对应的得分值和判决阈值,根据所述得分值和判决阈值的大小进行语音或非语音判决;最后,根据语义意图自适应调整说话间隙时长,判决出完整一句话的起止点位置。其具有较低的复杂度和计算量,并在复杂环境下具有很好的鲁棒性;不需要对各种环境噪声有先验知识,也能适应非平稳的各类噪声背景。

A Speech Endpoint Detection Method

【技术实现步骤摘要】
一种语音端点检测方法
本专利技术涉及语音信号处理
,特别涉及一种大规模环境下的多路电话信道语音实时端点检测方法。
技术介绍
随着智能客服机器人产业的迅速发展,尤其是伴随着人工智能AI的风潮,预计在2020年我国智能客服市场将达到万亿级别。在智能客服机器人领域中对电话信道语音进行端点检测处理的应用正在不断扩展和深化。目前语音端点检测(VoiceActiveDetection,简称VAD)的主要任务是准确快速判决出待处理的语音信号有话还是无话,作为自动语音识别(AutomaticSpeechRecognition,简称ASR)系统的前置处理模块,一旦检测到话音信号,就启动自动语音语音识别系统,并进行话音数据流的传输。准确的语音端点检测将提高自动语音识别系统的利用率和减少语音处理的数据量。目前现有技术中,语音端点检测算法有基于LPC倒谱距离的算法、基于自适应模型的算法、基于倒谱分析的算法等等,但是这些方法难以在识别性能和处理速度方面达到平衡。为解决大规模环境下多路电话信道语音实时端点检测的难题,对语音端点检测算法的要求必须具备有较低的复杂度和具有较强的抗噪性能。综合分析目前已有的端点检测算法,可以将端点检测大体归结为两类:时域端点检测和频域端点检测。其中,时域端点检测大多是针对实验室安静环境的,其算法相对简单,实现比较容易,实时性较高,但是对于存在噪声的语音检测,效果明显下降;而频域端点检测在噪声环境下检测能力较强,检测精度较高,但是在较强的噪声环境下仍会有较大的漏检和误检概率,同时其算法比较复杂,实现相对较为困难。现实应用环境中,智能客服的应用场景十分广泛,话音活动检测面临的噪声环境种类多样,不仅要适应各类缓变噪声,而且必须在噪声强度和种类多变的情况下保持稳定性能。随着智能客服机器人的快速发展,如何实现多路电话语音实时检测,并大规模实现应用,得到稳健性好、精准性高、鲁棒性强、运算量少的VAD技术成为了一个亟待解决的问题。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供一种语音端点检测方法,以解决大规模环境下多路电话信道语音实时端点检测所面临的难题。为达到上述目的,本专利技术实施例的技术方案是这样实现的:一种语音端点检测方法,包括如下步骤:步骤1、获取语音端点检测数据,将所述语音端点检测数据分为连续的多帧音频信号数据;步骤2、对所述语音端点检测数据进行多窗谱减,得到降噪后的频域能量数据;步骤3、将所述语音降噪后的频域数据输入到能量计算模块,得到多窗谱减输出频域能量数据;步骤4、将所述多窗谱减输出频域能量数据作为语音检测时的特征,基于所述多窗谱减输出语音片段的频域能量均值高于非语音片段对应的能量均值这一假设,分别计算每一帧的短时和长时能量均值作为每一帧对应的得分值和判决阈值,依据上述得分值和判决阈值的大小进行语音或非语音判决;步骤5、根据预先设置的断句策略,对所述语音或非语音判决进行处理,确定一句话语音的起始位置和结束位置。进一步地,步骤2中还包括:对带噪语音x(n)进行加窗分帧处理,加窗分帧后为xi(n),其中相邻帧之间重叠;对分帧后的信号进行快速傅里叶变换(FFT),分别求其幅度谱|xi(k)|和相位谱θi(k),并在相邻帧之间做平滑处理,计算平均幅度谱把分帧后的信号xi(m)进行多窗谱估计,得到多窗谱功率谱密度P(k,i)(其中,i表示第i帧,k表示第k条谱线):P(k,i)=PMTM[xi(m)]式中,PMTM表示进行多窗谱功率谱密度估计。进一步地,步骤2中还包括:对多窗谱功率谱密度估计值进行相邻帧之间的平滑处理,计算平滑功率谱密度Py(k,i):根据已知前导无话段(噪声占有)NIS帧,计算出噪声的平均功率谱密度值Pn(k):进一步地,在步骤4中,具体还包括:以当前帧为中心,计算特定数量帧临近帧的能量均值,并以该能量均值作为得分值yn,计算公式如下:其中I表示以当前帧的能量ei为中心,前后两侧用来计算能量均值的帧数,yn为短时能量均值。进一步地,步骤4中,将当前帧集之前特定数量帧的能量均值作为判决阈值,阈值的计算公式如下:其中n表示当前帧的时间;ni>0为当前帧之前的某一个时刻,且n≥ni;βn为从第ni帧到第n帧的能量均值,βn为长时能量均值,该值随着帧序的更新而更新。本专利技术实施例提供的技术方案的有益效果是:本专利技术通过多窗谱减算法,将有噪声环境下的语音信号减噪,对语音进行增强,计算增强后语音的频域信号能量,并将该能量作为语音检测时的特征;分别计算每一帧的短时和长时能量均值作为每一帧对应的得分值和判决阈值,根据所述得分值和判决阈值的大小进行语音或非语音判决;最后,根据语义意图自适应调整说话间隙时长,判决出完整一句话的起止点位置。其具有较低的复杂度和计算量,并在复杂环境下具有很好的鲁棒性;不需要对各种环境噪声有先验知识,也能适应非平稳的各类噪声背景。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种语音端点检测方法的流程图示;图2是本专利技术实施例语音端点检测方法中的拖尾延迟保护的状态转移图;图3是本专利技术实施例语音端点检测方法中的说话间隙时长动态控制步骤中断句流程图示。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例,提供了一种语音端点检测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。参照图1-图3所示,本专利技术语音端点检测方法包括如下步骤:步骤1、获取语音端点检测数据,将所述语音端点检测数据分为连续的多帧音频信号数据;步骤2、对所述语音端点检测数据进行多窗谱减,得到降噪后的频域能量数据;步骤3、将所述语音降噪后的频域数据输入到能量计算模块,得到多窗谱减输出频域能量数据;步骤4、将所述多窗谱减输出频域能量数据作为语音检测时的特征,基于所述多窗谱减输出语音片段的频域能量均值高于非语音片段对应的能量均值这一假设,分别计算每一帧本文档来自技高网
...

【技术保护点】
1.一种语音端点检测方法,其特征在于,包括如下步骤:步骤1、获取语音端点检测数据,将所述语音端点检测数据分为连续的多帧音频信号数据;步骤2、对所述语音端点检测数据进行多窗谱减,得到降噪后的频域能量数据;步骤3、将所述语音降噪后的频域数据输入到能量计算模块,得到多窗谱减输出频域能量数据;步骤4、将所述多窗谱减输出频域能量数据作为语音检测时的特征,基于所述多窗谱减输出语音片段的频域能量均值高于非语音片段对应的能量均值这一假设,分别计算每一帧的短时和长时能量均值作为每一帧对应的得分值和判决阈值,依据上述得分值和判决阈值的大小进行语音或非语音判决;步骤5、根据预先设置的断句策略,对所述语音或非语音判决进行处理,确定一句话语音的起始位置和结束位置。

【技术特征摘要】
1.一种语音端点检测方法,其特征在于,包括如下步骤:步骤1、获取语音端点检测数据,将所述语音端点检测数据分为连续的多帧音频信号数据;步骤2、对所述语音端点检测数据进行多窗谱减,得到降噪后的频域能量数据;步骤3、将所述语音降噪后的频域数据输入到能量计算模块,得到多窗谱减输出频域能量数据;步骤4、将所述多窗谱减输出频域能量数据作为语音检测时的特征,基于所述多窗谱减输出语音片段的频域能量均值高于非语音片段对应的能量均值这一假设,分别计算每一帧的短时和长时能量均值作为每一帧对应的得分值和判决阈值,依据上述得分值和判决阈值的大小进行语音或非语音判决;步骤5、根据预先设置的断句策略,对所述语音或非语音判决进行处理,确定一句话语音的起始位置和结束位置。2.根据权利要求1所述的语音端点检测方法,其特征在于,步骤2中还包括:对带噪语音x(n)进行加窗分帧处理,加窗分帧后为xi(n),其中相邻帧之间重叠;对分帧后的信号进行快速傅里叶变换(FFT),分别求其幅度谱|xi(k)|和相位谱θi(k),并在相邻帧之间做平滑处理,计算平均幅度谱把分帧后的信号xi(m)进行多窗谱估计,得到多窗谱功率谱密度P(k,i)(其中,i表示第i帧,k表示第k条谱线):P(k,i)=PMTM[xi(m)]式中,PMTM表示进行多窗谱功率谱密度估计。3.根据权利要求2所述的语音端点检测方法,其特征在于,步骤2中还包括:对多窗谱功率谱密度估计值进行相邻帧之间的平滑处理,计算平滑功率谱...

【专利技术属性】
技术研发人员:左靖东况鹏范振詹佳丽黎宁
申请(专利权)人:深圳市壹鸽科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1