当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于说话人语音特征的语音端点检测方法技术

技术编号:19748294 阅读:21 留言:0更新日期:2018-12-12 05:15
本发明专利技术涉及一种基于说话人语音特征的语音端点检测方法;本发明专利技术方法包括:100、预先获取至少两个人的语音特征;101、采集至少两个人说话的语音信号并预处理,获取背景噪声信号;102、针对语音信号和背景噪声信号分别加窗处理,获取声音帧和背景噪声帧;103、获取声音帧、背景噪声帧的短时能零积值和门限阈值;104、针对所有声音帧通过门限阈值获取语音信号的有音段;105、根据有音段的语音特征,更新门限阈值并获取语音信号的端点;本发明专利技术方法在传统的语音端点检测的基础上结合说话人识别,在考虑了噪声影响的同时,还针对说话人的语音特征提取和对比,使得语音端点检测更为准确,从而使多说话人识别更为准确。

【技术实现步骤摘要】
一种基于说话人语音特征的语音端点检测方法
本专利技术涉及语音信息处理和模式识别
,特别涉及一种基于说话人语音特征的语音端点检测方法。
技术介绍
语音端点检测是语音分析、语音合成、语音编码、说话人识别中的一个重要环节。在语音识别和说话人识别中,通常是先根据一定的端点检测算法对语音信号中的有声段和无声段进行分割,再针对有声段,依据语音的某些特征进行识别。正确有效地语音端点检测可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别和说话人识别的正确率。常用的语音端点检测方法有短时平均能量法、短时平均过零率法和短时能零积值法。在低信噪比的情况下,传统的基于阈值的语音端点检测受噪声的影响准确度较低,尤其在多说话人识别场景中,有时会出现不同说话人话语衔接较为紧密的情况,一般的语音端点检测(VoiceActivityDetection,简称VAD)检测出的有音段可能包含不同说话人,不易检测出不同说话人的语音段。在多说话人的识别场景中,传统基于阈值的语音端点检测方法检测的有音段可能包含不同的说话人,这就会影响后期说话人识别的正确率,正确的语音端点检测是提高说话人识别正确率的关键因素;因此需要一种能够在多人说话的复杂场景下更准确的检测出语音端点的方法,从而提高后期多说话人识别的准确率。
技术实现思路
(一)要解决的技术问题为了解决现有技术的上述问题,本专利技术提供一种基于说话人语音特征的语音端点检测方法。(二)技术方案为了达到上述目的,本专利技术采用的主要技术方案包括下步骤:100、通过语音信息样本预先获取至少两个人的语音特征;101、采集包括至少两个人说话的语音信号,针对语音信号预处理,将预处理后的语音信号的0-100ms作为背景噪声信号;102、针对预处理后的语音信号和背景噪声信号分别进行加窗处理,获取与语音信号对应的至少两个声音帧和与背景噪声信号对应的至少一个背景噪声帧;103、获取每一声音帧的短时能零积值、每一背景噪声帧的短时能零积值和门限阈值;针对每一声音帧和每一背景噪声帧分别通过下述公式(1)和公式(2)获取平均能量En和短时平均过零率Zn;公式中的N表示窗口的长度,sw(k)表示加窗语音信号;其中,短时能零积值为平均能量En和短时平均过零率Zn的乘积;门限阈值为所有背景噪声帧的短时能零积值的平均值与常数C相乘;104、根据所有声音帧与语音信号的对应顺序,将第一个短时能零积值大于门限阈值的声音帧作为起始帧,将起始帧以后的声音帧中第一个短时能零积值小于门限阈值的声音帧作为终止帧;起始帧到终止帧之间的所有声音帧为语音信号的有音段;105、获取有音段中第一判断区的语音特征和第二判断区的语音特征,根据第一判断区的语音特征和第二判断区的语音特征更新门限阈值,获取语音信号的端点;第一判断区为有音段的起始帧后至少一个声音帧,获取第一判断区的语音特征;第二判断区为有音段的终止帧前至少一个声音帧,获取第二判断区的语音特征;若第一判断区的语音特征和第二判断区的语音特征均与预先获取的至少两个人的语音特征中同一人的语音特征匹配,则将有音段的端点作为的语音信号的端点;否则,将门限阈值增加预设值,更新门限阈值,并依据更新后的门限阈值执行步骤104获取更新后的有音段;针对更新后的有音段执行步骤105获取对应的更新后的第一判断区和第二判断区,并进行语音特征的比较,重复更新预设次数,直至更新后的第一判断区和第二判断区均与预先获取的至少两个人的语音特征中的同一人的语音特征匹配,则将更新后的有音段的端点作为语音信号的端点。可选地,语音信息样本包括:至少两个语音信息且每一语音信息时长均在一分钟以上,所述每一语音信息均为不同人说话的语音信息;获取每一语音信息的高斯混合模型,得到每一语音信息对应的语音特征。可选地,预处理包括:针对语音信号滤波,滤波的上限截止频率的为3400Hz,下限截止频率为60~100Hz。可选地,加窗处理包括:在步骤102中,针对语音信号根据公式(3)分成至少两个声音帧;其中,公式(3)中的N表示窗口的长度。可选地,语音信号对应的每一声音帧的帧长为10ms~30ms,相邻声音帧之间的帧移为帧长的一半;背景噪声信号对应的每一背景噪声帧的帧长为10ms,相邻背景噪声帧之间的帧移为帧长的一半。可选地,在步骤105中,第一判断区和第二判断区的时长均为1s-3s。可选地,在步骤105中,针对有音段的第一判断区和第一判断区获取高斯混合模型;第一判断区的高斯混合模型为第一判断区的语音特征;第二判断区的高斯混合模型为第二判断区的语音特征。可选地,在步骤105中,重复更新预设次数为10次。可选地,在步骤105中,将门限阈值增加预设值的方法为将门限阈值增加更新前的门限阈值的5%。(三)有益效果本专利技术的有益效果是:本专利技术方法在传统的语音端点检测的基础上结合说话人识别,在考虑了噪声影响的同时,还针对说话人的特征进行提取和对比,使得语音端点检测更为准确,从而使多说话人识别更为准确。附图说明图1为本专利技术一实施例提供的一种基于说话语音人特征的语音端点检测方法流程示意图;图2(a)为本专利技术一实施例提供的说话人A发音“0”时域图;图2(b)为本专利技术一实施例提供的说话人A发音“0”频谱图;图2(c)为本专利技术一实施例提供的说话人B发音“0”时域图;图2(d)为本专利技术一实施例提供的说话人B发音“0”频谱图;图3(a)为本专利技术一实施例提供的说话人语音信号图;图3(b)为本专利技术一实施例提供的说话人语音信号短时能零积图;图3(c)为本专利技术一实施例提供的说话人语音信号短时能零积值法的语音端点检测结果;图4为本专利技术一实施例提供的说话人识别原理框图;图5为本专利技术一实施例提供的语音端点检测流程图。具体实施方式为了更好的解释本专利技术,以便于理解,下面结合附图,通过具体实施方式,对本专利技术作详细描述。具体实施例如图1所示,本专利技术方法,包括以下步骤:100、通过语音信息样本预先获取至少两个人的语音特征;语音信息样本包括:至少两个语音信息且每一语音信息时长均在一分钟以上,所述每一语音信息均为不同人说话的语音信息;获取每一语音信息的高斯混合模型,得到每一语音信息对应的语音特征。举例来说,在本实施例中以说话人A和说话人B为例具体地,预先采集说话人A和说话人B的语音信息,并获取说话人A和说话人B的语音信息的高斯混合模型,并以高斯混合模型作为语音特征;如图2(a)和2(b)所示,分别为说话人A发音“0”时域图和频谱图;如图2(c)和2(d)所示,分别为说话人B发音“0”时域图和频谱图;特殊说明,在本实施例中,本专利技术不对注册语音信息的内容进行限定,本实施例仅用于举例说明。101、采集包括至少两个人说话的语音信号,针对语音信号预处理,将预处理后的语音信号的0-100ms作为背景噪声信号;举例来说,由于录音开始阶段往往有一段无音区,所以通常取最开始的100ms信号作为对背景噪声的分析;进一步地,针对语音信号进行滤波;举例来说,滤波的上限截止频率的为3400Hz,下限截止频率为60~100Hz。102、针对预处理后的语音信号和背景噪声信号分别进行加窗处理,获取与语音信号对应的至少两个声音帧和与背景噪声信号对应的至少一个背景噪声帧;举例来说,通常语音信号具有时变性和短时平稳性,因此通常将语音本文档来自技高网...

【技术保护点】
1.一种基于说话人语音特征的语音端点检测方法,其特征在于,包括以下步骤:100、通过语音信息样本预先获取至少两个人的语音特征;101、采集包括至少两个人说话的语音信号,针对语音信号预处理,将预处理后的语音信号的0‑100ms作为背景噪声信号;102、针对预处理后的语音信号和背景噪声信号分别进行加窗处理,获取与语音信号对应的至少两个声音帧和与背景噪声信号对应的至少一个背景噪声帧;103、获取每一声音帧的短时能零积值、每一背景噪声帧的短时能零积值和门限阈值;针对每一声音帧和每一背景噪声帧分别通过下述公式(1)和公式(2)获取平均能量En和短时平均过零率Zn;

【技术特征摘要】
1.一种基于说话人语音特征的语音端点检测方法,其特征在于,包括以下步骤:100、通过语音信息样本预先获取至少两个人的语音特征;101、采集包括至少两个人说话的语音信号,针对语音信号预处理,将预处理后的语音信号的0-100ms作为背景噪声信号;102、针对预处理后的语音信号和背景噪声信号分别进行加窗处理,获取与语音信号对应的至少两个声音帧和与背景噪声信号对应的至少一个背景噪声帧;103、获取每一声音帧的短时能零积值、每一背景噪声帧的短时能零积值和门限阈值;针对每一声音帧和每一背景噪声帧分别通过下述公式(1)和公式(2)获取平均能量En和短时平均过零率Zn;公式中的N表示窗口的长度,sw(k)表示加窗语音信号;其中,短时能零积值为平均能量En和短时平均过零率Zn的乘积;门限阈值为所有背景噪声帧的短时能零积值的平均值与常数C相乘;104、根据所有声音帧与语音信号的对应顺序,将第一个短时能零积值大于门限阈值的声音帧作为起始帧,将起始帧以后的声音帧中第一个短时能零积值小于门限阈值的声音帧作为终止帧;起始帧到终止帧之间的所有声音帧为语音信号的有音段;105、获取有音段中第一判断区的语音特征和第二判断区的语音特征,根据第一判断区的语音特征和第二判断区的语音特征更新门限阈值,获取语音信号的端点;第一判断区为有音段的起始帧后至少一个声音帧,获取第一判断区的语音特征;第二判断区为有音段的终止帧前至少一个声音帧,获取第二判断区的语音特征;若第一判断区的语音特征和第二判断区的语音特征均与预先获取的至少两个人的语音特征中同一人的语音特征匹配,则将有音段的端点作为的语音信号的端点;否则,将门限阈值增加预设值,更新门限阈值,并依据更新后的门限阈值执行步骤104获取更新后的有音段;针对更新后...

【专利技术属性】
技术研发人员:孝大宇张淑蕾王超康雁
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1