一种基于说话人语音特征的语音端点检测方法技术

技术编号：19748294 阅读：21 留言：0更新日期：2018-12-12 05:15

本发明专利技术涉及一种基于说话人语音特征的语音端点检测方法；本发明专利技术方法包括：100、预先获取至少两个人的语音特征；101、采集至少两个人说话的语音信号并预处理，获取背景噪声信号；102、针对语音信号和背景噪声信号分别加窗处理，获取声音帧和背景噪声帧；103、获取声音帧、背景噪声帧的短时能零积值和门限阈值；104、针对所有声音帧通过门限阈值获取语音信号的有音段；105、根据有音段的语音特征，更新门限阈值并获取语音信号的端点；本发明专利技术方法在传统的语音端点检测的基础上结合说话人识别，在考虑了噪声影响的同时，还针对说话人的语音特征提取和对比，使得语音端点检测更为准确，从而使多说话人识别更为准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于说话人语音特征的语音端点检测方法
本专利技术涉及语音信息处理和模式识别
，特别涉及一种基于说话人语音特征的语音端点检测方法。
技术介绍
语音端点检测是语音分析、语音合成、语音编码、说话人识别中的一个重要环节。在语音识别和说话人识别中，通常是先根据一定的端点检测算法对语音信号中的有声段和无声段进行分割，再针对有声段，依据语音的某些特征进行识别。正确有效地语音端点检测可以减少计算量和缩短处理时间，而且能排除无声段的噪声干扰、提高语音识别和说话人识别的正确率。常用的语音端点检测方法有短时平均能量法、短时平均过零率法和短时能零积值法。在低信噪比的情况下，传统的基于阈值的语音端点检测受噪声的影响准确度较低，尤其在多说话人识别场景中，有时会出现不同说话人话语衔接较为紧密的情况，一般的语音端点检测(VoiceActivityDetection，简称VAD)检测出的有音段可能包含不同说话人，不易检测出不同说话人的语音段。在多说话人的识别场景中，传统基于阈值的语音端点检测方法检测的有音段可能包含不同的说话人，这就会影响后期说话人识别的正确率，正确的语音端点检测是提高说话人识别正确率的关键因素；因此需要一种能够在多人说话的复杂场景下更准确的检测出语音端点的方法，从而提高后期多说话人识别的准确率。
技术实现思路
(一)要解决的技术问题为了解决现有技术的上述问题，本专利技术提供一种基于说话人语音特征的语音端点检测方法。(二)技术方案为了达到上述目的，本专利技术采用的主要技术方案包括下步骤：100、通过语音信息样本预先获取至少两个人的语音特征；101、采集包括至少两个人说...

【技术保护点】
1.一种基于说话人语音特征的语音端点检测方法，其特征在于，包括以下步骤：100、通过语音信息样本预先获取至少两个人的语音特征；101、采集包括至少两个人说话的语音信号，针对语音信号预处理，将预处理后的语音信号的0‑100ms作为背景噪声信号；102、针对预处理后的语音信号和背景噪声信号分别进行加窗处理，获取与语音信号对应的至少两个声音帧和与背景噪声信号对应的至少一个背景噪声帧；103、获取每一声音帧的短时能零积值、每一背景噪声帧的短时能零积值和门限阈值；针对每一声音帧和每一背景噪声帧分别通过下述公式(1)和公式(2)获取平均能量En和短时平均过零率Zn；

【技术特征摘要】
1.一种基于说话人语音特征的语音端点检测方法，其特征在于，包括以下步骤：100、通过语音信息样本预先获取至少两个人的语音特征；101、采集包括至少两个人说话的语音信号，针对语音信号预处理，将预处理后的语音信号的0-100ms作为背景噪声信号；102、针对预处理后的语音信号和背景噪声信号分别进行加窗处理，获取与语音信号对应的至少两个声音帧和与背景噪声信号对应的至少一个背景噪声帧；103、获取每一声音帧的短时能零积值、每一背景噪声帧的短时能零积值和门限阈值；针对每一声音帧和每一背景噪声帧分别通过下述公式(1)和公式(2)获取平均能量En和短时平均过零率Zn；公式中的N表示窗口的长度，sw(k)表示加窗语音信号；其中，短时能零积值为平均能量En和短时平均过零率Zn的乘积；门限阈值为所有背景噪声帧的短时能零积值的平均值与常数C相乘；104、根据所有声音帧与语音信号的对应顺序，将第一个短时能零积值大于门限阈值的声音帧作为起始帧，将起始帧以后的声音帧中第一个短时能零积值小于门限阈值的声音帧作为终止帧；起始帧到终止帧之间的所有声音帧为语音信号的有音段；105、获取有音段中第一判断区的语音特征和第二判断区的语音特征，根据第一判断区的语音特征和第二判断区的语音特征更新门限阈值，获取语音信号的端点；第一判断区为有音段的起始帧后至少一个声音帧，获取第一判断区的语音特征；第二判断区为有音段的终止帧前至少一个声音帧，获取第二判断区的语音特征；若第一判断区的语音特征和第二判断区的语音特征均与预先获取的至少两个人的语音特征中同一人的语音特征匹配，则将有音段的端点作为的语音信号的端点；否则，将门限阈值增加预设值，更新门限阈值，并依据更新后的门限阈值执行步骤104获取更新后的有音段；针对更新后...

【专利技术属性】
技术研发人员：孝大宇，张淑蕾，王超，康雁，
申请(专利权)人：东北大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人