【技术实现步骤摘要】
本专利技术涉及说话人识别系统中的语音检测技术,具体涉及。
技术介绍
语音端点检测技术是说话人识别系统中面临的第一个关键技术。语音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的起点和结束点。作为一个完整的说话人识别系统,其最终效果不仅取决于识别算法的优劣,其他许多相关因素都会直接影响着系统应用的成功与否。在说话人识别系统中,处理的对象是语音信号,但是实际环境下的语音信号都存在一定的背景噪声。如何有效地区分背景噪声和语音,并尽可能地去除不含语音成分的背景噪声,提高识别的鲁棒性,是本专利技术要解决的问题。另外,在实际应用系统中,有效的语音端点检测技术不仅能减少系统的处理时间、提高系统处理的实时性,而且能排除无声段噪声的干扰,从而提高系统的整体性能。因此,端点检测的准确性在一定程度上决定了整个系统的成败。目前,端点检测大体上可以分为两类:基于模型的检测算法和基于特征的检测算法。基于模型的方法是以数据统计分析为基础建立一个能够更好刻画语音信号内部联系的模型,常见的有基于隐马尔科夫模型(HMM)、矢量量化(vector quantization, V ...
【技术保护点】
一种利用短时时频值的自适应端点检测方法,其特征在于包括如下步骤:1)语音信号输入后,解析语音文件并提取采样值,对获取到的语音采样序列进行预处理;2)将步骤1)预处理后的信号分成了固定长度的帧,并形成一个帧序列,针对每一帧数据提取短时能量、短时信息熵和短时幅度相对值三个语音信号特征参数;3)根据步骤2)中的三个语音信号特征参数计算每一帧信号的短时时频值,并形成一个短时时频值序列;4)从信号第一帧开始,分析短时时频值序列,寻找语音的起点和终点,并输出语音端点检测结果。
【技术特征摘要】
1.一种利用短时时频值的自适应端点检测方法,其特征在于包括如下步骤: 1)语音信号输入后,解析语音文件并提取采样值,对获取到的语音采样序列进行预处理; 2)将步骤I)预处理后的信号分成了固定长度的帧,并形成一个帧序列,针对每一帧数据提取短时能量、短时信息熵和短时幅度相对值三个语音信号特征参数; 3)根据步骤2)中的三个语音信号特征参数计算每一帧信号的短时时频值,并形成一个短时时频值序列; 4)从信号第一帧开始,分析短时时频值序列,寻找语音的起点和终点,并输出语音端点检测结果。2.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤1)中,所述预处理包括预加重、加窗分帧及带通滤波; 所述预加重采用一阶数字滤波器H(Z) = l-μζ—1,其中,μ接近于I ; 所述加窗分帧的窗函数可为汉宁窗,分帧后帧长为20ms,帧移位IOms ; 所述带通滤波采用的带通滤波器的带宽可为400~3500Hz。3.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤2)中,每一帧数据提取短时能量为: 4.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤2)中,每一帧数据提取短时信息熵的具体方法为: 步骤一:对每一帧信号进行短时傅里叶变换(FFT),将信号由时域向频域转换: 5.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤2)中,每一帧数据提取短时幅度相对值的计算过程如下: (1)计算每一帧中样本点幅度值Ai与某一阈值Atto比较,统计一帧中大于阈值的样点个数Ni ; (2)根据每一帧的Ni数是否大于阈值Ntto,来判断样本幅度是否过小,将大于阈值的Ni保留下来,并将这个值称为短时幅度相对值。6.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤3)中,所述每一帧信号的短时时频值为: EHRi = (E1-E0).(H1-H0).(R1-R0) 其中,EHRi表示第i帧的短时时频值,Ei表示第i帧的短时能量,Hi表示第i帧的短时信息熵,Ri表示第i帧的短时幅度相对值,E0, H0, R0分别表示当前...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。