语音基音频率检测方法和装置制造方法及图纸

技术编号:10050579 阅读:211 留言:0更新日期:2014-05-15 21:17
本发明专利技术公开一种语音基音频率检测方法和装置。其中在语音基音频率检测方法中,检测语音信号帧中的单调分量,利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中,计算候选基频集合中每个候选基频的和谐判据,将具有最大和谐判据的候选基频作为所述语音信号帧的基频。通过利用具有较大能量的单调分量作为基音检测的基础,从而提高了基音检测在有噪环境下的准确率。

【技术实现步骤摘要】

本专利技术涉及通信领域,特别是涉及一种语音基音频率检测方法和装置
技术介绍
人类语音由清音和浊音构成。清音是气流通过口径缩小的声门,气流高速冲过产生湍流引起的摩擦音,这种音在语音中占的比例较少,发声时声带不振动,因此没有周期性,类似于宽带噪音;浊音呼气使声带靠拢发声颤动时发出的具有周期性的声音,这种声音在频率构成上由一个基音和一系列谐音构成,基音的频率就是声音周期的倒数。音频频率在语音信号处理中是最基本的参数之一,它在语音信号的分析、合成、编码、识别等各项应用中起着非常重要的作用。在语音的基音频率检测方面,已经有很多相关研究成果,这些成果大多基于相关性的检测,即通过时域、频域或者信号的预测残差的自相关函数来得到相关性峰值所在的延迟采样数或者离散频率数。基于自相关的方法有以下几个缺陷,首先是自相关的计算量较大;其次检测出的周期采样数是整数,其对应的频率便是一组离散数,精度不足,这在基音频率较高时问题突出;三,自相关函数的峰值判断困难,多数情况下会有多个峰对应着基频、谐频或干扰噪声,这常常导致基频判断错误。
技术实现思路
本专利技术要解决的技术问题是提供一种语音基音频率检测方法和装置。通过利用具有较大能量的单调分量作为基音检测的基础,能够提高基音检测在有噪环境下的准确率。根据本专利技术的一个方面,提供一种语音基音频率检测方法,包括:检测语音信号帧中的单调分量;利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中;计算候选基频集合中每个候选基频的和谐判据;将具有最大和谐判据的候选基频作为所述语音信号帧的基频。优选的,检测语音信号帧中的单调分量的步骤包括:针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引。优选的,若XA[k]同时大于XA[k-1]和XA[k+1],进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值;若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值,则执行将XA[k]作为单调分量的步骤。优选的,频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为语音信号帧长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。优选的,利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中的步骤包括:选择频谱幅值最大的M个单调分量;对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数;将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。优选的,将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中的步骤之后,还包括:将候选基频集合中数值接近的候选基频合并。优选的,将候选基频集合中数值接近的候选基频合并的步骤包括:对于候选基频集合中的包含Kg个元素的子集合{Fcandidate[gi本文档来自技高网...
语音基音频率检测方法和装置

【技术保护点】
一种语音基音频率检测方法,其特征在于,包括:检测语音信号帧中的单调分量;利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中;计算候选基频集合中每个候选基频的和谐判据;将具有最大和谐判据的候选基频作为所述语音信号帧的基频。

【技术特征摘要】
1.一种语音基音频率检测方法,其特征在于,包括:
检测语音信号帧中的单调分量;
利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候
选基频放置在候选基频集合中;
计算候选基频集合中每个候选基频的和谐判据;
将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
2.根据权利要求1所述的方法,其特征在于:
检测语音信号帧中的单调分量的步骤包括:
针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于
XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索
引。
3.根据权利要求2所述的方法,其特征在于:
若XA[k]同时大于XA[k-1]和XA[k+1],进一步判断XA[k]与所述语
音信号帧中的最大频谱幅值的比值是否大于幅度阈值;
若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈
值,则执行将XA[k]作为单调分量的步骤。
4.根据权利要求2或3所述的方法,其特征在于:
频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引
上限int[fhi...

【专利技术属性】
技术研发人员:吴晟林福辉徐晶明蒋斌
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1