一种基音检测的方法和装置制造方法及图纸

技术编号:8131492 阅读:159 留言:0更新日期:2012-12-27 04:04
本发明专利技术公开了一种基音检测的方法和装置,属于语音与音频领域。该基音检测的方法,包括:在时域对所述语音信号进行基音检测,得到初始基音周期;将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;根据初始基音周期和所述语音信号的频谱提取特征参数;根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。

【技术实现步骤摘要】

本专利技术涉及一种基音检测的方法和装置,尤其涉及一种高精确度、运算复杂度较低的基音检测方法和装置。
技术介绍
在数字通信领域,语音、图像、音频、视频的传输有着非常广泛的应用需求,如手机通话、音视频会议、广播电视、多媒体娱乐等。为了降低音视频信号存储或者传输过程中占用的资源,音视频压缩编码技术应运而生。在语音与音频信号处理中,基音检测是各种语音与音频实际应用中的关键技术之一,在语音编码,语音识别,音调检索中基音都是重要的提取参数,基音检测的准确性直接影响最后编码的性能。对于基音周期的检测,现有技术中,一般采用两种方法一种方法是时域法,通过对语音信号进行预处理后,在时域对输入信号进行分析和计算,确定基音周期。因为语音信号在时域内对语音信号进行基音检测,大多采用的是相关函数法,只在时域内对语音信号的相关值进行检测,而语音信号在真正基音周期整数倍上的相关值都会很大,很难进行准确区分检测,容易出现基音周期加倍错误,从而降低了基音参数检测的精度。另一种方法是频域法,是将时域信号转换到频域,并在频域上进行峰值检测;根据检测到的峰值和基音跟踪算法,得到基音频率;对该基音频率进行相应的转换,获得基音周期。在此过程中,将时域信号转换到频域并在频域进行基音搜索的运算复杂度较高,在实际应用中很难被采用。
技术实现思路
本专利技术的实施例提供一种精确度高、运算复杂度较低的基音检测方法和装置。为达到上述目的,本专利技术的实施例采用如下技术方案一种基音检测的方法,包括在时域对所述语音信号进行基音检测,得到初始基音周期;将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;根据初始基音周期和所述语音信号的频谱提取特征参数;根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。一种基音检测的装置,包括初始基音周期获取模块用于在时域对所述语音信号进行基音检测,得到初始基音周期;时频转换模块用于将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;特征参数提取模块用于根据初始基音周期和所述语音信号的频谱提取特征参数;精细基音周期获取模块用于根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。本专利技术实施例提供的一种基音检测的方法和装置,根据在时域上获取的初始基音周期和频域中所提取的特征参数对基音周期进行检测,避免基音周期加倍错误的出现,提高了基音周期检测的精确度。附图说明图I为本专利技术实施例一种基音检测的方法的流程 图2为为本专利技术实施例一种基音检测的方法语音信息加窗的结构示意图;图3为本专利技术实施例一种基音检测的方法时频转换的流程图;图4为本专利技术实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对三倍频进行倍频检测的流程图;图5为本专利技术实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对二倍频进行倍频检测的流程图;图6为本专利技术实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和缓存数据对三倍频进行倍频检测的流程图;图7为本专利技术实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和缓存数据对二倍频进行倍频检测的流程图;图8为本专利技术实施例一种基音检测的方法对幅度谱进行插值的流程图;图9为本专利技术实施例一种基音检测的方法对语音信号进行补零的流程图;图10为本专利技术实施例一种基音检测的方法对全频域进行检测的流程图。图11为本专利技术实施例一种基音检测装置的结构示意图;图12为本专利技术实施例2—种基音检测的装置时频转换模块的结构示意图;图13为本专利技术实施例3—种基音检测的装置时频转换模块的结构示意图。具体实施例方式数字信号处理领域,音频编解码器、视频编解码器广泛应用于各种电子设备中,例如移动电话,无线装置,个人数据助理(PDA),手持式或便携式计算机,GPS接收机/导航器,照相机,音频/视频播放器,摄像机,录像机,监控设备等。通常,这类电子设备中包括音频编码器或音频解码器,音频编码器或者解码器可以直接由数字电路或芯片例如DSP (digital signal processor)实现,或者由软件代码驱动处理器执行软件代码中的流程而实现。音频编码器中通常会有基音检测的流程。下面结合附图对本专利技术实施例一种基音检测的方法进行详细描述。实施例I一种基音检测的方法,如图I所示,包括步骤100、在时域对所述语音信号进行基音检测,得到初始基音周期在时域中,可根据感知加权后的语音信号进行开环基音检测,得到初始基因周期T,。步骤101、对所述语音信号进行预处理。对语音信号s (η)进行预处理,例如预加重处理,以加重语音信号中的高频成分,提高语音编码的精确度。完成对于语音信号的预处理后,得到预处理语音信号spM(η)。为将所述语音信号转换到频域,使基音检测更加精确,则需要对该语音信号进行前期处理。步骤102、为所述预处理后的帧信号加分析窗。根据完成预处理的语音信号Spre (η),为所述预处理后的帧信号加分析窗,该分析窗函数为本文档来自技高网...

【技术保护点】
一种基音检测的方法,其特征在于,包括:在时域对所述语音信号进行基音检测,得到初始基音周期;将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;根据初始基音周期和所述语音信号的频谱提取特征参数;根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。

【技术特征摘要】
1.一种基音检测的方法,其特征在于,包括 在时域对所述语音信号进行基音检测,得到初始基音周期; 将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱; 根据初始基音周期和所述语音信号的频谱提取特征参数; 根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。2.根据权利要求I所述的一种基音检测的方法,其特征在于,所述特征参数,包括平均幅度参数,平均幅度与频点幅度的比值参数和峰值位置参数。3.根据权利要求I所述的一种基音检测的方法,其特征在于,所述根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期,还包括根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断或者根据平均幅度与频点幅度的比值参数值大小和缓存中所存储的当前帧之前倍频的判断结果进行判断。4.根据权利要求3所述的一种基音检测的方法,其特征在于,所述根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断,包括 判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第一默认值; 如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第一默认值,则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第二默认值; 如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第二默认值,则判断三倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第三默认值; 如果三倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第三默认值,则确定三倍频为所需要的精细基音频率。5.根据权利要求3所述的一种基音检测的方法,其特征在于,所述根据平均幅度与频点幅度的比值参数值大小和缓存中所存储的当前帧之前倍频的判断结果进行判断,包括 判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第四默认值; 如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第四默认值,则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第五默认值; 如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第五默认值,则判断前一帧是否发生基音周期三倍错误; 如果前一帧发生基音周期三倍错误,则判断当前帧之前发生基音周期三倍错误的次数是否大于第六默认值; 如果当前帧之前发生基音周期三倍错误的次数大于第六默认值,则确定三倍频为所需要的精细基音周期。6.根据权利要求3所述的一种基音检测的方法,其特征在于,所述根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断,还包括 判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第七默认值; 如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第七默认值,则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第八默认值; 如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第八默认值,则判断二倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第九默认值; 如果二倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第九默认值,则确定二倍频为所需要的精细基音频率。7.根据权利要求3所述的一种基音检测的方法,其特征在于,所述根据平均幅度与频点幅度的比值参数值大小和缓存中所存储的当前帧之前倍频的判断结果进行判断,还包括 判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十默认值; 如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十默认值,则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十一默认值; 如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十一默认值,则判断前一帧是否发生基音周期二倍错误; 如果前一帧发生基音周期二倍错误,则判断当前帧之前发生基音周期二倍错误的次数是否大于第十二默认值; 如果当前帧的之前发生基音周期二倍错误的次数大于第十二默认值,则确定二倍频为所需要检测的精细基音频率。8.根据权利要求I所述的一种基音检测的方法,其特征在于,在所述根据初始基音周期和所述语音信号的频谱提取特征参数之前,包括 为所述频谱的幅度谱进行插值,获取所述语音信号的高密度幅度谱。9.根据权利要求8所述的一种基音检测的方法,其特征在于,所述插值,包括三次B样条插值 /(X)=[唞V^3(X-A),其中f(x)为待插值信号,c(k)为三次B样插值系数,β3(χ)k^Z为三次B样条基函数。10.根据权利要求9所述的一种基音检测的方法,其特征在于,在...

【专利技术属性】
技术研发人员:齐峰岩苗磊阿里斯·塔勒布
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1