当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于汉语语音音调抽取的方法和系统技术方案

技术编号:3046493 阅读:262 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种汉语语音音调抽取方法和系统。所述汉语语音音调抽取方法和系统包括:预计算哈明窗函数的抗偏自相关;至少对于一个帧,将第一候选者保存为不发音候选者,并从抗偏自相关函数检测其他发音候选者;以及基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,保存预定数量的最小成本路径,并以低时间延迟来输出多个邻接帧的至少一部分。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音识别领域。更具体地说,本专利技术涉及一种方法和系统,用于在语音识别中使用局部优化动态编程音调(pitch)路径跟踪(path-tracking)来进行汉语语音音调抽取。
技术介绍
音调抽取在多种语音处理系统中都是非常重要的组成部分。除了提供对产生语音的激励源的特征的有价值的深入研究之外,说话的音调曲线对识别讲话者来说也很有用,因而在几乎所有的语音分析合成系统中都是必需的。由于音调抽取的重要性,在语音识别领域已经提出了很多种用于音调抽取的方法和系统。基本上,用于音调抽取的方法或系统进行发音/不发音(voiced/unvoiced)判断,并在发音语音期间提供对音调周期(pitch period)的测量。用于音调抽取的方法和系统大致可划分成下述3个宽泛的类别1.原理上利用语音信号的时域特性的组。2.原理上利用语音信号的频域特性的组。3.同时利用语音信号的时域和频域特性的组。时域音调抽取器直接对语音波形进行操作,以估计音调周期。对于这些音调抽取器,最经常进行的测量有峰谷测量、越零(zero-crossing)测量和自相关(auto-correlation)测量。所有这些情形下所作出的基本假设是如果已合适地处理了准周期性信号以将格式结构的影响最小化,则简单的时域测量将可提供对所述周期的良好的估计。频域音调抽取器这一类别使用了下述特性,即如果信号在时域上是周期性的,则信号的频谱将由基频及其谐波处的一系列冲激组成。因此,可对信号的频谱进行简单的测量以估计信号的周期。混杂式音调抽取器这一类别同时包含了时域和频域方法的特性以进行音调抽取。例如,混杂式抽取器可能使用频域技术来提供频谱平坦的时间波形,然后使用自相关测量来估计音调周期。虽然上述用于音调抽取的传统方法和系统是精确且可靠的,但它们只适用于特性分析,而不适用于实时语音识别。另外,由于多数欧洲语言和汉语的区别,对于汉语语音音调抽取来说需要考虑一些特殊的方面。对比于多数欧洲语言,汉语普通话使用声调(tone)来用于词汇区分。声调在整个音节上持续。有5种词汇声调,它们在含义的歧义消除中起着重要作用。这些声调的直接声学表示是图1所示的音调曲线变动模式。声调最直接的声学体现是基频。因此,对于汉语语音音调抽取来说,应考虑基频的影响。Paul Boersma的题为“Accurate short-term analysis of the fundamentalfrequency and the harmonics-to-noise ratio of a sampled sound”的文章,IFAProceedings 17,1993,pp.97-110,给出了一种详细而先进的基于基频处理的音调抽取方法。Paul Boersma的文章的主要概念包括抗偏自相关(anti-biasauto-correlation)和维特比(viterbi)算法(动态编程)技术,其将发音/不发音判断、音调候选者估计器以及最佳路径获得(best path finding)集成到一趟(one pass)处理中,可有效地提高抽取精确度。然而,Paul Boersma的全局优化动态编程语音路径跟踪由于时间延迟而不适用于实际应用。音调抽取的时间延迟取决于两个因素其一是CPU计算能力,另一个是算法结构问题。像在Paul Boersma的算法中那样,如果当前窗(帧)中的音调抽取依赖于后面的窗(帧),则无论CPU速度如何,系统都将有响应的结构性延迟。例如,在Paul Boersma的算法中,如果语音长度是L秒,则结构性时间延迟是L秒。对于实时语音识别应用,这有时是不可接受的。因此,对本领域内的技术人员来说,很明显需要一种改进的方法和系统。
技术实现思路
本专利技术公开了若干用于汉语语音音调抽取的方法和装置,其使用局部优化动态编程音调路径跟踪,以满足实时语音识别应用的低时间延迟需求。在本专利技术的一个方面中,提出了一种示例性方法,该方法包括预计算哈明(Hamming)窗函数的抗偏自相关;至少对于一个帧,将第一候选者保存为不发音候选者,并从抗偏自相关函数检测其他发音候选者;基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,并保存预定数量的最小成本路径;以及以低时间延迟来输出多个邻接帧的至少一部分。在一个具体实施例中,所述方法包括从语音信号中去除全局和局部DC(直流)分量。在另一个实施例中,所述方法包括将语音信号分段为多个帧,并且对于每个帧,计算频谱、功率谱和自相关。在另一个实施例中,所述方法包括执行MFCC(Mel频标倒谱系数)抽取。本专利技术包括执行这些方法的装置和当在数据处理系统上执行时使得所述系统执行这些方法的计算机可读介质。本专利技术的其他特征从附图和下面的描述中将是很清楚的。附图说明参考附图,将可更充分地理解本专利技术的特征,其中图1示出了普通话中的5种主要词汇声调;图2示出了一种动态搜索处理;图3示出了语音曲线的平滑处理;图4是下述方法的一个实施例的流程图,该方法用于根据本专利技术来进行汉语语音音调抽取;图5是图4的方法的更详细的方案的流程图;图6是下述方法的一个实施例的框图,该方法用于根据本专利技术来进行汉语语音音调抽取;并且图7是可用于本专利技术的计算机系统的框图。具体实施例方式在下面的详细描述中,给出了大量的具体细节,以提供对本专利技术的透彻理解。然而,本领域内的技术人员将会认识到,本专利技术不应局限于这些具体细节。图7示出了可用于本专利技术的典型计算机系统的一个示例。注意,尽管图7示出了计算机系统的多种组件,然而它不应代表任何特定的体系结构或互连所述组件的方式,因为这些细节对本专利技术来说并没有密切关系。还将会认识到,具有更少组件或可能具有更多组件的网络计算机以及其他数据处理系统也可用于本专利技术。例如,图7的计算机系统可以是AppleMacintosh或IBM兼容计算机。如图7所示,计算机系统700具有数据处理系统的形式,并包括总线702、ROM 707、易失性RAM 705和非易失性存储器706,总线702耦合到微处理器703。微处理器703可以是Intel公司的Pentium微处理器,其耦合到缓存704,如图7的示例所示。总线702将这些各种组件互连起来,并将这些组件703、707、705和706互连到显示控制器和显示设备708,以及外围设备例如输入/输出(I/O)设备,所述外围设备可以是鼠标、键盘、调制解调器、网络接口、打印机以及本领域公知的其他设备。一般地,输入/输出设备710通过输入/输出控制器709耦合到系统。易失性RAM 705一般实现为动态RAM(DRAM),其持续地需要电源以刷新或保持存储器中的数据。非易失性存储器706典型地是磁性硬盘驱动器、磁光驱动器、光驱动器、DVD RAM或即使从系统去除电源时也可保持数据的其他类型的存储系统。一般地,非易失性存储器也可是随机访问存储器,尽管这不是必需的。尽管图7示出了非易失性存储器是直接耦合到数据处理系统中其余组件的本地设备,但可认识到,本专利技术也可利用远离系统的非易失性存储器,例如通过网络接口如调制解调器或以太网接口而耦合到该数据处理系统的网络存储设备。总线702可包括通过各种桥接器、控制器和/或适配器而彼此连接的一条或多条总线,如本领域内所公本文档来自技高网
...

【技术保护点】
一种汉语语音音调抽取方法,包括:    预计算哈明窗函数的抗偏自相关;    至少对于一个帧,将第一候选者保存为不发音候选者,并从所述抗偏自相关函数检测其他发音候选者;以及    基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,保存预定数量的最小成本路径,并以低时间延迟来输出多个邻接帧的至少一部分。

【技术特征摘要】
US 2001-11-12 10/011,6601.一种汉语语音音调抽取方法,包括预计算哈明窗函数的抗偏自相关;至少对于一个帧,将第一候选者保存为不发音候选者,并从所述抗偏自相关函数检测其他发音候选者;以及基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,保存预定数量的最小成本路径,并以低时间延迟来输出多个邻接帧的至少一部分。2.如权利要求1所述的方法,还包括对音调曲线进行平滑以满足建模需求。3.如权利要求1所述的方法,还包括将音调曲线归一化以满足聚类算法平衡。4.如权利要求1所述的方法,其中所述不发音强度函数是I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThreshold);]]>并且所述发音强度函数是I(Ck)=R*(mk)*(MinimumWeight+log10[(F(Ck)-Fmin)]log10[(Fmax)-Fmin]*(1.0-MinimumWeight)).]]>5.如权利要求1所述的方法,还包括根据传输成本函数计算音调路径的成本值,其中所述传输成本函数是TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)。6.如权利要求1所述的方法,还包括去除全局和局部直流分量。7.如权利要求1所述的方法,其中所述抗偏自相关函数是Rw(m)=1NΣn=0N-1-|m|hamming(n)hamming(n+m).]]>8.如权利要求1所述的方法,还包括给每个候选者指定强度值。9.如权利要求6所述的方法,其中所述去除是通过陷波滤波操作进行的。10.如权利要求1所述的方法,还包括将语音信号分段为多个帧。11.如权利要求4所述的方法,还包括基于人类发音特性,定义所述Fmax和Fmin。12.如权利要求10所述的方法,对于每个帧,所述方法还包括通过快速傅立叶变换计算频谱;计算功率谱;以及通过逆快速傅立叶变换计算自相关。13.如权利要求1所述的方法,还包括执行Mel频标倒谱系数抽取。14.一种汉语语音音调抽取系统,包括预处理器,用于预计算哈明窗函数的抗偏自相关;音调候选者估计器,用于至少对于一个帧,将第一候选者保存为不发音候选者,并从所述抗偏自相关函数检测其他发音候选者;以及局部优化动态处理器,用于基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,保存预定数量的最小成本路径,并以低时间延迟来输出多个邻接帧的至少一部分。15.如权利要求14所述的系统,还包括平滑处理器,用于对音调曲线进行平滑以满足建模需求。16.如权利要求14所述的系统,还包括归一化处理器,用于将音调曲线归一化以满足聚类算法平衡。17.如权利要求14所述的系统,其中所述不发音强度函数是...

【专利技术属性】
技术研发人员:良何波徐文柯
申请(专利权)人:英特尔公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1