以语音特征为基础的话语识别装置及方法制造方法及图纸

技术编号:3047078 阅读:177 留言:0更新日期:2012-04-11 18:40
可对普通话中文语言的输入话语频谱矢量进行精确话语识别的一种装置及方法,其步骤包含有选择一组九个静态普通话元音供作为语音特征参考元音,计算在九个静态普通话参考元音上的输入矢量的投射与相对投射类似性,从这些九个静态普通话元音中选出一组具高投射类似性的元音,从该组高投射类似性元音中,选择其中具有与输入矢量有最高相对投射类似性的静态普通话元音,以及若该组高投射类似性元音为零的话,响应于一个投射类似性的量测值,从这些九个静态普通话元音中选择一个元音。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术总地涉及自动话语识别(ASR)系统,并更具体涉及可产生一组语音特征的一种元音矢量投射类似性系统和方法。
技术实现思路
用于对普通话中文语言的输入话语频谱矢量进行精确话语识别的一种装置及方法,其步骤包含有选择一组九个静态(stationary)普通话元音用作为语音特征参考元音,计算在九个静态普通话参考元音的上的输入矢量的投射与相对投射类似性,从这些九个静态普通话元音中选出一组具高投射类似性的元音,从该组高投射类似性元音中,选择其中具有与输入矢量有最高相对投射类似性的静态普通话元音,以及若该组的高投射类似性元音为零(null),则响应于一个投射类似性的量测值,从这些九个静态普通话元音中选择一个元音。图2为非静态元音″ai″的频谱以及其美-标度表示。图3(a)显示沿著一参考矢量c(k)的方向的与一输入矢量x的投射成比例的投射类似性;图3(b)显示在频谱上相似的参考元音″i″与″iu″,其中输入矢量在这些相似的参考元音上的投射类似性都会很高。图4是为一矢量图,其中显示二维矢量的相对投射类似性。图5为普通话元音″ai″的语音特征轮廓图,示出了依据本专利技术的参考元音之间的转变。图6(a)显示对于元音″i″(暗点)与元音″iu″(淡点)的a(8)(垂直轴)与a(6)(水平轴)的投射类似性。图6(b)显示对于相同元音的参考频谱,投射类似性的识别度(无相对投射类似性)与本专利技术的语音特征方案之间的比较。图7为根据本专利技术的″iu″的语音特征相对于″i″的语音特征的图形,λ作为一个参数,其随著灰度的增加而具有较大的数值。当人类说话时,空气是由肺部推出以刺激声带。发音部位接着根据所欲发出的声音形成压力波。对于一些元音而言,发音部位的形状在整个清晰发音过程中保持未改变,以致于频谱形状及时呈现静态。对其他元音而言,清晰发音由发音部位的形状开始,其逐渐地改变,且接着定位至另一形状。对于静态元音而言,频谱形状确定音素的识别及这些形状被用作为语音特征映射中的参考频谱。然而,非静态元音,一般具有两或三个参考元音区段及在这些元音之间的过渡区段。附图说明图13为静态元音″i″及非静态元音″ai″的频谱,说明差异。图14为非静态元音″ai″的频谱及美-标度频率表示,显示具有类似于元音″a″的频谱的初始相,位移至类似于元音″e″的频谱及最后定位在类似元音″i″的频谱。美-标度调整将物理上的赫兹频率转换到感知频率标度上,并可被利用来描述人类主观音调感觉。在美-标度中,以低频频带发声的情形,要比以高频频带发声的情况来得多;而赫兹(或频率)标度及美-标度之间的关系可以表示为美=2595×log(1+f/700)其中f是为信号的频率。本专利技术的较佳实施例利用了九种静态元音作为参考元音,以构成所有37个普通话元音的基础。表1中列出了37种普通话元音音素以及九种参考音素。表137种普通话元音音素a,o,e,ai,è,ei,au,ou,an,en,ang,eng,i,u,iu,ia,ie,iau,iou,iai,ian,in,iang,ing,ua,uo,uai,uei,uan,uen,uang,ueng,iue,iuan,iun,iong,el九种参考普通话元音音素a,o,e,è,eng,i,u,i u,el此九个参考元音的频谱由c(i)来代表,其中i=1,2,…,9,且对于此情况,其每一个是通过将在以训练组中的一特定参考元音的所有帧加以平均所计算得到的一个64维的矢量(或者在逆傅里叶变换中为波分量)。本专利技术使用一种语音特征映射而从一个64维的频谱矢量中产生出九个特征。首先,本专利技术从所有的元音音素中选出九个参考矢量。接着,语音特征映射计算一个输入频谱对于九个参考频谱矢量的投射类似性,然后计算输入频谱和72对参考频谱矢量之间的另外一组的72个相对类似性。之后还以参考矢量为基础,该映射计算输入频谱的另一组72个相对类似性。通过将此些类似性组合,便可以获得最终一组的九个语音特征。与传统的将输入频谱分类成为参考频谱之一的分类方案有所不同,本专利技术定量地规范输入频谱相对于九个参考频谱的形状(还有发声部位的形状)。本专利技术的语音特征映射通过类似性的测量而实现特征的抽取(或者说维数减少)。本专利技术的较佳实施例中使用了两种形式的基于投射的类似性测量即投射类似性,以及相对投射类似性。图3(a)示出了沿着具有预定加权的一参考矢量c(k)的方向,与一输入矢量x的投射成比例的投射类似性a(k)=Σwi(k)·xi·ci(k)||c(k)||]]>其中k=1,…,9,且||c(k)||=(Σi=164(ci(k))2]]>且其加权因数由下式给出wi(k)=ci(k)/σi(k)Σi=164ci(k)/σi(k)]]>其中i=1、2、…、64及k=1、2、…、9以及σi(k)为对应于kth参考元音的总体中维量i的标准偏差。在加权因子wi(k)中,σi(k)用作为常数,其使得在所有9个参考矢量中的所有维量具有相同方差。在加权因子的ci(k)项强调具有较大振幅的频谱分量。此组对应至每一参考矢量的加权数被正规化。对许多情况而言,上述的投射类似性是足以用于精确的话语识别。但图15(b)显示频谱上相似的参考元音″i″及″iu″的情况,其中在这些类似参考元音上的输入矢量的投射类似性将都为大及话语输入将为频谱上相似于类似的音素,从而需要进一步的区分以实现精确的话语识别。本专利技术的另一实施例利用了“相对投射类似性”,其仅抽取决定性的频谱分量,从而实现较佳的区分作用。为了解说容易,图4为一矢量图,说明用于二维矢量的相对投射类似性。当然,所有多维矢量是在本专利技术的预期范围内。输入矢量x接近两类似的参考矢量c(k)及c(l),稍微较接近c(k),但在投射上的差异不大,如图4(a)所示。通过c(k)-c(l)表示的界于c(k)及c(l)之间的差异对于输入话语矢量x的分类具有决定性。图4(b)及4(c)显示x-c(l)在c(k)-c(l)上的投射是大于x-c(k)在c(l)-c(k)上的投射,以及其间的差异是较x单独在c(k)及在c(l)上的投射之间的差异显著。利用此观察,相对于c(l)的输入矢量x在c(k)的统计上加权投射为q(k,l)=Σi=164vi(k,l)·(xi-ci(l))·(ci(k)-ci(l))||ck-c(l)||]]>其中k=1、...、9,l≠k,以及||c(k)-c(l)||=Σi=164(ci(k)-ci(l))2.]]>正规化加权数因子由下式表示vi(k,l)=|ci(k)-ci(l)|/(σi(k))2+(σi(l))2Σi=164|ci(k)-ci(l)|/(σi(k))2+(σi(l))2]]>其中i=1、...、64;k=1、...、9,l≠k。加权因子用于强调此具有大差异的两参考矢本文档来自技高网...

【技术保护点】
一种对以普通话中文的输入矢量进行话语识别的方法,包括有步骤:利用一组静态普通话元音作为语音特征参考元音。

【技术特征摘要】
1.一种对以普通话中文的输入矢量进行话语识别的方法,包括有步骤利用一组静态普通话元音作为语音特征参考元音。2.根据权利要求1的方法,其中该组静态普通话元音具有九个组成部分。3.根据权利要求2的方法,还包括有步骤计算在该组静态普通话元音上的输入矢量的投射类似性。4.根据权利要求3的方法,还包括有步骤响应于该投射类似性计算的最高值,从该组静态普通话元音中选择一候选元音。5.根据权利要求2的方法,还包括有步骤计算在该组静态普通话元音上的输入矢量的相对投射类似性的步骤,语音特征映射是基于九个参考矢量。6.根据权利要求5的方法,还包括有步骤响应于该相对投射类似性计算的最高值,从该组静态普通话元音中选择一候选元音。7.一种用于对以普通话中文的输入矢量进行话语识别的方法,包括有步骤(a)选择九个静态参考普通话元音用作为语音特征参考元音;(b)计算在这些九个静态普通话元音上的输入矢量的投射类似性;(c)计算在这些九个静态普通话元音上的输入矢量的相对投射类似性;(d)从这些九个静态普通话元音中选择一组高投射类似性的元音;(e)从该组高投射类似性元音中选择具有与输入矢量有最高相对投射类似性的静态普通话元音;及(f)若该组高投射类似性元音为零,则响应于最高投射类似性计算,从这些九个静态参考普通话元音中选择一个元音8.根据权利要求7的方法,还包括有步骤利用一定标因子来控制相对投射交叉耦合的程度,从而...

【专利技术属性】
技术研发人员:卜令楷阙志达
申请(专利权)人:韦尔博泰克公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1