以语音特征为基础的话语识别装置及方法制造方法及图纸

技术编号：3047078 阅读：177 留言：0更新日期：2012-04-11 18:40

可对普通话中文语言的输入话语频谱矢量进行精确话语识别的一种装置及方法，其步骤包含有选择一组九个静态普通话元音供作为语音特征参考元音，计算在九个静态普通话参考元音上的输入矢量的投射与相对投射类似性，从这些九个静态普通话元音中选出一组具高投射类似性的元音，从该组高投射类似性元音中，选择其中具有与输入矢量有最高相对投射类似性的静态普通话元音，以及若该组高投射类似性元音为零的话，响应于一个投射类似性的量测值，从这些九个静态普通话元音中选择一个元音。（*该技术在2021年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总地涉及自动话语识别(ASR)系统，并更具体涉及可产生一组语音特征的一种元音矢量投射类似性系统和方法。
技术实现思路
用于对普通话中文语言的输入话语频谱矢量进行精确话语识别的一种装置及方法，其步骤包含有选择一组九个静态(stationary)普通话元音用作为语音特征参考元音，计算在九个静态普通话参考元音的上的输入矢量的投射与相对投射类似性，从这些九个静态普通话元音中选出一组具高投射类似性的元音，从该组高投射类似性元音中，选择其中具有与输入矢量有最高相对投射类似性的静态普通话元音，以及若该组的高投射类似性元音为零(null)，则响应于一个投射类似性的量测值，从这些九个静态普通话元音中选择一个元音。图2为非静态元音″ai″的频谱以及其美-标度表示。图3(a)显示沿著一参考矢量c(k)的方向的与一输入矢量x的投射成比例的投射类似性；图3(b)显示在频谱上相似的参考元音″i″与″iu″，其中输入矢量在这些相似的参考元音上的投射类似性都会很高。图4是为一矢量图，其中显示二维矢量的相对投射类似性。图5为普通话元音″ai″的语音特征轮廓图，示出了依据本专利技术的参考元音之间的转变。图6(a)显示对于元音″i″(暗点)与元音″iu″(淡点)的a(8)(垂直轴)与a(6)(水平轴)的投射类似性。图6(b)显示对于相同元音的参考频谱，投射类似性的识别度(无相对投射类似性)与本专利技术的语音特征方案之间的比较。图7为根据本专利技术的″iu″的语音特征相对于″i″的语音特征的图形，λ作为一个参数，其随著灰度的增加而具有较大的数值。当人类说话时，空气是由肺部推出以刺激声...

【技术保护点】
一种对以普通话中文的输入矢量进行话语识别的方法，包括有步骤：利用一组静态普通话元音作为语音特征参考元音。

【技术特征摘要】
1.一种对以普通话中文的输入矢量进行话语识别的方法，包括有步骤利用一组静态普通话元音作为语音特征参考元音。2.根据权利要求1的方法，其中该组静态普通话元音具有九个组成部分。3.根据权利要求2的方法，还包括有步骤计算在该组静态普通话元音上的输入矢量的投射类似性。4.根据权利要求3的方法，还包括有步骤响应于该投射类似性计算的最高值，从该组静态普通话元音中选择一候选元音。5.根据权利要求2的方法，还包括有步骤计算在该组静态普通话元音上的输入矢量的相对投射类似性的步骤，语音特征映射是基于九个参考矢量。6.根据权利要求5的方法，还包括有步骤响应于该相对投射类似性计算的最高值，从该组静态普通话元音中选择一候选元音。7.一种用于对以普通话中文的输入矢量进行话语识别的方法，包括有步骤(a)选择九个静态参考普通话元音用作为语音特征参考元音；(b)计算在这些九个静态普通话元音上的输入矢量的投射类似性；(c)计算在这些九个静态普通话元音上的输入矢量的相对投射类似性；(d)从这些九个静态普通话元音中选择一组高投射类似性的元音；(e)从该组高投射类似性元音中选择具有与输入矢量有最高相对投射类似性的静态普通话元音；及(f)若该组高投射类似性元音为零，则响应于最高投射类似性计算，从这些九个静态参考普通话元音中选择一个元音8.根据权利要求7的方法，还包括有步骤利用一定标因子来控制相对投射交叉耦合的程度，从而...

【专利技术属性】
技术研发人员：卜令楷，阙志达，
申请(专利权)人：韦尔博泰克公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人