利用优化音素集进行普通话语音识别的系统和方法技术方案

技术编号：3046232 阅读：219 留言：0更新日期：2012-04-11 18:40

本发明专利技术包含一种利用优化音素集实现普通话语音识别器的系统和方法，并可包含一种识别器，该识别器用来对输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串进行比较。利用语音技术实现所述优化音素集分别提供辅音音素和元音音素。为了系统的有效性，以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素，从而在语音识别过程中精确表示普通话语音。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总体上涉及电子语音识别系统，具体而言，本专利技术涉及一种。
技术介绍
为系统用户实现一种鲁棒而又有效的与电子设备进行交流的方法是系统设计者和制造者主要考虑的事。对于许多系统用户来说，电子设备的声控操作是一种理想的接口。例如，声控操作允许用户同步执行其它任务。例如，一个人可以驾驶汽车，同时利用声控操作电子组织者。对于那些有身体限制或者其它特殊需求的用户来说，不用手操作电子系统也是理想的。通过各种语音激活电子系统可以实现不用手操作电子设备。因此，语音激活电子系统有利地允许用户在使用传统输入设备不方便或者潜在危险的情况下与电子设备进行交流。电子娱乐系统也可利用语音识别技术，从而允许用户通过说话来与系统交流。可是，有效实现这种系统可能会对系统设计者产生重大挑战。例如，对增加的系统功能和系统的增强需要可能需要更多的系统处理能力，并需要另外的软件资源。处理或硬件需求的增加也可因增加的生产费用和操作效率低而导致相应的有害经济影响。另外，进行各种高级操作的增强系统能力可为系统用户提供额外的好处，但是也可对各种系统部件的控制和管理产生更多的要求。例如，有效识别普通话单词和短语的增强电子系统可因涉及的大量复杂的数字数据而不易有效实现。因此，由于所有上述原因，为系统用户实现一种鲁棒而又有效的与电子设备进行交流的方法仍然是系统设计者和制造者主要考虑的事。
技术实现思路
根据本专利技术，公开了一种利用优化音素集实现普通话语音识别器的系统和方法。在一个实施例中，可以配置识别器以便比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串。使用语音技术可以实现该优化普通话...

【技术保护点】
一种用来执行语音识别过程的系统，包含：识别器，用来比较输入语音数据和根据优化音素集实现的词汇字典中的音素串，利用语音技术实现所述优化音素集以分别提供辅音音素和元音音素，以压缩方式实现所述优化音素集以仅包括所需最少的所述辅音音素和所述元音音素；和处理器，用来控制所述识别器，从而执行所述语音识别过程。

【技术特征摘要】
US 2002-7-11 60/395,113;US 2003-3-31 10/403,6421.一种用来执行语音识别过程的系统，包含识别器，用来比较输入语音数据和根据优化音素集实现的词汇字典中的音素串，利用语音技术实现所述优化音素集以分别提供辅音音素和元音音素，以压缩方式实现所述优化音素集以仅包括所需最少的所述辅音音素和所述元音音素；和处理器，用来控制所述识别器，从而执行所述语音识别过程。2.权利要求1的系统，其中所述输入语音数据包括普通话语言数据，所述优化音素集被压缩配置以便精确表示所述普通话语言数据。3.权利要求1的系统，其中所述识别器和所述处理器被实施成消费电子设备的一部分。4.权利要求1的系统，其中所述优化音素集在执行所述语音识别程序的同时，节约处理资源和存储资源。5.权利要求1的系统，其中所述优化音素集减少了执行识别器训练程序以便初始执行所述识别器的训练需要。6.权利要求1的系统，其中所述音素串中每一个都包括不同的一串来自优化音素集的音素，所述音素串中每一个对应于所述词汇字典中的不同单词。7.权利要求6的系统，其中所述识别器比较所述输入语音数据和所述词汇字典中所述音素串的隐式Markov模型，从而在所示语音识别过程中选择出被识别单词。8.权利要求1的系统，其中所述优化音素集包括音素b，p，d，t，g，k，z，c，zh，ch，j，q，f，s，sh，x，h，m，n，ng，l，r，y，w，a，e，o，i，u，yu，ai，ei，ao，和ou。9.权利要求1的系统，其中所述优化音素集包括辅音音素b，p，d，t，g，k，z，c，zh，ch，j，q，f，s，sh，x，h，m，n，ng，l，r，y，和w。10.权利要求1的系统，其中所述优化音素集包括结束音素“cl”。11.权利要求1的系统，其中所述优化音素集包括元音音素a，e，o，i，u，yu，ai，ei，ao，和ou。12.权利要求1的系统，其中所述优化音素集利用统一的双元音音素来表示某些双元音，从而在为所述语音识别程序提供更大精确度特性的同时，节约处理资源和存储资源。13.权利要求12的系统，其中所述优化音素集包括统一双元音音素ai，ei，ao，和ou。14.权利要求1的系统，其中所述优化音素集包括闭止音类，该闭止音类包括单独音素b，p，d，t，g，和k。15.权利要求1的系统，其中所述优化音素集包括破擦音类，该破擦音类包括单独音素z，c，zh，ch，j，和q。16.权利要求1的系统，其中所述优化音素集包括摩擦音类，该摩擦音类包括单独音素f，s，sh，x，和h。17.权利要求1的系统，其中所述优化音素集包括近似音类，该近似音类包括单独音素l，r，y，w，和yu。18.权利要求1的系统，其中所述优化音素集包括鼻音类，该鼻音类包括单独音素m，n，和ng。19.权利要求1的系统，其中所述优化音素集表示普通话语言的各种声音，而不需利用相应的音调信息作为所述优化音素集中不同音素的一部分。20.权利要求1的系统，其中所述优化音素集中的所述辅音音素和所述元音音素被组合起来表示普通话语言系统中的音节。21.一种用来执行语音识别过程的方法，包含步骤配置一种识别器，以便比较输入语音数据和根据优化音素集实现的词汇字典中的音素串，利用语音技术实现所述优化音素集分别提供辅音音素和元音音素，以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素；和利用...

【专利技术属性】
技术研发人员：X梅嫩德斯皮达尔，段镭，吕静雯，L奥罗伦肖，
申请(专利权)人：索尼电子有限公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人