使用优化的音素集进行广东话语音识别的系统和方法技术方案

技术编号：3046645 阅读：280 留言：0更新日期：2012-04-11 18:40

本发明专利技术包括以优化的音素集实施广东话语音识别器的系统和方法，可以包括被构造成将输入语音数据与来自根据优化的音素集实施的词典的音素串进行比较的识别器。该优化的广东话音素集以语音学技术实施以分别包括辅音音素和元音音素。为了系统效率的原因，该优化的广东话音素集优选以小型化的方式实施以仅包括在语音识别过程中精确表示广东话语音所要求的最小数量的辅音音素和元音音素。（*该技术在2024年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

一般地说本专利技术涉及电子语音识别系统，更具体地说涉及。
技术介绍
实施系统用户与电子设备进行稳健且有效的人机通信是系统设计者和制造商们非常重视的考虑因素。电子设备的语音控制操作是用于多种系统用户的理想接口。例如，语音控制操作允许用户同时执行其它的任务。例如，一个人在驾驶机车的同时，通过语音控制可以操作电子管理器。对于哪些具有身体障碍或其它特殊要求的用户来说电子系统的免提操作是比较理想的。电子设备的免提操作可以通过各种语音启动的电子系统实现。语音启动的电子系统由此有利地允许用户在其使用常规的输入设备不方便或者可能有危险的情况下与电子设备进行人机通信。电子娱乐系统也可以利用语音识别技术来允许用户通过向某一系统说话而与其交互。然而，有效地实施这种系统对系统设计者来说可是一种巨大的挑战。例如，增加系统的功能和性能的进一步需求可能要求更大的系统处理能力和要求其它的硬件资源。由于增加了生产成本和操作的无效率，在处理或硬件要求方面的增加也相应地导致了不利的影响。此外，增强系统执行各种高级操作的系统能力虽然可以给系统用户提供其它的优点，但也导致了对各种系统部件的控制和管理的...

【技术保护点】
一种执行语音识别过程的系统，包括：识别器，该识别器被构造成将输入语音数据与来自根据优化的音素集实施的词汇字典的音素串进行比较，所说的优化的音素集以语音学技术实施以分别提供辅音音素和元音音素，所说的优化的音素集以小型化的方式实施以仅包括所要求的最小数量的所说的辅音音素和所说的元音音素；和处理器，该处理器被构造成控制所说的识别器由此执行所说的语音识别过程。

【技术特征摘要】
US 2003-3-24 10/3953521.一种执行语音识别过程的系统，包括识别器，该识别器被构造成将输入语音数据与来自根据优化的音素集实施的词汇字典的音素串进行比较，所说的优化的音素集以语音学技术实施以分别提供辅音音素和元音音素，所说的优化的音素集以小型化的方式实施以仅包括所要求的最小数量的所说的辅音音素和所说的元音音素；和处理器，该处理器被构造成控制所说的识别器由此执行所说的语音识别过程。2.权利要求1的系统，其中所说的输入语音数据包括广东话语言数据，所说的优化的音素集简洁地构造以精确地表示所说的广东话语言数据。3.权利要求1的系统，其中所说的识别器和所说的处理器作为消费者电子设备的一部分实施。4.权利要求1的系统，其中在执行所说的语音识别过程的同时所说的优化的音素集节省处理资源和存储器资源。5.权利要求1的系统，其中所说的优化的音素集减小了为初始化实施所说的识别器而执行识别器训练过程的训练要求。6.权利要求1的系统，其中所说的音素串每个都包括来自所说的优化的音素集的不同的音素系列，每个所说的音素串对应于来自所说的词汇字典的不同的字。7.权利要求6的系统，其中所说的识别器比较所说的输入语音数据和来自所说的词汇字典的所说的音素串的隐马尔可夫模型，由此在所说的语音识别过程中选择所识别的字。8.权利要求1的系统，其中所说的优化的音素集包括音素b，d，g，p，t，k，m，n，ng，f，l，h，z，c，s，w，j，cl，sil，aa，i，u，e，o，yu，oe，eo，a，eu，aai，aau，ai，au，ei，oi，ou，eoi，ui和iu。9.权利要求1的系统，其中所说的优化的音素集包括辅音音素b，d，g，p，t，k，m，n，ng，f，l，h，z，c，s，w和j。10.权利要求1的系统，其中所说的优化的音素集包括闭合音素“cl”和静音音素“sil”。11.权利要求1的系统，其中所说的优化的音素集包括元音音素aa，i，u，e，o，yu，oe，eo，a，eu，aai，aau，ai，au，ei，oi，ou，eoi，ui和iu。12.权利要求1的系统，其中所说的优化的音素集通过利用一体化的双元音音素表示某些双元音，由此节省处理资源和存储器资源，同时给所说的语音识别过程提供更加精确的特征。13.权利要求12的系统，其中所说的优化的音素集包括一体化的双元音音素eu，aai，aau，ai，au，ei，oi，ou，eo i，ui和iu。14.权利要求1的系统，其中所说的优化的音素集通过在辅音音素“g”之后利用单独的唇圆音素“w”表示某一唇圆音。15.权利要求1的系统，其中所说的优化的音素集通过在辅音音素“k”之后利用单独的唇圆音素“w”表示某一唇圆音。16.权利要求1的系统，其中所说的输入语音数据包括塞音位于音节开始的音节初始环境，所说的优化的音素集响应地利用在所说的音节初始环境中的一个适当的辅音音素“p”，“t”或“k”来表示一个对应的辅音和一个先前的闭合音。17.权利要求1的系统，其中所说的输入语音数据包括塞音位于词组中间的字的结尾的音节最后/词组中间的环境，所说的优化的音素集响应地利用在所说的音节最后/词组中间环境中的一个适当的辅音音素“p”，“t”或“k”来表示一个对应的辅音和一个先前的闭合音。18.权利要求1的系统，其中所说的输入语音数据包括塞音位于词组结尾的字的结尾的音节最后/词组结尾的环境，所说的优化的音素集响应地利用在所说的音节最后/词组结尾的环境中的相同的闭合音素“cl”以仅将“p”，“t”或“k”辅音中的任一个表示为闭合音而不需要任何随后发出的辅音。19.权利要求1的系统，其中所说的输入语音数据包括其中第一塞音位于音节开始的初始音节环境、其中第二塞音位于词组的中间的第一字的结尾的音节最后/词组中间环境和其中第三塞音位于所说的词组的结尾的第二字的结尾的音节最后/词组结尾环境，所说的优化的音素集利用在所说的音节初始环境中的一个适当的辅音音素“b”，“d”，“g”，“p”，“t”或“k”以表示一个对应的辅音和一个先前的闭合音，所说的优化的音素集响应地利用在所说的音节最后/词组中间环境中的所说的适当的辅音音素“p”，“t”或“k”以表示所说的对应的辅音和所说的先前的闭合音，所说的优化的音素集响应地利用在所说的音节最后/词组结尾的环境中的同一相同的闭合音素“cl”以仅将“p”，“t”或“k”中的任一个表示为闭合音而不需要任何随后发出的辅音。20.权利要求1的系统，其中来自所说的优化的音素集中的所说的辅音音素和所说的元音音素组合以表示来自广东话语言系统中的音节。21.一种执行语音识别过程的方法，包括如下的步骤将识别器构造成比较输入语音数据和来自根据优化的音素集实施的词汇字典的音素串，所说的优化的音素集以语音学技术实施以分别提供辅音音素和元音音素，所说的优化的音素集以小型化的方式实施以仅包括所要求的最小数量的所说的辅音音素和所说的元音音素；和以处理器控制所说的识别器由此执行所说的语音识别过程。22.权利要求21的方法，其中所说的输入语音数据包括广东...

【专利技术属性】
技术研发人员：M埃蒙茨，L奥罗伦肖，X梅嫩德斯皮达尔，
申请(专利权)人：索尼电子有限公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人