使用优化的音素集进行广东话语音识别的系统和方法技术方案

技术编号:3046645 阅读:264 留言:0更新日期:2012-04-11 18:40
本发明专利技术包括以优化的音素集实施广东话语音识别器的系统和方法,可以包括被构造成将输入语音数据与来自根据优化的音素集实施的词典的音素串进行比较的识别器。该优化的广东话音素集以语音学技术实施以分别包括辅音音素和元音音素。为了系统效率的原因,该优化的广东话音素集优选以小型化的方式实施以仅包括在语音识别过程中精确表示广东话语音所要求的最小数量的辅音音素和元音音素。

【技术实现步骤摘要】

一般地说本专利技术涉及电子语音识别系统,更具体地说涉及。
技术介绍
实施系统用户与电子设备进行稳健且有效的人机通信是系统设计者和制造商们非常重视的考虑因素。电子设备的语音控制操作是用于多种系统用户的理想接口。例如,语音控制操作允许用户同时执行其它的任务。例如,一个人在驾驶机车的同时,通过语音控制可以操作电子管理器。对于哪些具有身体障碍或其它特殊要求的用户来说电子系统的免提操作是比较理想的。电子设备的免提操作可以通过各种语音启动的电子系统实现。语音启动的电子系统由此有利地允许用户在其使用常规的输入设备不方便或者可能有危险的情况下与电子设备进行人机通信。电子娱乐系统也可以利用语音识别技术来允许用户通过向某一系统说话而与其交互。然而,有效地实施这种系统对系统设计者来说可是一种巨大的挑战。例如,增加系统的功能和性能的进一步需求可能要求更大的系统处理能力和要求其它的硬件资源。由于增加了生产成本和操作的无效率,在处理或硬件要求方面的增加也相应地导致了不利的影响。此外,增强系统执行各种高级操作的系统能力虽然可以给系统用户提供其它的优点,但也导致了对各种系统部件的控制和管理的增加。例如,有效地识别在广东话中的字和词的增强的电子系统得益于有效的实施方案,因为要求大量且复杂的数字数据。因此,对于所有的前述原因,实施系统用户与电子设备人机通信的稳健且有效的方法一直是系统设计者和制造者重要的考虑因素。
技术实现思路
根据本专利技术,公开了一种以优化的音素集实施广东话语音识别器的系统和方法。在一个实施例中,识别器可以被构造成将输入语音数据与来自根据优化的广东话音素集实施的词典的音素串进行比较。优化的广东话音素集可以以子音节语音学技术实施以分别包括辅音音素和元音音素。由于系统效率的缘故,优化的广东话音素集优选以小型化的方式实施以仅包括在语音识别过程中精确地表示广东话语音所要求的最小数量的辅音音素和元音音素。在某些实施例中,优化的广东话音素集可以包括如下的辅音音素b,d,g,p,t,k,m,n,ng,f,l,h,z,c,s,w和j。此外,优化的广东话音素集也可以 包括如下的元音音素aa,i,u,e,o,yu,oe,eo,a,eu,aai,aau,ai,au,ei,oi,ou,eoi,ui和iu。在多个实施例中,优化的广东话音素集也可以包括闭合音素(closure phone)“cl”和静音音素“sil”。因为使用相对较小数量的音素,所以优化的广东话音素集提供了精确地识别广东话语音的有效且小型化的音素表示。在某些实施例中,优化的广东话音素集有利地通过利用单个一体化双元音音素(single unified diphong phone)表示双元音。例如,优化的广东话音素集可以包括如下的一体化双元音音素eu,aai,aau,ai,au,ei,oi,ou,eoi,ui和iu。此外,在广东话中,唇圆音(liprounding)通常与“g”音或与“k”音一起产生。在某些实施例中,优化的广东话音素集通过利用已经在广东话音素集中表示的不同的唇圆音“w”有效地表示唇圆。此外,在广东话中,“塞音(stop)”优选首先与对应于“b”,“d”,“g”,“p”,“t”和“k”的音关联。根据本专利技术,优化的广东话音素集根据在词组中的对应的声音环境有利地利用两种不同的技术来表示“b”,“d”,“g”,“p”,“t”和“k”。在塞音位于音节开始的音节初始的环境下,优化的广东话音素集可以利用在初始音节中的一个适当的辅音音素(“b”,“d”,“g”,“p”,“t”或“k”)来表示该辅音和一个先前的闭合音。此外,在塞音位于在词组的中间的字的结尾的音节最后/词组中间的环境(syllable-final/midphrase context)下,优化的广东话音素集可以利用在音节最后/词组中间的适当的音素(“p”,“t”或“k”)来表示该辅音和该先前的闭合音。此外,在塞音位于在词组的结尾的字的结尾的音节最后/词组结尾的环境(syllable-final/phrase-endcontext)下,优化的广东话音素集可以有效地利用在音节最后/词组结尾中的相同的闭合音素“cl”来仅将“p”,“t”或“k”中任一个表示为闭合音,而不需要任何随后发出的辅音。因此本专利技术提供了一种以优化的音素集实施广东话语音识别器的有效的系统和方法。附图概述附附图说明图1所示为根据本专利技术的计算机系统的一个实施例的方块图;附图2所示为根据本专利技术附图1的存储器的一个实施例的方块图;附图3所示为根据本专利技术附图2的语音检测器的一个实施例的方块图;附图4所示为根据本专利技术附图2的隐马尔可夫模型(HiddenMarkov Model)的一个实施例的附图;附图5所示为根据本专利技术附图2的字典的一个实施例的附图;附图6所示为根据本专利技术的一个实施例优化的广东话音素集的附图;附图7所示为根据本专利技术的一个实施例说明处理双元音的技术的附图;附图8所示为根据本专利技术的一个实施例说明处理唇圆音的技术的附图;附图9所示为根据本专利技术的一个实施例说明处理塞音的技术的附图。具体实施例方式本专利技术涉及语音识别系统的改进。提供下面的描述以便在本领域的普通技术人员能够实现并使用本专利技术,并且这些描述根据专利申请及其要求提供。对优选实施例做出各种改进对于本领域普通技术人员来说是显而易见的,因此在此的一般原理可应用于其它的实施例。因此并不希望将本专利技术限于所示的实施例,而是应该给予与在此所描述的原理和特征相一致的最宽泛的范围。本专利技术包括以优化的音素集实施广东话语音识别器的系统和方法,可以包括被构造成将输入语音数据与来自根据优化的广东话音素集实施的字典的音素串进行比较的识别器。优化的广东话音素集可以以子音节语音学技术实施以分别包括辅音音素和元音音素。由于系统效率的缘故,优化的广东话音素集优选以小型化的方式实施以仅包括在语音识别过程中精确地表示广东话语音所需的最小数量的辅音音素和元音音素。现在参考附图1,所示为根据本专利技术的计算机系统110的一个实施例的方块图。附图1的实施例包括声音传感器112、放大器116、模拟至数字转换器120、中央处理单元(CPU)128、存储器130和输入/输出接口132。在变型实施例中,除了结合附图1的实施例讨论的那些元件或功能之外或作为它们的替换,计算机系统110容易包括各种其它的元件或功能。声音传感器112检测声音能量并将所检测到的声音能量转换为模拟语音信号,通过线114将该模拟语音信号提供给放大器116。放大器116放大所接收的模拟语音信号并经线118将经放大的模拟语音信号提供给模拟至数字转换器120。然后模拟至数字转换器120将经放大的模拟语音信号转换为对应的数字语音数据。然后模拟至数字转换器120通过线122将数字语音数据提供给系统总线124。CPU 128然后访问在系统总线124上的数字语音数据并根据包含在存储器130中的软件指令相应地分析并处理该数字语音数据以执行语音检测。CPU 128的操作和在存储器130中的软件指令将在下文结合附图2-7进一步讨论。在处理了语音数据之后,CPU 128然后将语音检测分析的结果通过输入/输出接口132提供给其它的设备(未示)。在变型实施例中,本专利技术容易以除了在附图1中所示的计算机系统110本文档来自技高网...

【技术保护点】
一种执行语音识别过程的系统,包括:识别器,该识别器被构造成将输入语音数据与来自根据优化的音素集实施的词汇字典的音素串进行比较,所说的优化的音素集以语音学技术实施以分别提供辅音音素和元音音素,所说的优化的音素集以小型化的方式实施以仅包括所要求的最小数量的所说的辅音音素和所说的元音音素;和处理器,该处理器被构造成控制所说的识别器由此执行所说的语音识别过程。

【技术特征摘要】
US 2003-3-24 10/3953521.一种执行语音识别过程的系统,包括识别器,该识别器被构造成将输入语音数据与来自根据优化的音素集实施的词汇字典的音素串进行比较,所说的优化的音素集以语音学技术实施以分别提供辅音音素和元音音素,所说的优化的音素集以小型化的方式实施以仅包括所要求的最小数量的所说的辅音音素和所说的元音音素;和处理器,该处理器被构造成控制所说的识别器由此执行所说的语音识别过程。2.权利要求1的系统,其中所说的输入语音数据包括广东话语言数据,所说的优化的音素集简洁地构造以精确地表示所说的广东话语言数据。3.权利要求1的系统,其中所说的识别器和所说的处理器作为消费者电子设备的一部分实施。4.权利要求1的系统,其中在执行所说的语音识别过程的同时所说的优化的音素集节省处理资源和存储器资源。5.权利要求1的系统,其中所说的优化的音素集减小了为初始化实施所说的识别器而执行识别器训练过程的训练要求。6.权利要求1的系统,其中所说的音素串每个都包括来自所说的优化的音素集的不同的音素系列,每个所说的音素串对应于来自所说的词汇字典的不同的字。7.权利要求6的系统,其中所说的识别器比较所说的输入语音数据和来自所说的词汇字典的所说的音素串的隐马尔可夫模型,由此在所说的语音识别过程中选择所识别的字。8.权利要求1的系统,其中所说的优化的音素集包括音素b,d,g,p,t,k,m,n,ng,f,l,h,z,c,s,w,j,cl,sil,aa,i,u,e,o,yu,oe,eo,a,eu,aai,aau,ai,au,ei,oi,ou,eoi,ui和iu。9.权利要求1的系统,其中所说的优化的音素集包括辅音音素b,d,g,p,t,k,m,n,ng,f,l,h,z,c,s,w和j。10.权利要求1的系统,其中所说的优化的音素集包括闭合音素“cl”和静音音素“sil”。11.权利要求1的系统,其中所说的优化的音素集包括元音音素aa,i,u,e,o,yu,oe,eo,a,eu,aai,aau,ai,au,ei,oi,ou,eoi,ui和iu。12.权利要求1的系统,其中所说的优化的音素集通过利用一体化的双元音音素表示某些双元音,由此节省处理资源和存储器资源,同时给所说的语音识别过程提供更加精确的特征。13.权利要求12的系统,其中所说的优化的音素集包括一体化的双元音音素eu,aai,aau,ai,au,ei,oi,ou,eo i,ui和iu。14.权利要求1的系统,其中所说的优化的音素集通过在辅音音素“g”之后利用单独的唇圆音素“w”表示某一唇圆音。15.权利要求1的系统,其中所说的优化的音素集通过在辅音音素“k”之后利用单独的唇圆音素“w”表示某一唇圆音。16.权利要求1的系统,其中所说的输入语音数据包括塞音位于音节开始的音节初始环境,所说的优化的音素集响应地利用在所说的音节初始环境中的一个适当的辅音音素“p”,“t”或“k”来表示一个对应的辅音和一个先前的闭合音。17.权利要求1的系统,其中所说的输入语音数据包括塞音位于词组中间的字的结尾的音节最后/词组中间的环境,所说的优化的音素集响应地利用在所说的音节最后/词组中间环境中的一个适当的辅音音素“p”,“t”或“k”来表示一个对应的辅音和一个先前的闭合音。18.权利要求1的系统,其中所说的输入语音数据包括塞音位于词组结尾的字的结尾的音节最后/词组结尾的环境,所说的优化的音素集响应地利用在所说的音节最后/词组结尾的环境中的相同的闭合音素“cl”以仅将“p”,“t”或“k”辅音中的任一个表示为闭合音而不需要任何随后发出的辅音。19.权利要求1的系统,其中所说的输入语音数据包括其中第一塞音位于音节开始的初始音节环境、其中第二塞音位于词组的中间的第一字的结尾的音节最后/词组中间环境和其中第三塞音位于所说的词组的结尾的第二字的结尾的音节最后/词组结尾环境,所说的优化的音素集利用在所说的音节初始环境中的一个适当的辅音音素“b”,“d”,“g”,“p”,“t”或“k”以表示一个对应的辅音和一个先前的闭合音,所说的优化的音素集响应地利用在所说的音节最后/词组中间环境中的所说的适当的辅音音素“p”,“t”或“k”以表示所说的对应的辅音和所说的先前的闭合音,所说的优化的音素集响应地利用在所说的音节最后/词组结尾的环境中的同一相同的闭合音素“cl”以仅将“p”,“t”或“k”中的任一个表示为闭合音而不需要任何随后发出的辅音。20.权利要求1的系统,其中来自所说的优化的音素集中的所说的辅音音素和所说的元音音素组合以表示来自广东话语言系统中的音节。21.一种执行语音识别过程的方法,包括如下的步骤将识别器构造成比较输入语音数据和来自根据优化的音素集实施的词汇字典的音素串,所说的优化的音素集以语音学技术实施以分别提供辅音音素和元音音素,所说的优化的音素集以小型化的方式实施以仅包括所要求的最小数量的所说的辅音音素和所说的元音音素;和以处理器控制所说的识别器由此执行所说的语音识别过程。22.权利要求21的方法,其中所说的输入语音数据包括广东...

【专利技术属性】
技术研发人员:M埃蒙茨L奥罗伦肖X梅嫩德斯皮达尔
申请(专利权)人:索尼电子有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1