利用优化音素集进行普通话语音识别的系统和方法技术方案

技术编号:3046232 阅读:219 留言:0更新日期:2012-04-11 18:40
本发明专利技术包含一种利用优化音素集实现普通话语音识别器的系统和方法,并可包含一种识别器,该识别器用来对输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串进行比较。利用语音技术实现所述优化音素集分别提供辅音音素和元音音素。为了系统的有效性,以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素,从而在语音识别过程中精确表示普通话语音。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术总体上涉及电子语音识别系统,具体而言,本专利技术涉及一种。
技术介绍
为系统用户实现一种鲁棒而又有效的与电子设备进行交流的方法是系统设计者和制造者主要考虑的事。对于许多系统用户来说,电子设备的声控操作是一种理想的接口。例如,声控操作允许用户同步执行其它任务。例如,一个人可以驾驶汽车,同时利用声控操作电子组织者。对于那些有身体限制或者其它特殊需求的用户来说,不用手操作电子系统也是理想的。通过各种语音激活电子系统可以实现不用手操作电子设备。因此,语音激活电子系统有利地允许用户在使用传统输入设备不方便或者潜在危险的情况下与电子设备进行交流。电子娱乐系统也可利用语音识别技术,从而允许用户通过说话来与系统交流。可是,有效实现这种系统可能会对系统设计者产生重大挑战。例如,对增加的系统功能和系统的增强需要可能需要更多的系统处理能力,并需要另外的软件资源。处理或硬件需求的增加也可因增加的生产费用和操作效率低而导致相应的有害经济影响。另外,进行各种高级操作的增强系统能力可为系统用户提供额外的好处,但是也可对各种系统部件的控制和管理产生更多的要求。例如,有效识别普通话单词和短语的增强电子系统可因涉及的大量复杂的数字数据而不易有效实现。因此,由于所有上述原因,为系统用户实现一种鲁棒而又有效的与电子设备进行交流的方法仍然是系统设计者和制造者主要考虑的事。
技术实现思路
根据本专利技术,公开了一种利用优化音素集实现普通话语音识别器的系统和方法。在一个实施例中,可以配置识别器以便比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串。使用语音技术可以实现该优化普通话音素集分别包括辅音音素和元音音素。为了系统有效性,可优选地以压缩方式来实现该优化普通话音素集仅包括所需最少的辅音音素和元音音素,以便在语音识别过程中精确地表达普通话语音。在某些实施例中,优化普通话音素集可包括以下辅音音素b,p,d,t,g,k,z,c,zh,ch,j,q,f,s,sh,x,h,m,n,ng,l,r,y,和w。另外,该优化普通话音素集还可包括以下元音音素a,e,o,i,u,yu,ai,ei,ao,和ou。在许多实施例中,该优化普通话音素集还可包括结束音素“cl”。由于使用相对少量的音素,因此该优化普通话音素集提供了一种用来精确地识别普通话语音的有效且简洁的音素表示法。在某些实施例中,优化普通话音素集可通过使用单个统一的双元音音素,有利地表示双元音。例如,该优化普通话音素集可包括以下统一的双元音音素ai,ei,ao,和ou。另外,无音调信息加入该优化普通话音素集。因此,本专利技术提供一种利用优化音素集实现普通话语音识别器的有效的系统和方法。附图说明图1是根据本专利技术的计算机系统的一个实施例的方框图;图2是根据本专利技术的图1中存储器的一个实施例的方框图;图3是根据本专利技术的图2的语音识别引擎的一个实施例的方框图;图4是根据本专利技术的图2的隐式Markov模型的一个实施例的示意图;图5是根据本专利技术的图2的词典的一个实施例的示意图;图6是根据本专利技术的一个实施例的优化普通话音素集的示意图;和图7是根据本专利技术的一个实施例描述处理双元音技术的示意图。具体实施例方式本专利技术设计一种语音识别系统的改进。根据专利申请及其要求提供以下说明,使本领域的普通技术人员能够制造和使用本专利技术。对于那些本领域的普通技术人员来说,可以很容易地对优选实施例进行各种修改,并且这里的基本原理可以应用到其它实施例中。因此,本专利技术并不限于所示实施例,而是应该给予符合这里所述的原理和特征的最宽范围。本专利技术包含一种利用优化音素集实现普通话语音识别器的系统和方法,并且可包括识别器,该识别器用来比较输入语音数据和根据优化普通话音素集实现的词汇字典中的音素串。利用语音技术可实现该优化普通话音素集分别包括辅音音素和元音音素。为了系统有效性,可优选地以压缩方式来实现该优化普通话音素集仅包括所需最少的辅音音素和元音音素,以便在语音识别过程中精确地表达普通话语音。现参考图1,图中示出了根据本专利技术的计算机系统110的一个实施例的方框图。图1实施例包括声音传感器112,放大器116,模拟数字转换器120,中央处理器(CPU)128,存储器130,和输入/输出接口132。该计算机系统110可容易地包括各种其它元件或功能,以便加在结合图1实施例讨论的那些元件或功能之上,或者取代结合图1实施例讨论的那些元件或功能。声音传感器112检测声能并将检测到的声能转换成模拟语音信号,该模拟语音信号可经由线114提供给放大器116。放大器116放大接收到的模拟语音信号,并将该放大的模拟语音信号经由线118提供给模拟数字转换器120。然后,模拟数字转换器120将放大的模拟语音信号转换成相应的数字语音数据。接着,模拟数字转换器120经由线122将该数字语音数据提供给系统总线124。接着,CPU 128可获取系统总线124上的数字语音数据,并做出响应,分析和处理该数字语音数据,以便根据存储器130中所包含的软件指令进行语音检测。存储器130中软件指令和CPU 126的工作将在下面结合图2-7进一步讨论。该语音数据经处理后,CPU 128接着可将该语音检测分析结果经由输入/输出接口132提供给其它设备(未示出)。在可选实施例中,本专利技术可容易地包含在不同于图1中所示的计算机系统110的各种其它设备中。现参考图2,图中示出了根据本专利技术的图1中存储器130的一个实施例的方框图。存储器130可选地包含各种存储设备配置,包含随机存取存储器(RAM)和存储设备如软盘或硬盘驱动器。在图2实施例中,存储器130包括,但不限于,语音识别引擎210,隐式Markov模型(HMM)212,词汇字典214,和语言模型216。在可选实施例中,存储器130可容易地包括各种其它元件或功能,以便加在结合图2实施例讨论的那些元件或功能之上,或者取代结合图2实施例讨论的那些元件或功能。在图2实施例中,语音识别引擎210包括一系列软件模块,该一系列软件模块由CPU 128执行以分析和识别语音数据,该一系列软件模块将在下面结合图3进行进一步描述。在可选实施例中,使用各种其它软件和/或硬件配置可容易地实现语音识别引擎210。语音识别引擎210可利用HMM 212和字典214来实现本专利技术的语音识别功能。HMM212的一个实施例将在下面将结合图4进一步讨论,而字典214的一个实施例将在下面结合图5进一步讨论。语言模型216可包括根据前面词预测后面词的词序或“句法”模型。现参考图3,图中示出了根据本专利技术的图2中语音识别引擎210的一个实施例的方框图。语音识别引擎210包括,但不限于,特征提取器310,终点检测器312,和识别器314。在可选实施例中,语音识别引擎210可容易地包括各种其它元件或功能,以便加在结合图3实施例讨论的那些元件或功能之上,或者取代结合图3实施例讨论的那些元件或功能。在图3实施例中,模拟数字转换器120(图1)将数字语音数据经由系统总线124提供给特征提取器310。特征提取器310做出响应生成特征向量,该特征向量经由通道320提供给识别器314。特征提取器310进一步做出响应生成语音能量,经由通道322提供给终点检测器312。终点检测器312分析该语音能量并做出响应本文档来自技高网...

【技术保护点】
一种用来执行语音识别过程的系统,包含:识别器,用来比较输入语音数据和根据优化音素集实现的词汇字典中的音素串,利用语音技术实现所述优化音素集以分别提供辅音音素和元音音素,以压缩方式实现所述优化音素集以仅包括所需最少的所述辅音音素和所述 元音音素;和处理器,用来控制所述识别器,从而执行所述语音识别过程。

【技术特征摘要】
US 2002-7-11 60/395,113;US 2003-3-31 10/403,6421.一种用来执行语音识别过程的系统,包含识别器,用来比较输入语音数据和根据优化音素集实现的词汇字典中的音素串,利用语音技术实现所述优化音素集以分别提供辅音音素和元音音素,以压缩方式实现所述优化音素集以仅包括所需最少的所述辅音音素和所述元音音素;和处理器,用来控制所述识别器,从而执行所述语音识别过程。2.权利要求1的系统,其中所述输入语音数据包括普通话语言数据,所述优化音素集被压缩配置以便精确表示所述普通话语言数据。3.权利要求1的系统,其中所述识别器和所述处理器被实施成消费电子设备的一部分。4.权利要求1的系统,其中所述优化音素集在执行所述语音识别程序的同时,节约处理资源和存储资源。5.权利要求1的系统,其中所述优化音素集减少了执行识别器训练程序以便初始执行所述识别器的训练需要。6.权利要求1的系统,其中所述音素串中每一个都包括不同的一串来自优化音素集的音素,所述音素串中每一个对应于所述词汇字典中的不同单词。7.权利要求6的系统,其中所述识别器比较所述输入语音数据和所述词汇字典中所述音素串的隐式Markov模型,从而在所示语音识别过程中选择出被识别单词。8.权利要求1的系统,其中所述优化音素集包括音素b,p,d,t,g,k,z,c,zh,ch,j,q,f,s,sh,x,h,m,n,ng,l,r,y,w,a,e,o,i,u,yu,ai,ei,ao,和ou。9.权利要求1的系统,其中所述优化音素集包括辅音音素b,p,d,t,g,k,z,c,zh,ch,j,q,f,s,sh,x,h,m,n,ng,l,r,y,和w。10.权利要求1的系统,其中所述优化音素集包括结束音素“cl”。11.权利要求1的系统,其中所述优化音素集包括元音音素a,e,o,i,u,yu,ai,ei,ao,和ou。12.权利要求1的系统,其中所述优化音素集利用统一的双元音音素来表示某些双元音,从而在为所述语音识别程序提供更大精确度特性的同时,节约处理资源和存储资源。13.权利要求12的系统,其中所述优化音素集包括统一双元音音素ai,ei,ao,和ou。14.权利要求1的系统,其中所述优化音素集包括闭止音类,该闭止音类包括单独音素b,p,d,t,g,和k。15.权利要求1的系统,其中所述优化音素集包括破擦音类,该破擦音类包括单独音素z,c,zh,ch,j,和q。16.权利要求1的系统,其中所述优化音素集包括摩擦音类,该摩擦音类包括单独音素f,s,sh,x,和h。17.权利要求1的系统,其中所述优化音素集包括近似音类,该近似音类包括单独音素l,r,y,w,和yu。18.权利要求1的系统,其中所述优化音素集包括鼻音类,该鼻音类包括单独音素m,n,和ng。19.权利要求1的系统,其中所述优化音素集表示普通话语言的各种声音,而不需利用相应的音调信息作为所述优化音素集中不同音素的一部分。20.权利要求1的系统,其中所述优化音素集中的所述辅音音素和所述元音音素被组合起来表示普通话语言系统中的音节。21.一种用来执行语音识别过程的方法,包含步骤配置一种识别器,以便比较输入语音数据和根据优化音素集实现的词汇字典中的音素串,利用语音技术实现所述优化音素集分别提供辅音音素和元音音素,以压缩方式实现所述优化音素集仅包括所需最少的所述辅音音素和所述元音音素;和利用...

【专利技术属性】
技术研发人员:X梅嫩德斯皮达尔段镭吕静雯L奥罗伦肖
申请(专利权)人:索尼电子有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1