用于东方语言语音输入、识别和显示的电子装置及方法制造方法及图纸

技术编号:3047203 阅读:215 留言:0更新日期:2012-04-11 18:40
一种高精度东方语言,如汉语的输入方法和装置,用于恶劣环境中的具有小键盘和/或有限内存的小型电子装置,如PDA、移动电话、电子字典、电子表。通过将多音节中文字词分为单独的音调音节发声,同时按压特殊设计键盘的一键,如包含音节(辅音或元音)的第一音素的键,以进一步解决恶劣环境中例如辅音的拼音发音(子字词单元)引起的模糊问题,单独的音调音节的元音和辅音由自动语音识别系统进行分离而实现,。如果模糊仍然存在,按压音节的第二或第三拼音发音是有必要的。键盘设计是以数据驱动方式进行的,各键盘中音素的相似度被最小化而键之间拼音发音相似度被最大化。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种语音信号处理,特别是一种只有有限存储量的手持小型电子装置中的东方语言,如普通汉语、日语、韩语等的自动语音识别(ASR)。
技术介绍
自动语音识别(ASR)技术已经发展了几十年。一个例子是个人计算机中的大词汇量连续语音识别系统(LVCSR)。参照图1,LVCSR系统1通常使用一声音前端,该前端包括用于特征提取的频谱分析模块15和音调分析16,和具有上下文关联模型和语言模型的发音字典,以识别信号。由于用于上下文关联模型和语言模型的大量参数要被处理,因此LVCSR系统1的计算和存储工作量很大。对具有有限存储量的小型装置,如个人数字助理(PDA)、移动电话、无线电话以及电子字典等中使用的传统语音识别技术来说,声音特征和具有码本设计的语音/字典模型被典型地用来识别语音输入模式。这些技术对东方语言,如普通汉语、日语、韩语等特别有用。虽然LVCSR系统1已经得到发展,而且对个人计算机用户来说已经比较成熟,但它仍然具有缺陷,如声音特征、语音识别器的感应器易于受到恶劣环境中背景噪声的干扰。另一方面,LVCSR系统1识别错误率的下降主要归因于输入字词序列的知识,即特定语言发音者最常使用的所谓的语言模型。这样,LVCSR系统1不可避免的需要大的存储容量和计算工作以处理输入的字词序列。这样,LVCSR系统1就不再适用于具有有限存储能力的小型电子装置,特别是在恶劣环境中。本专利技术技术方案在研究用于恶劣环境中的传统LVCSR技术时,本专利技术的专利技术人发现很难在性能不降低的情况下设计出连续语音中的语言模型;单独语音较连续语音更易识别;单独语音中的元音较辅音更易识别;由于大多数普通汉语发音者,如在台湾和香港学习者,比较熟悉注音发音,因此通过注音发音对汉字进行区分相对较为容易。通常,一个汉字一般使用一到三个拼音发音。一些东方语言,如汉语、日语、韩语等的一个单独语音中的音节结构都是如S-停顿-S-停顿-S-停顿-...,其中S表示音节。如本领域技术人员所公知,该音节结构具有S=(C)+V的特性,其中C表示辅音,V表示元音,C对韩语、日语和汉语是可选的。至于汉字,通常使用的大约有20,000个。这些汉字具有大约400个音节和大约1400个不同发音,即所谓的音调音节。这些音调音节具有V+T或C+V+T的特殊结构,其中V表示元音,C表示辅音,T表示音调。如语音识别
人员所知,考虑到其能量谱,很容易得出不同辅音的发音(或能量谱)不能被清楚区分的结论。对传统的ASR技术,识别错误率主要由辅音发音的不稳定造成。用于提高发音和辅音模型联合清晰度的稳定性的一个方法就是选择模型单元作为上下文关联音素。如果没有模型上下文关联音素,辅音发音的不稳定性就会导致字词错误率增加。另一个降低识别字词错误率的方法就是利用对生活语言中经常使用的字词顺序的知识,即所谓的语言模型。由于在恶劣环境中,上下文中辅音的发声与清楚的语音相比变得更加不确定,因此在恶劣环境中使用语言模型是ASR技术的关键因素,例如用于电话的对话系统。但是,上下文关联音素模型的缺点是它的模型复杂度很高并且大量统计学参数(通常为100K字节)需要被处理(由统计方法来估算)和存储在动态存储器中,如RAM中。另一个方法是使用整个字词模型。但是,由于300的因素,这也将增加模型的复杂度。另外,用于LVCSR系统1(通常有10,000字词)的语言模型(N字母组,N=2,3)的内存使用率很高且很昂贵。这样,由于其固有的计算和存储限制,因此对手持电子装置来说很不切实际。基于单独语音中元音较容易识别,目前的语音识别技术在单独语音中识别元音是可信赖的。至于音调,语音的声音特性可提供足够的信息以区别不同的音调。至于辅音的区分,这是目前语音识别技术中唯一的缺陷,特别是在恶劣环境中,当语音的声音特性被噪音干扰时。本专利技术的第一个优点是可提供一种将东方语言中的包括辅音和元音的多个音素在手持电子装置的多个键中进行分组,其分组原则是分组到各键上的多个音素的距离平方和(即声音特征间距的相异尺寸)与多个键间的多个音素的距离平方和的比被最大化。本专利技术的第二个优点是提供一种将东方字词输入电子装置的方法,该电子装置具有包括多个键的数字键盘,语音输入装置,其中所述东方语言中包括元音和辅音的音素的至少一个根据上述方法被分配到并可视地地表示在各键的所属区域之上或之中,其中所述东方字词的语音表达由用户发出并被所述声音输入装置接收,每当用户以单独语音的方式发出各所述的东方字词时,用户随后按下一表示对应所述东方字词音素的第一个音素,通常为辅音的键,则对应的东方字词根据顺序键入的辅音被选择出来。本专利技术的第三优点是提供一种电子装置,该装置可输入东方语言的口语语音,并通过混合键盘/语音识别来识别其中的东方字词,其中该电子装置具有一声音输入装置和一具有多个根据上述方法被分配的键的数字键盘。在该电子装置中,语音识别装置根据通过数字键盘键入的音素的序列和口语语音来识别口语语音中的东方字词,这样东方字词就可以在恶劣环境中以有效的方式被输入到电子装置中。本专利技术的第四优点是提供一种通过用于上述电子装置中的数字键盘的键输入的帮助,识别东方语言中的语音的方法。本专利技术的第五优点是提供一种可操作的计算机产品,当其运行时可使处理器执行上述识别方法。附图说明通过以下附图及说明,将对本专利技术有更全面地了解。其中图1为传统大词汇量连续语音识别系统(LVCSR)的方框图;图2为按照本专利技术用于拼音字词的混合键盘/语音识别技术的电子装置的示意图;图3为用于图2所示的电子装置中的混合键盘/语音识别系统的示意方框图;图4为图3中在数字键盘多个按键输入的帮助下进行东方语言语音识别的方法的流程图。最佳实施例本专利技术为适用于下述条件的用于手持装置的高精度、混合键盘/ASR的结构(1)在恶劣环境中传统语音识别技术的缺陷。例如,语音的声音特性由于不稳定噪音和信道干扰变得不清楚。此外,传统技术的计算和存储工作量太高,如全部字词模型、上下文关联音素模型以及三字母组语言模型。(2)韩语、日语和汉语语言的单独语音中的一些东方语言特征的音节结构。即(C)+V,停顿,(C)+V,停顿,(C)+V,...,其中C表示辅音,V表示元音,C对韩语、日语、和汉语是可选的。本专利技术将通过普通汉语的例子来进行解释和说明。但是,本领域技术人员也同样可以在不脱离附加权利要求范围的基础上,将本专利技术的原理和宗旨应用于其他东方语言,如日语、韩语、广东话等。图2示出可根据本专利技术的最佳实施例的用于手持电子装置20的混合键盘/语音识别结构。图2中,本专利技术将键盘22上的十二个经常使用的数字键,如0到9、*和#,进行专门分配,以明显地表示汉语的注音文字(基本由37个BoPoMoFo音素组成),下面将进行详述。如本领域所公知的,键盘22还可以是手持电子装置20的屏幕23上的触摸板,其中这十二个键以屏幕23上的图标来表示。在操作中,电子装置20的使用者发出一可通过麦克21接收到的单独语音(语音中具有停顿),并且每当发出该音节时,同时按下键盘22上的一代表在该单独语音中各音节的第一拼音音素的键。现在参照图3,接收到的语音信号通过A/D转换器24被数字化采样,并被发送到频谱分析模块25和音调分析模块26中。如本领域技术人员所知,麦本文档来自技高网
...

【技术保护点】
一种用于东方语言的口语语音输入的电子装置,该语音具有辅音加元音加音调或元音加音调的音节结构,所述电子装置包括: 一语音接收器,用于接收表示所述口语语音的语音信号; 一预处理装置,与所述语音接收器相连,用于提取所述语音信号的语音特征; 一包括多个键的键盘装置,其中各键上分配有包括辅音和元音的音素中的至少一个音素; 声音匹配装置,用于根据所述语音信号的语音特征和随后通过所述键盘装置获得的音素来识别所述语音的各音节;和 单独音节匹配装置,用于根据声音匹配装置输出的各音节和通过所述键盘顺序键入的音素,识别所述口语语音中包含多个音节的各字词。

【技术特征摘要】
EP 2000-12-22 00204815.51.一种用于东方语言的口语语音输入的电子装置,该语音具有辅音加元音加音调或元音加音调的音节结构,所述电子装置包括一语音接收器,用于接收表示所述口语语音的语音信号;一预处理装置,与所述语音接收器相连,用于提取所述语音信号的语音特征;一包括多个键的键盘装置,其中各键上分配有包括辅音和元音的音素中的至少一个音素;声音匹配装置,用于根据所述语音信号的语音特征和随后通过所述键盘装置获得的音素来识别所述语音的各音节;和单独音节匹配装置,用于根据声音匹配装置输出的各音节和通过所述键盘顺序键入的音素,识别所述口语语音中包含多个音节的各字词。2.根据权利要求1所述的电子装置,其特征在于各键分配有至少一个音素,使得分组在多个键的各键上成组的音素的距离平方和与多个键间的音素的距离平方和之和为最大。3.根据权利要求1所述的电子装置,其特征在于当发出各音节时,按压对应口语语音中各音节的第一音素(最好为一辅音)的键。4.根据权利要求1所述的电子装置,其特征在于电子装置是从包括蜂窝电话、无线电话、电子字典、个人数字助理和电子表的组中选出的。5.根据权利要求1所述的电子装置,其特征在于口语语音是由至少一多音节字词组成的单独语音。6.根据权利要求3中所述的电子装置,其特征在于口语语音中各音节的第一音素为一辅音。7.一种具有一显示单元的电子装置,包括一语音接收装置,用于接收表示具有辅音加元音或元音的音节结构的东方语言中的口语语音的语音信号;一具有多个键的数字键盘,其中包括元音和辅音的音素中的至少一个被分配到并可视地表示在各键上或各键的附近区域;一语音识别装置,用于根据通过所述数字键盘随后输入的音素和由所述语音接收装置接收到的口语语音,识别所述口语语音中的东方字词;和用于将所述口语语音中的东方字词显示在所述显示单元上的装置。8.根据权利要求7所述的电子装置,其特征在于根据分组在多个键的各键上的多个音素的距离平方和与多个键间的多个音素的距离平方和之比为最大的原则向各键上分配至少一个音素,从而使东方语言更有效地通过所述数字键盘和所述语音接收装置输入。9.一种在通过数字键盘按键输入的帮助下识别东方语言语音的方法,其特征在于所述东方语音具有辅音加元音或元音的音节结构,且所述数字键盘具有多个键,所述方法包括以下步骤(a)输入表示所述语音的语音信号;(b)从所述语音信号中提取语音特征;(c)当发出各音节时,通过所述数字键盘随后接收对应所述语音中各音节的第一音素的键的信息;(d)根据所述语音信号的语音特征和步骤(c)中随后接收到的音素,识别所述语音的各音节;(e)根...

【专利技术属性】
技术研发人员:CH黄
申请(专利权)人:皇家菲利浦电子有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1