识别有调语言的系统和方法技术方案

技术编号:3047720 阅读:159 留言:0更新日期:2012-04-11 18:40
一个用于识别一种语言的音节的语音识别系统,每个该语言的音节由一个声母子音节和一个韵母子音节组成,该语音识别系统包括: 一个语音辨识装置,含有一个输出,该输出用来产生表示一个声母子音节和一个韵母子音节的一个合法组合的一个合法音节信号; 一个含有一个输入和一个输出的存储装置,用来存储多个声母子音节模型和多个韵母子音节模型而且用来产生表示声母子音节和韵母子音节的模型信号;以及 一个语音决策装置,含有一个通过耦合接收一个待识别的输入信号的第一输入,一个通过耦合接收来自存储装置的模型信号的第二输入,和一个通过耦合接收来自语音辨识装置的合法音节信号的第三输入,语音决策装置处理合法音节信号以辨识声母子音节和韵母子音节的合法组合,提取相应于辨识出的声母子音节和辨识出的韵母子音节的模型信号,把模型信号与输入信号相比较,并产生一个表示该语言一个音节的信号。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及未决的美国专利申请,其序列号为08/316257,申请日为1994年9月30日,专利技术人为Hsiao-Wuen Hon、Yen-Lu Chow和Kai-Fu Lee,名称是“含有一个集成化音调分类器的连续汉语普通话语音识别系统”,在此将其引为参考文献。本专利技术还相关于未决的美国专利申请,其序列号为08/315222,申请日为1994年9月29日,专利技术人为Hsiao-Wuen Hon,名称是“一种决定汉语普通话语音音节音调的系统和方法”,在此将其引为参考文献。本专利技术的背景1、本专利技术的所属领域本专利技术一般地涉及语音识别系统。具体来说,本专利技术涉及用来产生有调语言的上下文相关子音节模型并用上下文相关子音节模型来识别有调语言的系统和方法。2、
技术介绍
描述近年来,语音识别系统常常被用作将数据和命令输入到计算机和电子系统的输入装置。听写是用户方便而有效的将数据和命令输入到计算机和电子系统的方法。对于说象汉语普通话和日语这样语言的人,这一点就更为正确。与西方语言不同的是,汉语不用字母,其书面语采用象形文字。共有6000多中文简化字和10000多中文繁体字。能够输入如此多中文字符的键盘系统是极为复杂的。进而,键盘输入需要对操作员进行长达数月的冗长训练。对大多数用户来说,通过为汉语普通话配置的键盘输入命令和数据既慢又枯燥。对汉语来说,将数据和命令输入到计算机和其它电子系统的最自然最有效的技术是听写。语音识别系统已被开发出用来识别语音。这些系统被用来将命令和数据输入到计算机系统中。在用于象罗马或德语这样的西方语言中,这样的系统已达到成功的程度。然而对于汉语及其它有调语言,语音识别系统遇到了在罗马或德语未曾遇到的独特难题。汉语普通话语音的词由一个或几个音节组成。每个汉语字符通常表示一个语音音节。每个音节是一个语音结构和一个音调的组合。汉语普通话语音共有四个字音调和一个中型音调。含有相同语音结构和不同音调的音节具有不同的含义。这样,要正确辨识一个音节,一个语音识别系统必须同时辨识音节的语音结构和音调。每个音节包括一个韵母,可能还包括一个声母。(一个音节的语音结构由附图说明图1所示)。声母是辅音,韵母由单元音或双元音开头。在汉语普通话中共有21个声母和38个韵母。也有的音节只含有韵母而没有声母。总之,音节的声母和韵母组成音节的语音结构。汉语普通话语音共有潜在的3990个音节(声母和韵母的所有可能组合)。但是并非每个声母、韵母和音调的可能组合都能构成合法音节。实际上只有大约408个合法声母和韵母组合,和大约1229个有意义的带调音节。现有的汉语普通话语音识别系统一般包括一个识别音节语音结构的子系统和一个独立的识别音节音调的子系统。两个子系统都有缺陷,以至于汉语普通话语音识别系统达不到可以接受的水平。汉语普通话语音中有很多易混淆的音节子集合。常规系统和方法识别语音结构时,常常混淆近似音节。现有识别汉语普通话音节语音结构系统对音节的语音结构的误识达到难以忍受的水平。进而,识别汉语普通话音节语音结构的常规技术需要大量训练数据和大量内存。这些技术也不允许音节之间的辨识。识别音节音调的系统的表现也不够好。大多数音调识别系统采用短时音调分析来确定音节的音调。然而,短时音调分析不能提供足够的分辨率来准确辨识音节的音调。为克服这一困难,有些系统采用长时音调分析来辨识音节的音调。长时音调分析计算复杂性高,因而很慢。语音识别听写机系统必须实时使用。采用长时音调分析的语音识别难以实时。正如对现有的音调识别的讨论所表现的,现有的语音识别系统假设音节的音调独立于语音结构。因此,现有有调语言的语音识别系统不能满足需求。识别汉语普通话语音的系统和方法需要有更高的准确率和更快的速度。本专利技术的概述本专利技术克服了现有识别汉语普通话语音系统和方法的不足和缺陷。该系统便利地同时决定一个音节的语音结构和音调。一个语音识别系统包括一个预处理装置,一个HMM存储装置,一个语音辨识装置,以及一个语音决策装置。语音辨识装置包括对应于每个韵母部分的声母部分或伪声母部分。对于既有声母又有韵母的音节,声母部分存储声母的文字表示,韵母部分存储韵母的文字表示。对于仅有韵母的音节,语音辨识装置包括一个伪声母部分和一个韵母部分。伪声母部分存储伪声母的文字表示。伪声母表示一般在单独韵母音节前的声门闭塞。伪声母大大地改善单独韵母的识别。HMM存储装置用来存储构成汉语普通话语音音节的声母、伪声母和韵母模型。声母和伪声母的模型可能便利地依赖于可能与它们连接的韵母。类似地,韵母的模型可能便利地依赖于可能与之连接的声母。声母、伪声母和韵母的模型也可能依赖于汉语普通话语音的音调。HMM存储装置和语音辨识装置被耦合到语音决策装置。语音决策装置又被耦合到预处理装置。语音辨识装置从预处理装置接收处理后的输入。语音辨识装置也从HMM存储装置接收子音节模型,并从语音辨识装置接收合法音节。语音辨识装置按照合法音节排列子音节模型并比较得出的音节模型与处理后的输入。从比较中,语音决策装置识别出输入音节的语音结构和音调。利用上下文相关模型,语音决策装置不但能够更为精确地决定音节的语音结构,而且能够决定音节的音调。这样本专利技术,不需要单独的音调分析来决定有调语言音节的音调。模型的产生需要大量训练数据。本专利技术根据能得到的训练数据提供对模型复杂性的调整。声母和韵母的模型可能仅依赖于相应的声母或韵母,仅依赖于音调,或与上下文无关。本专利技术包括一个改善模型的平滑装置。该平滑装置包括LDM产生装置和细化模型修正装置。LDM产生装置耦合到HMM存储装置,并从现有模型中产生粗化模型。细化模型修正装置接收来自于LDM产生装置的粗化模型和来自于HMM存储装置的模型。然后细化模型修正装置按照粗化模型来平滑模型。细化模型修正装置的输出耦合到HMM存储装置。平滑后的模型被传送到HMM存储装置以替换未平滑的模型。得出的平滑后的模型使本专利技术识别音节更为精确,尤其在训练数据不足时。本专利技术包括一种利用上下文相关的子音节模型识别一种有调语言的方法。该方法包括以下步骤排列依赖于相应声母、伪声母或韵母或依赖于音调的声母、伪声母和韵母的模型;比较处理后的输入和一个排列后的模型;选取最佳匹配于输入的排列后的模型;并产生表示最佳匹配排列后的模型的声母或伪声母、韵母及音调的一个输出信号。附图简要描述图1是一个汉语普通话语音音节的图形表示;图2是一个按照本专利技术识别汉语普通话语音的系统方框图;图3是一个按照本专利技术构造的语音辨识装置方框图;图4是一个按照本专利技术构造的,HMM存储装置方框图;图5是一个方框图,表示汉语普通话语音识别系统中信号与数据的流程;图6A是一个方框图,表示本专利技术的系统中,当训练模型存储在HMM存储装置中时,数据与信号的流程;图6B是一个按照本专利技术的数据存储装置的方框图;图7是一个表示本专利技术用于平滑模型系统的信号和数据流程的方框图;图8是一个按照本专利技术构造的,HMM存储装置第二实施例的方框图;图9是一个按照本专利技术表示识别单独韵母音节方法的流程图;图10A和10B是表示识别汉语普通话语音音节方法的流程图;图11A、11B和11C是表示按照本专利技术识别单独韵母音节方法的流程图;图12是一个表示按照本专利技术平滑模型方法的流程图;图13A和13B是表本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一个用于识别一种语言的音节的语音识别系统,每个该语言的音节由一个声母子音节和一个韵母子音节组成,该语音识别系统包括一个语音辨识装置,含有一个输出,该输出用来产生表示一个声母子音节和一个韵母子音节的一个合法组合的一个合法音节信号;一个含有一个输入和一个输出的存储装置,用来存储多个声母子音节模型和多个韵母子音节模型而且用来产生表示声母子音节和韵母子音节的模型信号;以及一个语音决策装置,含有一个通过耦合接收一个待识别的输入信号的第一输入,一个通过耦合接收来自存储装置的模型信号的第二输入,和一个通过耦合接收来自语音辨识装置的合法音节信号的第三输入,语音决策装置处理合法音节信号以辨识声母子音节和韵母子音节的合法组合,提取相应于辨识出的声母子音节和辨识出的韵母子音节的模型信号,把模型信号与输入信号相比较,并产生一个表示该语言一个音节的信号。2.权利要求1的系统,其中语音辨识装置产生一个合法音节信号,该合法音节信号表示一个伪声母子音节和一个韵母子音节的一个合法组合;存储装置存储多个伪声母子音节模型;以及语音决策装置处理合法音节信号以辨识伪声母子音节和韵母子音节的合法组合,提取相应于辨识出的伪声母子音节和辨识出的韵母子音节的模型信号,把模型信号与输入信号相比较,并产生一个表示该语言一个音节的信号。3.权利要求1的系统,其中语音辨识装置为声母子音节和韵母子音节的每个合法组合产生一个合法音节信号;语音决策装置处理每个合法音节信号,对于每个合法音节信号提取相应于每个辨识出的声母子音节和辨识出的韵母子音节的模型信号,将每个提取出的模型信号与输入信号相比较,并产生一个表示该语言一个音节的信号。4.权利要求3的系统,其中语音决策装置,通过选取与输入信号最佳匹配的模型信号,产生一个表示与输入信号最佳匹配的模型信号的信号。5.权利要求1的语音识别系统,其中存储装置存储依赖于韵母子音节的一个声母子音节模型,并存储依赖于声母子音节的一个韵母子音节模型;以及语音决策装置,通过选取和提取来自于存储装置、匹配于辨识出的声母子音节且依赖于辨识出的韵母子音节的一个声母子音节模型信号,并且通过选取和提取匹配于辨识出的韵母子音节且依赖于辨识出的声母子音节的一个韵母子音节模型信号,来提取相应于辨识出的声母子音节和辨识出的韵母子音节的模型信号。6.权利要求5的语音识别系统,其中存储装置存储依赖于韵母子音节的一个声母子音节模型;以及语音决策装置,通过选取和提取来自于存储装置、匹配于辨识出的声母子音节且依赖于辨识出的韵母子音节的一个声母子音节模型信号,并通过选取和提取匹配于辨识出的韵母子音节的一个韵母子音节模型信号,来提取相应于辨识出的声母子音节的模型信号,并提取相应于辨识出的韵母子音节的模型信号。7.权利要求5的语音识别系统,其中存储装置存储依赖于声母子音节的一个韵母子音节模型;以及语音决策装置,通过选取和提取来自于存储装置、匹配于辨识出的声母子音节的一个声母子音节模型信号,并通过选取和提取依赖于辨识出的声母子音节的一个韵母子音节模型信号,来提取相应于辨识出的声母子音节的模型信号,并提取相应于辨识出的韵母子音节的模型信号。8.权利要求5的语音识别系统,其中输入信号有一个音调且其中存储装置存储依赖于音节可能含有的音调的一个声母子音节模型;以及语音决策装置,通过选取和提取来自于存储装置、匹配于辨识出的声母子音节且依赖于音节可能含有的音调的一个声母子音节模型信号,并通过选取和提取一个韵母子音节模型信号,来提取相应于辨识出的声母子音节的模型信号,并提取相应于辨识出的韵母子音节的模型信号。9.权利要求5的语音识别系统,其中输入信号有一个音调且其中存储装置存储依赖于音节可能含有的音调的一个韵母子音节模型;以及语音决策装置,通过选取和提取来自于存储装置、匹配于辨识出的声母子音节的一个声母子音节模型信号,并通过选取和提取依赖于音节可能含有的音调的一个韵母子音节模型信号,来提取相应于辨识出的声母子音节的模型信号,并提取相应于辨识出的韵母子音节的模型信号。10.权利要求5的语音识别系统,其中存储装置存储依赖于一个韵母子音节的开头元音的一个声母子音节模型;以及语音决策装置,通过选取和提取来自于存储装置、匹配于辨识出的声母子音节且依赖于辨识出的韵母子音节第一元音的一个声母子音节模型信号,并通过选取和提取一个韵母子音节模型信号,来提取相应于辨识出的声母子音节的模型信号,并提取相应于辨识出的韵母子音节的模型信号。11.权利要求5的系统,其中存储装置存储隐马尔可夫模型。12.权利要求5的系统,其中语音辨识装置是存储组成语言的合法音节的声母子音节和韵母子音节对的一个存储装置...

【专利技术属性】
技术研发人员:HW康BS袁
申请(专利权)人:苹果电脑公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1