语音识别接口装置及其语音识别方法制造方法及图纸

技术编号:3778246 阅读:363 留言:0更新日期:2012-04-11 18:40
提供了一种语音识别接口装置及其语音识别方法。所述语音识别接口装 置包括模型参数估计器和语音识别器,模型参数估计器从外部语音数据库提 取目标语言和母语的声学信息,分别训练得到目标语言的声学模型和母语的 声学模型,再分别对所述两种声学模型应用模型自适应技术,然后应用高斯 成分归并技术得到背景模型;语音识别器分别接收从模型参数估计器输入的 背景模型及从外部输入的非母语语音,基于背景模型对输入的非母语语音进 行识别。根据本发明专利技术,可以提高非母语语音的识别正确率。

【技术实现步骤摘要】

本专利技术涉及一种,尤其涉及一种适 用于非母语说话人语音;^索任务的语音识别接口装置及其识别方法,通过所述装置和方法,可以提高语音识别引擎对于源自非母语说话人的声音数据的 正确率。
技术介绍
语音识别作为一种人机交互的接口 ,它可以将人的语音通过模式识别的 方法翻译成对应的文字。语音识别技术发展到了今天,已经具有实时的输入 速度和准确的识别精度等等优点。目前基于语音识别的成熟产品已经广泛地 应用于PDA,手机,MP3播放器和GPS导航设备中,解决了传统键盘在小型 嵌入式设备上操作不便的问题。此外,语音识别技术可以与文本搜索技术巧 妙的结合,首先将语音识别模块视作人机交互的前端接口,随后将识别出的 命令、文字、关键词等信息作为输入传递到文本检索模块中。具体地,例如 姓名拨号,语言翻译,文档检索等等多种文本检索任务都可以应用到语音识 别技术。然而,语音识别技术还有一些问题亟待解决。首要问题就是非母语语音 的识别问题。相比于母语语音数据,非母语语音数据存在更多的多样性和不 确定性,举个例子,例如当中国人说汉语的时候,大家的发音方式可能趋同, 而当说外语的时候,很有可能因为人们对于该语言的熟悉程度不同而因人而 异,从而造成发音方式的多样化。然而,不可能搜集到一个能覆盖绝大部分 发音变异的非母语语音数据库。即使能收集到这种数据库,由于其大规模的 发音变异,使得训练出来的高斯分布更趋于平緩,降低了每个模型间的区分 度。因此大部分研究人员把目光放在如何提高母语语音识别系统对于非母语 数据的兼容性上。如果研究成功,对于一个公司来说,则可以节省在收集非 母语数据库过程中的所花费的大量的时间和费用。当标准语音识别器遇到非母语语音数据时,识别器的性能会大幅下降。其中导致性能下降的主要因素是母语数据和非母语数据在声学空间上的特征不同;这些不同点包括l).某些音素发音的不同;2).不同的发音基元,语气 强弱,重读,语速和语言上下文。3).当说话人说外语的时候通常会一定程度 地保留母语里的一些特征。所以,如何有效的区分这些不同点对于提升标准 语音识别器的性能和鲁棒性十分重要。理论上讲,可以采集大量的母语和非 母语语音数据,从这些真实数据中找到区分这些不同点的线索和依据。由于 非母语语音数据存在着多样性和不确定性,不可能搜集到一个能覆盖绝大部 分发音变异的非母语语音数据库。因此,基于非母语语音识别的研究工作大 都集中于模型参数自适应方法或多候选发音词典法。上述方法都是基于有限的非母语语音数据的。对于模型参数自适应方法, 一个典型的例子就是应用极大似然线性回归 方法(Maximum Likelihood Linear Regression, MLLR),将一个基于母i吾i兌"i舌 人的声学模型通过线性变换改变成一个近似基于非母语说话人的声学模型。线性变换矩阵通过少量的非母语数据估算出。但是,MLLR自适应技术仅仅 改变了模型中所有高斯成分的位置,使得所有高斯成分更加靠近非母语说话 人产生的数据,但并没有改变每个高斯分布的形状。因此自适应技术只能提 升一定的性能。对于多候选发音字典法, 一个基本的原则是将每一个单词的所有可能的 非母语说话人所发出的读音(包括发音的变异等等)添加到用户词典中,然 后采用模式匹配、得分重排序或其它自然语言处理的方法获得最佳的识别结 果。这种方法的缺点是兼容性差。已有技术的许多成功的案例都是基于西方 拉丁语系的。这些语种在发音、强弱、语速等方面有着很大的相似性。所以 在这些语种实现多候选发音字典法相对容易些。然而,对于像母语是中文和 目标语言是英文这样的情况来说,它们之间的差别^f艮大。中文的发音基元是 音节而英文是音素,而且中文和英文的语调、语气也有很大的不同。所以将 该方法应用于像Chinese-accent-English的案例时,效果通常会低于预期。因此,需要提供一种适合于非母语说话人的语音识别装置。
技术实现思路
为了解决现有技术中的问题,本专利技术的目的在于提供了 一种可以提高非 母语语音识别正确率的语音接口装置。根据本专利技术的一方面,所述语音识别接口装置包括模型参数估计器和语 音识别器。模型参数估计器从外部语音数据库提取目标语言和母语的声学信 息,分别训练得到目标语言的声学模型和母语的声学模型,再分别对所述两种声学模型应用模型自适应技术,然后应用高斯成分归并技术得到背景模型;语音识别器分别接收从模型参数估计器输入的背景模型及从外部输入的非母 语语音,基于背景模型对输入的非母语语音进行识别。根据本专利技术的 一方面,模型参数估计器分别选择目标语言声学模型和母 语声学模型中所有对应的高斯成分进行归并。根据本专利技术的一方面,语音识别器通过从背景模型中选择前M个离非母 语语音数据最近的高斯成分作为描述非母语语音数据的分布,其中,M为自然数。根据本专利技术的一方面,所述模型参数估计器包括模型参数估计模块, 基于外部语音数据库中的声学信息,输出目标语言声学模型和母语声学模型; 模型自适应模块,利用模型自适应技术,借助非母语语音自适应数据,调整 目标语言声学模型和母语声学模型;高斯成分归并模块,用目标语言标注母 语声学模型,并将标注后的母语声学模型的高斯成分添加到目标语言声学模型上,得到背景模型;模型参数归一化模块,将背景模型中的高斯成分的权 值之和为1,然后将归一化后的背景模型输出到语音识别器。根据本专利技术的一方面,在模型自适应模块中,执行如下操作从非母语 语音自适应数据中估算出线性变换矩阵,将该矩阵应用到目标语言的声学模 型上;利用将目标语言和母语之间建立联系的音素映射表,用母语的音素标 注自适应数据,从自适应数据中估算出线性变换矩阵,将该矩阵应用到母语 声学模型上。根据本专利技术的一方面,在高斯成分归并模块中,模型参数估计器分别选 择目标语言声学模型和母语声学模型中所有的高斯成分进行归并,得到所述背景4莫型。根据本专利技术的一方面,所述语音识别器包括特征提取器,从输入的非 母语语音中提取数据帧;识别网格扩展模块,从特征提^L器顺序接收数据帧, 链接成识别网络;输出概率计算模块,基于背景^f莫型,实时计算网络中每个 结点所代表的状态对应的当前数据帧的输出概率值;寻找最优路径模块,利 用输出概率计算模块计算出的概率值,选择一条联合概率最大的一条路径作7为当前的输出结果。根据本专利技术的一方面,在输出概率计算模块中,从背景模型中选择对于 当前数据帧的输出概率值最大的前M个高斯成分,并将所选择的前M个高斯成分归一化,所述M为自然数。通过提供一种语音识别方法也可实现本专利技术的目的,所述方法包括如下步骤(a)由目标语言和母语的声学信息分别训练得到目标语言的声学模型 和母语语言的声学模型,分别对所得到的两个声学模型应用模型自适应技术, 然后应用高斯成分归并技术,将目标语言声学模型和母语声学模型归并到一 个声学模型中而形成背景模型;(b)接收非母语语音输入,并基于背景模型, 对所述非母语语音进行识别。根据本专利技术的另一方面,在步骤(a)中,分别将目标语言声学模型和母 语声学模型中所有的高斯成分进行归并。根据本专利技术的另一方面,在步骤(a)中,通过从背景模型中选择前M 个离非母语语音数据的马氏距离最近的高斯成分作为描述非母语语音数据的 分布,其中本文档来自技高网
...

【技术保护点】
一种语音识别接口装置,包括模型参数估计器和语音识别器,其特征在于, 所述模型参数估计器从外部语音数据库提取目标语言和母语的声学信息,分别训练得到目标语言的声学模型和母语的声学模型,再分别对所述两种声学模型应用模型自适应技术,然后应用高 斯成分归并技术得到背景模型。 所述语音识别器分别接收从模型参数估计器输出的背景模型及从外部输入的非母语语音,基于背景模型对输入的非母语语音进行识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄盈椿金南勋
申请(专利权)人:三星电子株式会社北京三星通信技术研究有限公司
类型:发明
国别省市:KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1