当前位置: 首页 > 专利查询>清华大学专利>正文

维语语音识别方法和装置制造方法及图纸

技术编号:12875941 阅读:139 留言:0更新日期:2016-02-17 12:16
本申请提供了一种维语语音识别的方法和装置,包括:将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;将所述维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;使用所述最优自适应声学模型进行维语语音的识别,从而解决了维语语料不足和语音识别准确率低的问题。

【技术实现步骤摘要】

本申请涉及语音识别
,特别是涉及一种维语语音识别方法和装置
技术介绍
目前,维吾尔族自治区在新疆人口中占有很大的比例。新疆地区官方语言是汉语 和维语,由于维吾尔语语音特性,维语与汉语之间的语言差异很大,使少数民族语言文字信 息技术的开发与应用成为新疆信息化建设当中不可或缺的一个重要方面。 而研究维吾尔语的语音识别具有重大的研究意义。到目前为止,国外无一机构 (包括微软、IBM等跨国公司)从事维语信息处理及维语语音识别系统的开发,所以目前国 际上在此领域的研发也是一片空白。 在研发维语语音识别时主要存在以下问题:首先,由于维语属于少数民族语言,数 据的采集不易导致训练数据有限不能完全覆盖维语的特点。其次,国内外解决目标语言训 练样本短缺的方法都需要经过较长时间的训练,而且还存在训练不充分的问题,从而导致 语音识别准确率低的问题。
技术实现思路
本申请提供一种维语语音识别方法和装置,以解决现有技术中维语语料不足和语 音识别准确率低的问题。 为了解决上述问题,本申请公开了一种维语语音识别的方法,包括:将维语语音帧 对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线 性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维 非线性特征空间分布; 将所述维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应 声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型, 获得重构的自适应声学模型; 使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声 学模型; 使用所述最优自适应声学模型进行维语语音的识别。 优选地,所述汉语声学模型包括输入层和隐藏层。 优选地,所述将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声 学模型的高维非线性特征空间分布的步骤包括: 通过所述汉语声学模型的输入层接收维语语音帧对应的声学特征,将所述输入层 接收的维语语音帧对应的声学特征进行线性变换,得到汉语声学模型各隐层节点对应的维 语语音帧的声学特征的加权和; 将所述加权和通过特定的激活函数进行非线性变换,得到转换后的维语语音帧对 应的隐层节点的加权和,将所述转换后的维语语音帧对应的隐层节点的加权和作为后续汉 语声学模型的隐藏层的输入; 将隐藏层的输入进行一系列线性变换和非线性变换最终得到所述汉语声学模型 的隐藏层的输出结果,从所述输出结果中得到所述汉语声学模型下的维语语音帧对应的汉 语声学模型高维非线性特征空间分布。 优选地,所述维语声学模型包括输入层、隐藏层和输出层。 优选地,所述获得重构的自适应声学模型的步骤包括: 通过所述维语声学模型的输入层接收汉语声学模型的隐藏层输出的维语语音帧 对应的汉语声学模型的高维非线性特征空间分布; 所述维语声学模型的输入层将接收的维语语音帧对应的汉语声学模型的高维非 线性特征空间分布进行线性变换,得到转换后的维语语音帧对应的维语声学模型的高维非 线性特征空间分布的加权和; 将所述维语声学模型的高维非线性特征空间分布的加权和进行非线性变换,得到 转换后的维语声学模型各隐层节点激活值,将所述转发后的激活值作为所述维语声学模型 的后续隐藏层的输入; 将隐藏层的输入进行一系列线性变换和非线性变换后得到所述最终维语声学模 型的输出层的输出结果,从所述输出结果中获得重构的自适应声学模型。 优选地,所述遗传算法包括:选择算子、交叉算子和变异算子; 所述使用遗传算法筛选所述重构的自适应声学模型,获得最优的自适应声学模型 包括: 将汉语声学模型的层数和维语声学模型的层数进行随机赋值,得到多个一维数 组; 使用选择算子从所述多个一维数组中选择满足一定标准的多个一维数组; 使用交叉算子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组; 使用变异算子处理所述多个交叉后的一维数组,得到多个变异后的一维数组; 从多个变异后的一维数组中选择出至少两个变异后的一维数组返回使用交叉算 子处理满足一定标准的多个一维数组,得到多个交叉后的一维数组的步骤重复执行,直至 找到一个收敛值; 将所述收敛值对应的一维数组作为汉语声学模型的层数和维语声学模型的层数 的取值,获取最优的自适应声学模型。 为了解决上述问题,本申请还公开了一种维语语音识别的装置,包括:获取模块, 用于将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经 过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉 语声学模型的高维非线性特征空间分布; 训练模块,用于将所述维语语音帧对应的汉语声学模型模型的高维非线性特征空 间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所 述维语声学模型,获得重构的自适应声学模型; 选择模块,用于使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获 得最优自适应声学模型; 识别模块,用于使用所述最优自适应声学模型进行维语语音的识别。 优选地,所述汉语声学模型包括输入层和隐藏层。 优选地,获取模块将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉 语声学模型的高维非线性特征空间分布包括: 第一转化子模块,用于通过所述汉语声学模型的输入层接收维语语音帧对应的声 学特征,将所述输入层接收的维语语音帧对应的声学特征进行线性变换,得到汉语声学模 型各隐层节点对应的维语语音帧的声学特征的加权和; 第二转化子模块,用于将所述加权和通过特定激活函数进行非线性变换,得到转 换后的维语语音帧对应的隐层节点的加权和,将所述转换后的维语语音帧对应的隐层节点 的加权和作为后续汉语声学模型的隐藏层的输入; 第一输出子模块,用于将隐藏层的输入进行一系列线性变换和非线性变换最终得 到所述汉语声学模型的隐藏层的输出结果,从所述输出结果中得到所述汉语声学模型下的 维语语音帧对应的汉语声学模型的高维非线性特征空间分布。 优选地,所述维语声学模型包括输入层、隐藏层和输出层。 与现有技术相比,本申请包括以下优点: 首先,本申请使用自适应声学模型中的汉语声学模型将维语语音帧对应的声学特 征转化为语音帧对应的汉语高维非线性特征空间分布,从而解决了维语训练数据稀疏的问 题。 其次,通过使用遗传算法或者穷举法筛选重构的自适应声学模型,获得最优自适 应声学模型,使得最优自适应声学模型结构精简,同时提高了维语语音识别的效率,进而彻 底解决了在稀疏数据下能够快速进行维语语音的识别。【附图说明】 图1是本申请实施例一中的一种维语语音识别方法的流程图; 图2是本申请实施例二中的一种维语语音识别方法的流程图; 图3-a至图3-b是本申请中重构的自适应声学模型的示意图; 图4是本申请中使用遗传算法筛选重构的自适应声学模型的流程图;<当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种维语语音识别的方法,其特征在于,包括:将维语语音帧对应的声学特征作为自适应声学模型中的汉语声学模型的参数输入,经过线性变换和非线性变换将所述汉语声学模型下的维语语音帧对应的声学特征变换到汉语声学模型的高维非线性特征空间分布;将所述维语语音帧对应的汉语声学模型的高维非线性特征空间分布作为自适应声学模型中的维语声学模型的参数输入到所述维语声学模型中,训练所述维语声学模型,获得重构的自适应声学模型;使用遗传算法或者穷举算法筛选所述重构的自适应声学模型,获得最优自适应声学模型;使用所述最优自适应声学模型进行维语语音的识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:王东殷实赵梦原张之勇张雪薇
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1