非特定人的嵌入式中英文混合语音识别方法及系统技术方案

技术编号：4121652 阅读：340 留言：0更新日期：2012-04-11 18:40

一种非特定人的、支持中英文混合语言、面向嵌入式应用的语音识别方法及系统。本发明专利技术采用海量语音数据训练的声学模型，兼容中文和英文发音方式的声学建模单元集，从而实现非特定人的中英文混合语音识别。本发明专利技术采用多个背景模型，由背景模型进行均值自适应训练得到混合高斯模型（ＧＭＭ）参数，然后再对混合高斯模型（ＧＭＭ）均值与背景模型均值的差值向量进行矢量量化，压缩模型参数；在识别阶段，使用快速高斯选择、声学得分预运算、以及简化ＧＭＭ模型，从而大幅降低识别的计算量和模型的存储空间，使得本语音识别方法及系统可以在各种嵌入式应用系统上使用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动语音识别
，是一种非特定人的、面向计算和存储资源有限的嵌入式应用环境、支持中英文混合语言的语音识别方法及系统。
技术介绍
语音是人类沟通和获取信息最自然、最便捷的方式。智能语音交互技术主要包括语音识别技术、语音合成技术、语音评测技术等，智能语音交互将是继图形交互模式(GUI)之后人机交互模式上具有突破性意义的变革。语音识别技术是让机器听懂人说话，通过机器自动将语音信号转化为文本及相关信息的技术，是智能语音交互技术中非常重要的、也是非常关键的部分。从语音识别技术发展的情况看，其应用主要向以下两个方向发展一个是大词汇量连续语音识别系统，主要应用于听写机、语音信息查询服务系统、海量音频数据自动标注系统等，这些系统都运行在PC平台或服务器上；另一个是嵌入式语音识别系统，面向小型化、便携式的、嵌入式的产品应用，如手机上的语音拨号、车载设备的语音控制、智能语音玩具、家电遥控等，这些嵌入式应用系统大都使用专门的硬件系统实现，如MCU、DSP和语音识别专用芯片，其运算速度、存储容量都非常有限。同时，它这些嵌入式应用系统还要求识别是实时的，并具有体积小、可靠性高、耗电少、成本低等特点。嵌入式语音产品的这些应用特点以及嵌入式系统资源的有限性是目前语音识别技术嵌入式应用的难点。现有的嵌入式语音识别系统主要还是特定人孤立词语音识别，即需要用户在使用前让系统对所识别的词条先进行学习或训练。这一类识别功能对语种、方言没有限制，识别率很高，但使用前的录音和训练很不方便。有一些嵌入式语音识别系统能实现非特定人语音识别，即预先将所要识别的语音模型训...

【技术保护点】
非特定人的嵌入式中英文混合语音识别方法及系统，是一种非特定人的、支持中英文混合语言、面向计算和存储资源有限的嵌入式应用环境的语音识别方法及系统。本系统由声学模型训练、词树生成、前端处理、及识别解码四个部分组成。其特征在于：　兼容中文和英文发音方式的声学建模单元集，基于海量语音数据训练的声学模型，使得该语音识别方法是非特定人的、并支持中英文语言混合识别。　采用二叉树形式组织的多背景模型，然后将声学模型中混合高斯模型（ＧＭＭ）的每个混合项与某个背景模型按最大似然准则绑定，对背景模型进行均值自适应训练得到混合项的均值参数，并将其与背景模型均值相减得到两者的差值向量。　在自适应训练完成后，对所有的差值向量进行矢量量化，并用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达ＧＭＭ模型的每个混合项。　用最大混合项得分代替混合概率相加来计算ＧＭＭ模型的声学得分，从而简化ＧＭＭ模型。依据简化的ＧＭＭ模型，对ＧＭＭ模型的某些参数进行预运算，并保存为新的混合系数参数，减少计算ＧＭＭ模型声学得分时的计算量。　识别解码阶段，对每一...

【技术特征摘要】
1、非特定人的嵌入式中英文混合语音识别方法及系统，是一种非特定人的、支持中英文混合语言、面向计算和存储资源有限的嵌入式应用环境的语音识别方法及系统。本系统由声学模型训练、词树生成、前端处理、及识别解码四个部分组成。其特征在于兼容中文和英文发音方式的声学建模单元集，基于海量语音数据训练的声学模型，使得该语音识别方法是非特定人的、并支持中英文语言混合识别。采用二叉树形式组织的多背景模型，然后将声学模型中混合高斯模型(GMM)的每个混合项与某个背景模型按最大似然准则绑定，对背景模型进行均值自适应训练得到混合项的均值参数，并将其与背景模型均值相减得到两者的差值向量。在自适应训练完成后，对所有的差值向量进行矢量量化，并用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达GMM模型的每个混合项。用最大混合项得分代替混合概率相加来计算GMM模型的声学得分，从而简化GMM模型。依据简化的GMM模型，对GMM模型的某些参数进行预运算，并保存为新的混合系数参数，减少计算GMM模型声学得分时的计算量。识别解码阶段，对每一帧声学特征，首先计算其所有背景模型的声学得分，并对背景模型按声学得分高低排序。然后在二叉树上自上而下地对背景模型的声学得分进行退化处理，具体方法是令根节点背景模型的退化得分等于其声学得分，如果子节点的声学得分低于父节点的退化得分，则将子节点的退化得分设为父节点的退化得分，否则子节点的退化得分等于其声学得分。接下来计算所有由一个背景模型和矢量量化表中的一个差值向量所确定的高斯模型的声学得分，并将该声学得分保存于高斯得分缓存中。具体做法是选择声学得分较高的若干个背景模型、以及其所有子节点背景模型，计算矢量量化表中每个差值向量与背景模型对应的声学得分差值，将该声学得分差值与背景模型的声学得分相加，得到对应高斯模型的声学得分，如果该得分小于背景模型的退化得分，则将该高斯模型的声学得分修改为背景模型的退化得分，并将之保存到高斯得分缓存中；对其余的背景模型，其跟矢量量化表中的任一差值向量所确定的高斯模型的声学得分不再运算，直接将对应的高斯得分缓存设为背景模型的退化得分。然后利用背景模型声学得分排序信息、及GMM模型与背景模型的绑定信息进行快速高斯选择，在计算GMM模型的声学得分时，仅计算该GMM模型的若干个候选混合项的声学得分。GMM模型某混合项的声学得分的计算方法是根据该混合项绑定的背景模型标号、与背景模型均值的差值向量标号，从高斯得分缓存中读取该混合项的高斯模型声学得分，将该得分与混合项的混合系数相加，即得到该混合项的声学得分。最后用最大混合项得分代替...

【专利技术属性】
技术研发人员：王辉，
申请(专利权)人：北京森博克智能科技有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人