语音识别中的正则化口音自适应方法技术

技术编号：14874064 阅读：163 留言：0更新日期：2017-03-23 21:44

本发明专利技术公开了一种语音识别中的正则化口音自适应方法，所述方法包括下述步骤：步骤S100，对采集到的口音数据进行特征参数提取；步骤S101，利用提取的所述特征参数，训练口音独立的基线声学模型；步骤S102，利用提取的所述特征参数，用分类器对口音数据识别出其口音类别；步骤S103，计算软化概率分布；步骤S104，正则化目标函数；步骤S105，利用正则化的损失函数对所述口音独立的基线声学模型进行自适应，生成口音依赖的声学模型。本发明专利技术中，通过对声学模型进行正则化自适应，提高了带口音的语音识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子行业信号处理
，尤其涉及一种语音识别中的正则化口音自适应方法。
技术介绍
语音是人与人进行交流的最自然和最高效的媒介，而语音识别是人与机器进行自然交互的重要途径。识别近年来，随着深度学习技术的在语音识别中的深入应用，语音识别取得令人瞩目的成绩。尤其是最近提出的端到端基于联结时序分类进行训练的长短时记忆的声学模型训练方法的兴起，不仅极大的简化了声学模型的步骤和提高了解码的速度，而且提高了语音识别的精度。但是当说话人发音不太标准或者带浓重口音时，语音识别的准确率急剧下降。
技术实现思路
本专利技术针对现有技术存在的上述问题，提出一种语音识别中的正则化口音自适应方法，以提高口音语音的识别准确率。本专利技术的语音识别中的正则化口音自适应方法包括以下步骤：步骤S100，对采集到的口音数据进行特征参数提取；步骤S101，利用提取的所述特征参数，训练口音独立的基线声学模型；步骤S102，利用提取的所述特征参数，用分类器对口音数据识别出其口音类别；步骤S103，计算软化概率分布；步骤S104，正则化所述基线声学模型的损失函数；步骤S105，利用正则化的损失函数对所述口音独立的基线声学模型进行自适应，生成口音依赖的声学模型。进一步地，所述特征参数为梅尔频谱特征或梅尔频率倒谱特征。进一步地，先提取所述口音数据的静态参数，然后分别计算所述静态参数的一阶差分和二阶差分，得到所述特征参数。进一步地，所述基线声学模型为长短时记忆神经网络模型。进一步地，所述分类器是前馈神经网络分类器。进一步地，利用前向算法计算所述软化概率分布。进一步地，所述损失函数为联结时序分类...
语音识别中的正则化口音自适应方法

【技术保护点】
一种语音识别中的正则化口音自适应方法，其特征在于，所述方法包括下述步骤：步骤S100，对采集到的口音数据进行特征参数提取；步骤S101，利用提取的所述特征参数，训练口音独立的基线声学模型；步骤S102，利用提取的所述特征参数，用分类器对口音数据识别出其口音类别；步骤S103，计算软化概率分布；步骤S104，正则化所述基线声学模型的损失函数；步骤S105，利用正则化的损失函数对所述口音独立的基线声学模型进行自适应，生成口音依赖的声学模型。

【技术特征摘要】
1.一种语音识别中的正则化口音自适应方法，其特征在于，所述方法包括下述步骤：步骤S100，对采集到的口音数据进行特征参数提取；步骤S101，利用提取的所述特征参数，训练口音独立的基线声学模型；步骤S102，利用提取的所述特征参数，用分类器对口音数据识别出其口音类别；步骤S103，计算软化概率分布；步骤S104，正则化所述基线声学模型的损失函数；步骤S105，利用正则化的损失函数对所述口音独立的基线声学模型进行自适应，生成口音依赖的声学模型。2.根据权利要求1所述的方法，其特征在于，所述特征参数为梅尔频谱特征或梅尔频率倒谱特征。3.根据权利要求2所述的方法，其特征在于，先提取所述口音数据的静态参数，然后分别计算所述静态参数的一阶差分和二阶差分，得到所述特征参数。4.根据权利要求1所述的方法，其特征在于，所述基线声学模型为长短时记忆神经网络模型。5.根据权利要求1所述的方法，其特征在于，所述分类器是前馈神经网络分类器。6.根据权利要求1所述的方法，其特征在于，利用前向算法计算所述软化概率分布。7.根据权利要求1所述的方法，其特征在于，所述损失函数为联结时序分类损失函数。8.根据权利要求7所述的方法，其特征在于，在步骤S104中，将所述基线声学模型的损失函数视为一个正则化项加入到口音依赖的标准损失函数上，对于输入目标语...

【专利技术属性】
技术研发人员：陶建华，易江燕，温正棋，刘斌，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人