四川方言识别方法、声学模型训练方法、装置及设备制造方法及图纸

技术编号：19483213 阅读：32 留言：0更新日期：2018-11-17 10:56

本发明专利技术提供的四川方言识别方法、声学模型训练方法、装置及设备，属于语音识别技术领域。该声学模型训练方法包括采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。该声学模型训练方法可有效节省声学模型训练所需时间，提高训练效率，并保证识别效率和识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
四川方言识别方法、声学模型训练方法、装置及设备
本专利技术涉及语音识别
，具体而言，涉及四川方言识别方法、声学模型训练方法、装置及设备。
技术介绍
语音识别任务是将一段包含了自然语言发音的声学信号投影到说话人的词序列上。从二十世纪八十年代到2009～2012年，最先进的语音识别系统结合了隐马尔可夫模型(hiddenmarkovmodel，HMM)和混合高斯模型(gaussianmixturemodel，GMM)，然而此期间语音识别效果并不能够达到商用水平。2009年，Hinton将深度神经网络(deepneuralnetwork，DNN)介绍给做语音识别的学者们，2010年产生了巨大突破。在Hinton团队与微软、谷歌、IBM研究团队的共同努力下，把GMM替换成DNN，相对识别错误率下降近30％。后续的语音识别研究几乎全部基于深度学习，大多是对Hinton提出的模型架构进行改进，或者是针对不同的语言特点构建相应的语音识别系统。目前中国有超过一亿人口使用四川方言，然而对四川方言识别效果很差，且当前声学模型训练后对语音识别效果较差，使得用户体验效果不好。
技术实现思路
本专利技术实施例提供的声学模型训练方法、装置、设备及介质，可以解决现有技术中的模型存在的识别错误率较高的技术问题。本专利技术实施例提供的四川方言识别方法、装置、设备及介质，可以解决现有技术中的方言识别存在的识别效率低的技术问题。第一方面，本专利技术实施例提供的一种声学模型训练方法，包括：采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所...

【技术保护点】
1.一种声学模型训练方法，其特征在于，包括：采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。

【技术特征摘要】
1.一种声学模型训练方法，其特征在于，包括：采集四川方言语音数据；对所述四川方言语音数据进行特征提取，获取语音特征；采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征；采用深度延迟LSTM模型对所述待处理语音特征进行训练，获取目标声学模型。2.根据权利要求1所述的方法，其特征在于，所述的对所述四川方言语音数据进行特征提取，包括：将所述四川方言语音数据以20毫秒为一帧进行切割；对每一帧所述四川方言语音数据进行特征提取。3.根据权利要求1所述的方法，其特征在于，所述的对所述四川方言语音数据进行特征提取，获取语音特征，包括：将每条所述四川方言语音数据按照语意切割成多条预设长度的语音数据，并给出每条语音数据所对应的中文标签；提取每条语音数据的梅尔频率倒谱系数特征。4.根据权利要求1所述的方法，其特征在于，所述的采用深度延迟LSTM模型对所述待处理语音特征进行训练，包括：采用反向传播算法对深度延迟LSTM模型进行训练，获取训练后的神经网络模型；通过所述训练后的神经网络模型对所述待处理语音特征进行训练。5.根据权利要求1所述的方法，其特征在于，所述的采用隐马尔可夫模型－混合高斯模型对所述语音特征进行训练，获取每一帧所述语音特征所对应的分类标签以及生成带所述分类标签的待处理语音特征，包括：基于隐马尔可夫模型－混合高斯模型对所述语音特征进行训练；采用强制对齐对每一帧所述语音特征打上所对应的分类标签；生成带所述分类标签的待处理语音特征。6.一种四川方言识别方法，其特征在于，包...

【专利技术属性】
技术研发人员：张蕾，应汪洋，章毅，郭际香，陈媛媛，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人