【技术实现步骤摘要】
语音识别模型训练方法、系统、移动终端及存储介质
本专利技术属于语音识别
,尤其涉及一种语音识别模型训练方法、系统、移动终端及存储介质。
技术介绍
语音识别研究已有几十年的历史,语音识别技术主要包括声学模型建模、语言模型建模、发音词典构建以及解码四个部分,每一部分都可以成为一个单独的研究方向,并且相对于图像和文本,语音数据的采集和标注难度也大大提升,因此搭建一个完整的语音识别模型训练系统是个耗时极长、难度极高的工作,这极大阻碍了语音识别技术的发展。随着人工智能技术尤其是深度学习的研究和发展,一些基于端到端的语音识别算法被提出来,相较于传统语音识别模型训练方法,端到端语音识别模型训练方法简化了语音识别的流程,将大量工作交给了深度神经网络去学习和推理,因此在近些年得到了广泛关注。现有的语音识别模型训练过程中,首先用隐马尔科夫模型对声学建模单元进行建模,例如音素、音节等,然后用高斯混合模型对每一帧语音和隐马尔科夫模型的状态之间的对应关系进行建模,得到音素序列,通过发音词典将音素序列组合成词,最后通过语言模型将词组合成句 ...
【技术保护点】
1.一种语音识别模型训练方法,其特征在于,所述方法包括:/n获取样本语音、与所述样本语音对应的样本文本及文本语料,并根据所述样本文本和所述文本语料构建文本字典;/n对所述样本语音进行特征提取,得到语谱图特征,并对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐;/n将所述语谱图特征输入语音识别模型进行向量计算,以得到概率向量,并根据所述概率向量和所述文本字典进行损失计算,以得到模型总损失;/n将所述模型总损失在所述语音识别模型中进行传播,直至所述语音识别模型收敛,根据所述文本语料进行语言模型的训练,并将训练后的所述语言模型集成至所述语音识别模型。/n
【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,所述方法包括:
获取样本语音、与所述样本语音对应的样本文本及文本语料,并根据所述样本文本和所述文本语料构建文本字典;
对所述样本语音进行特征提取,得到语谱图特征,并对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐;
将所述语谱图特征输入语音识别模型进行向量计算,以得到概率向量,并根据所述概率向量和所述文本字典进行损失计算,以得到模型总损失;
将所述模型总损失在所述语音识别模型中进行传播,直至所述语音识别模型收敛,根据所述文本语料进行语言模型的训练,并将训练后的所述语言模型集成至所述语音识别模型。
2.如权利要求1所述的语音识别模型训练方法,其特征在于,所述对所述样本语音进行特征提取的步骤包括:
对所述样本语音进行预加重处理,并对加重后的所述样本语音进行分帧处理,得到多帧语音信号;
对每帧所述语音信号进行加窗处理,并对加窗后的所述语音信号进行快速傅里叶变换,得到所述语谱图特征。
3.如权利要求1所述的语音识别模型训练方法,其特征在于,所述对所述语谱图特征进行长度排序,根据排序结果对所述语谱图特征进行长度补齐的步骤包括:
将所述语谱图特征根据时间轴长度进行排序,并所述语谱图特征进行分组;
在每组所述语谱图特征中,选取最长时间的所述语谱图特征设置为当前组的目标长度;
将所述当前组中所有所述语谱图特征沿时间轴补0补齐至所述目标长度。
4.如权利要求1所述的语音识别模型训练方法,其特征在于,所述将所述语谱图特征输入语音识别模型进行向量计算的步骤包括:
将所述语谱图特征输入所述语音识别模型中的CNN网络,并控制所述CNN网络对所述语谱图特征进行卷积、池化和非线性变换,得到特征向量;
将所述特征向量输入全连接网络,并根据softmax函数对所述全连接网络的输出进行概率计算,得到所述概率向量。
5.如权利要求1所述的语音识别模型训练方法,其特征在于,所述根据所述样本文本和所述文本语料构建文本字典的步骤包括:
对本地预存储的训练文本进行遍历,将所有不重复的字符加入到所述文本字典中,以构建字符集,且每个字符均用对应唯一的ID表示;
将所述样本文本和所述文本语料中的字符根据所述字符集替换为对应的ID;
将所述文本语料中未在所述字符集中的字符用第一标识...
【专利技术属性】
技术研发人员:徐敏,肖龙源,李稀敏,蔡振华,刘晓葳,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。