一种中文语音识别方法、系统、存储介质和电子设备技术方案

技术编号:36804153 阅读:15 留言:0更新日期:2023-03-09 00:04
本发明专利技术涉及一种中文语音识别方法、系统、存储介质和电子设备,包括:基于多个中文语音训练样本,对添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络进行训练,得到第一中文语音识别模型,并删除所述第一中文语音识别模型中的所述细粒度损失模块和所述两个中间层损失模块,得到目标中文语音识别模型;将待识别中文语音数据输入至所述目标中文语音识别模型中,得到中文语音识别结果。本发明专利技术通过添加多层级多粒度的损失计算,使CTC编码网络能够提取更加丰富多样的语音特征信息,在不影响模型推理速度和模型复杂度的同时,提高了中文语音识别的准确率。提高了中文语音识别的准确率。提高了中文语音识别的准确率。

【技术实现步骤摘要】
一种中文语音识别方法、系统、存储介质和电子设备


[0001]本专利技术涉及深度学习
,尤其涉及一种中文语音识别方法、系统、存储介质和电子设备。

技术介绍

[0002]目前的中文语音识别模型中,普遍存在识别精度不高或者是模型复杂度偏高等问题。倘若只是为提高模型的识别精度而构建复杂的编码网络无疑会大大增加计算难度,从而增加了模型推理的速度。
[0003]如何在提高模型精度的同时,不降低模型识别的效率,是当前亟需解决的技术问题。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供了一种中文语音识别方法、系统、存储介质和电子设备。
[0005]本专利技术的一种中文语音识别方法的技术方案如下:
[0006]基于多个中文语音训练样本,对添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络进行训练,得到第一中文语音识别模型,并删除所述第一中文语音识别模型中的所述细粒度损失模块和所述两个中间层损失模块,得到目标中文语音识别模型;其中,所述细粒度损失模块用于:接收并根据上一个原始编码层输出的第一中文语音特征,得到细粒度损失值;任一中间层损失模块用于:接收并对上一个原始编码层输出的第二中文语音特征进行处理,得到第三中文语音特征,并将所述第三中文语音特征与所述第二中文语音特征进行拼接,得到并将拼接中文语音特征输入至下一个原始编码层;
[0007]将待识别中文语音数据输入至所述目标中文语音识别模型中,得到中文语音识别结果。
[0008]本专利技术的一种中文语音识别方法的有益效果如下:
[0009]本专利技术的方法通过添加多层级多粒度的损失计算,使CTC编码网络能够提取更加丰富多样的语音特征信息,在不影响模型推理速度和模型复杂度的同时,提高了中文语音识别的准确率。
[0010]在上述方案的基础上,本专利技术的一种中文语音识别方法还可以做如下改进。
[0011]进一步,所述细粒度损失模块包括:依次设置的第一归一化层、第一线性层和第一softmax函数和细粒度损失函数;
[0012]所述细粒度损失模块具体用于:接收所述细粒度损失模块对应的上一层编码层输出的第一中文语音特征,并依次经所述第一归一化层、第一线性层和所述第一softmax函数进行处理,得到并将处理后的第一中文语音特征输入至所述细粒度损失函数中进行计算,得到所述细粒度损失值。
[0013]进一步,所述两个中间层损失模块包括:包含依次设置的第二归一化层、第二线性
层、第二softmax函数、第一新增线性层和拼音级损失函数的拼音级中间层损失模块,和,包含依次设置的第三归一化层、第三线性层、第三sotfmax函数、第二新增线性层和字符级损失函数的字符级中间层损失模块;
[0014]所述拼音级中间层损失模块用于:接收所述拼音级中间层损失模块对应的上一层原始编码层输出的第二中文语音特征,并依次通过所述第二归一化层、所述第二线性层、所述第二softmax函数对所述拼音级中间层损失模块的第二中文语音特征进行处理,得到所述拼音级中间层损失模块的第三中文语音特征,并通过所述第一新增线性层,将所述拼音级中间层损失模块的第三中文语音特征与所述拼音级中间层损失模块的第二中文语音特征进行拼接,得到并将所述拼音级中间层损失模块的拼接中文语音特征输出至所述拼音级中间层损失模块对应的下一层原始编码层;
[0015]所述字符级中间层损失模块用于:接收所述字符级中间层损失模块对应的上一层原始编码层输出的第二中文语音特征,并依次通过所述第三归一化层、所述第三线性层、所述第三softmax函数对所述字符级中间层损失模块的第二中文语音特征进行处理,得到所述字符级中间层损失模块的第三中文语音特征,并通过所述第二新增线性层,将所述字符级中间层损失模块的第三中文语音特征与所述字符级中间层损失模块的第二中文语音特征进行拼接,得到并将所述字符级中间层损失模块的拼接中文语音特征输出至所述字符级中间层损失模块对应的下一层原始编码层;
[0016]其中,所述第一归一化层与所述第二归一化层的参数相同,所述第一线性层和所述第二线性层的参数相同;所述第三归一化层与所述原始CTC编码网络的原始归一化层的参数相同,所述第三线性层与所述原始CTC编码网络的原始线性层的参数相同。
[0017]进一步,所述拼音级中间层损失模块还用于:将所述拼音级中间层损失模块的第三中文语音特征输入至所述拼音级损失函数进行计算,得到第一拼音级损失值;
[0018]所述字符级中间层损失模块还用于:将所述字符级中间层损失模块的第三中文语音特征输入至所述字符级损失函数进行计算,得到第一字符级损失值。
[0019]进一步,所述基于多个中文语音训练样本,对添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络进行训练,得到第一中文语音识别模型,包括:
[0020]将每个中文语音训练样本分别输入至所述添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络进行训练,得到并根据每个中文语音训练样本的细粒度损失值、第一拼音级损失值、第一字符级损失值和原始CTC网络损失值,得到每个中文语音训练样本的目标损失值;
[0021]根据所有的目标损失值对所述添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络的参数进行优化,得到并将优化后的CTC编码网络作为所述原始CTC编码网络,返回执行基于多个中文语音训练样本,对添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络进行训练的步骤,直至所述优化后的CTC编码网络满足预设条件时,得到所述第一中文语音识别模型。
[0022]进一步,所述根据每个中文语音训练样本的细粒度损失值、第一拼音级损失值、第一字符级损失值和原始CTC网络损失值,得到每个中文语音训练样本的目标损失值的步骤,包括:
[0023]基于第一预设公式、任一中文语音训练样本的细粒度损失值和第一拼音级损失
值,得到所述任一中文语音训练样本的目标拼音级损失值;其中,所述第一预设公式为:值,得到所述任一中文语音训练样本的目标拼音级损失值;其中,所述第一预设公式为:为所述任一中文语音训练样本的第一拼音级损失值,为所述任一中文语音训练样本的细粒度损失值,Lpinyin

CTC为所述任一中文语音训练样本的目标拼音级损失值,α为拼音级辅助损失的权重系数,α∈(0,1);
[0024]基于第二预设公式、所述任一中文语音训练样本的第一字符级损失值和原始CTC网络损失值,得到所述任一中文语音训练样本的目标字符级损失值;其中,所述第二预设公式为:式为:式为:为所述任一中文语音训练样本的第一字符级损失值,为所述任一中文语音训练样本的原始CTC网络损失值,L
c
h
aracter

CTC
为所述任一中文语音训练样本的目标字符级损失值,β为字符级辅助损失的权重系数,β∈(0,1);
[0025]基于第三预设公式、所述任一中文语音训练样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文语音识别方法,其特征在于,包括:基于多个中文语音训练样本,对添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络进行训练,得到第一中文语音识别模型,并删除所述第一中文语音识别模型中的所述细粒度损失模块和所述两个中间层损失模块,得到目标中文语音识别模型;其中,所述细粒度损失模块用于:接收并根据上一个原始编码层输出的第一中文语音特征,得到细粒度损失值;任一中间层损失模块用于:接收并对上一个原始编码层输出的第二中文语音特征进行处理,得到第三中文语音特征,并将所述第三中文语音特征与所述第二中文语音特征进行拼接,得到并将拼接中文语音特征输入至下一个原始编码层;将待识别中文语音数据输入至所述目标中文语音识别模型中,得到中文语音识别结果。2.根据权利要求1所述的一种中文语音识别方法,其特征在于,所述细粒度损失模块包括:依次设置的第一归一化层、第一线性层和第一softmax函数和细粒度损失函数;所述细粒度损失模块具体用于:接收所述细粒度损失模块对应的上一层编码层输出的第一中文语音特征,并依次经所述第一归一化层、所述第一线性层和所述第一softmax函数进行处理,得到并将处理后的第一中文语音特征输入至所述细粒度损失函数中进行计算,得到所述细粒度损失值。3.根据权利要求2所述的一种中文语音识别方法,其特征在于,所述两个中间层损失模块包括:包含依次设置的第二归一化层、第二线性层、第二softmax函数、第一新增线性层和拼音级损失函数的拼音级中间层损失模块,和,包含依次设置的第三归一化层、第三线性层、第三sotfmax函数、第二新增线性层和字符级损失函数的字符级中间层损失模块;所述拼音级中间层损失模块用于:接收所述拼音级中间层损失模块对应的上一层原始编码层输出的第二中文语音特征,并依次通过所述第二归一化层、所述第二线性层、所述第二softmax函数对所述拼音级中间层损失模块的第二中文语音特征进行处理,得到所述拼音级中间层损失模块的第三中文语音特征,并通过所述第一新增线性层,将所述拼音级中间层损失模块的第三中文语音特征与所述拼音级中间层损失模块的第二中文语音特征进行拼接,得到并将所述拼音级中间层损失模块的拼接中文语音特征输出至所述拼音级中间层损失模块对应的下一层原始编码层;所述字符级中间层损失模块用于:接收所述字符级中间层损失模块对应的上一层原始编码层输出的第二中文语音特征,并依次通过所述第三归一化层、所述第三线性层、所述第三softmax函数对所述字符级中间层损失模块的第二中文语音特征进行处理,得到所述字符级中间层损失模块的第三中文语音特征,并通过所述第二新增线性层,将所述字符级中间层损失模块的第三中文语音特征与所述字符级中间层损失模块的第二中文语音特征进行拼接,得到并将所述字符级中间层损失模块的拼接中文语音特征输出至所述字符级中间层损失模块对应的下一层原始编码层;其中,所述第一归一化层与所述第二归一化层的参数相同,所述第一线性层和所述第二线性层的参数相同;所述第三归一化层与所述原始CTC编码网络的原始归一化层的参数相同,所述第三线性层与所述原始CTC编码网络的原始线性层的参数相同。4.根据权利要求3所述的一种中文语音识别方法,其特征在于,所述拼音级中间层损失模块还用于:将所述拼音级中间层损失模块的第三中文语音特征输入至所述拼音级损失函
数进行计算,得到第一拼音级损失值;所述字符级中间层损失模块还用于:将所述字符级中间层损失模块的第三中文语音特征输入至所述字符级损失函数进行计算,得到第一字符级损失值。5.根据权利要求4所述的一种中文语音识别方法,其特征在于,所述基于多个中文语音训练样本,对添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络进行训练,得到第一中文语音识别模型,包括:将每个中文语音训练样本分别输入至所述添加有一个细粒度损失模块和两个中间层损失模块的原始CTC编码网络进行训练,得到并根据每个中文语音训练样本的细粒度损失值、第一拼音级损失值、第一字符级损失值和原始CTC网络损失值,得到每个中文语音训练样本的目标损失值;根据所有的...

【专利技术属性】
技术研发人员:李建群
申请(专利权)人:数美天下北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1