一种多语种语音识别方法、系统、存储介质和电子设备技术方案

技术编号:36948065 阅读:49 留言:0更新日期:2023-03-22 19:09
本发明专利技术涉及一种多语种语音识别方法、系统、存储介质和电子设备,包括:基于多个原始语音样本,对添加有语种识别模块的原始语音识别网络进行训练,得到第一多语种语音识别模型;当待测语音的语种类别不为测试者所获知时,将所述待测语音输入至所述第一多语种语音识别模型,得到所述待测语音的语音识别结果和语种识别结果。本发明专利技术在使用单模型完成多语种语音识别的同时,还能够利用已知的语种信息提升语音识别的精度。音识别的精度。音识别的精度。

【技术实现步骤摘要】
一种多语种语音识别方法、系统、存储介质和电子设备


[0001]本专利技术涉及深度学习
,尤其涉及一种多语种语音识别方法、系统、存储介质和电子设备。

技术介绍

[0002]随着深度学习的普及以及带标注语音训练数据量的增长,单一语种的大词表通用语音识别逐渐普及并且获得了比较好的效果。但是单模型多语种的语音识别仍然具有较高的挑战。存在但不限于以下困难点:1)使用语种识别和语音识别级联的方式,会造成语种识别的错误传递给语音识别模块,并且需要训练多个语种的语音识别模型。2)多语种训练数据量的不平衡,直接使用单模型进行多语种识别存在难度。3)在某些多语种识别的场景下,已知语种信息,但是无法在语音识别模块中有效利用。
[0003]因此,亟需提供一种技术方案解决上述技术问题。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供了一种多语种语音识别方法、系统、存储介质和电子设备。
[0005]本专利技术的一种多语种语音识别方法的技术方案如下:
[0006]基于多个原始语音样本,对添加有语种识别模块的原始语音识别网络进行训练,得到第一多语种语音识别模型;
[0007]当待测语音的语种类别不为测试者所获知时,将所述待测语音输入至所述第一多语种语音识别模型,得到所述待测语音的语音识别结果和语种识别结果。
[0008]本专利技术的一种多语种语音识别方法的有益效果如下:
[0009]本专利技术的方法在使用单模型完成多语种语音识别的同时,提高了对多语种语音识别的精度。
[0010]在上述方案的基础上,本专利技术的一种多语种语音识别方法还可以做如下改进。
[0011]进一步,还包括:
[0012]当所述待测语音的语种类别为所述测试者所获知时,将所述第一多语种语音识别模型中的所述语种识别模块进行删除,得到第一语音识别模型;
[0013]对所述待测语音的语种类别进行编码,得到所述待测语音的目标语种编码特征,并将所述目标语种编码特征添加至所述第一语音识别模型中,得到目标语音识别模型;
[0014]将所述待测语音输入至所述目标语音识别模型中,得到所述待测语音的语音识别结果。
[0015]进一步,所述语种识别模块包括:语种特征子模块、时间权重子模块、第一全连接线性层、第二全连接线性层、第一1D线性层和Softmax层;所述语种识别模块用于:
[0016]接收上一层输出的第一语音特征,并将所述第一语音特征分别输入至所述语种特征子模块和所述时间权重子模块进行处理,得到所述语种特征子模块输出的第一语种特征
和所述时间权重子模块输出的时间权重特征;
[0017]对所述第一语种特征与所述时间权重特征进行特征相乘,得到并将第二语种特征输入至所述第一全连接线性层进行线性处理,得到第三语种特征;
[0018]将所述第三语种特征输入至所述Softmax层进行处理,得到第四语种特征和语种预测结果,并将所述第四语种特征输入至所述第二全连接线性层进行语种编码处理,第一语种编码特征;
[0019]对所述第一语种编码特征和所述第一语种特征进行特征相乘,得到并将第二语种编码特征输入至所述第一1D线性层进行处理,得到第三语种编码特征;
[0020]对所述第三语种编码特征与所述第一语音特征进行特征合并,得到并将第二语音特征输入至下一层。
[0021]进一步,所述基于多个原始语音样本,对添加有语种识别模块的原始语音识别网络进行训练,得到第一多语种语音识别模型,包括:
[0022]对每个原始语音样本进行预处理,得到每个原始语音样本对应的Fbank特征,并基于多个Fbank特征,对添加有所述语种识别模块的所述原始语音识别网络进行训练,得到所述第一多语种语音识别模型。
[0023]进一步,所述基于多个Fbank特征,对添加有所述语种识别模块的所述原始语音识别网络进行训练,得到所述第一多语种语音识别模型的步骤,包括:
[0024]将每个Fbank特征输入至添加有所述语种识别模块的所述原始语音识别网络,得到并根据每个Fbank特征对应的语种识别损失值和语音识别损失值,生成每个Fbank特征的目标损失值;
[0025]根据所有的目标损失值对添加有所述语种识别模块的所述原始语音识别网络的参数进行优化,得到优化后的多语种语音识别模型;
[0026]将所述优化后的多语种语音识别模型作为添加有所述语种识别模块的所述原始语音识别网络,并返回执行所述将每个Fbank特征输入至添加有所述语种识别模块的所述原始语音识别网络的步骤,直至所述优化后的多语种语音识别模型满足预设迭代训练条件时,得到所述第一多语种语音识别模型。
[0027]本专利技术的一种多语种语音识别系统的技术方案如下:
[0028]包括:训练模块和第一识别模块;
[0029]所述训练模块用于:基于多个原始语音样本,对添加有语种识别模块的原始语音识别网络进行训练,得到第一多语种语音识别模型;
[0030]所述第一识别模块用于:当待测语音的语种类别不为测试者所获知时,将所述待测语音输入至所述第一多语种语音识别模型,得到所述待测语音的语音识别结果和语种识别结果。
[0031]本专利技术的一种多语种语音识别系统的有益效果如下:
[0032]本专利技术的系统在使用单模型完成多语种语音识别的同时,提高了对多语种语音识别的精度。
[0033]在上述方案的基础上,本专利技术的一种多语种语音识别系统还可以做如下改进。
[0034]进一步,还包括:第二识别模块;所述第二识别模块用于:
[0035]当所述待测语音的语种类别为所述测试者所获知时,将所述第一多语种语音识别
模型中的所述语种识别模块进行删除,得到第一语音识别模型;
[0036]对所述待测语音的语种类别进行编码,得到所述待测语音的目标语种编码特征,并将所述目标语种编码特征添加至所述第一语音识别模型中,得到目标语音识别模型;
[0037]将所述待测语音输入至所述目标语音识别模型中,得到所述待测语音的语音识别结果。
[0038]进一步,所述语种识别模块包括:语种特征子模块、时间权重子模块、第一全连接线性层、第二全连接线性层、第一1D线性层和Softmax层;所述语种识别模块用于:
[0039]接收上一层输出的第一语音特征,并将所述第一语音特征分别输入至所述语种特征子模块和所述时间权重子模块进行处理,得到所述语种特征子模块输出的第一语种特征和所述时间权重子模块输出的时间权重特征;
[0040]对所述第一语种特征与所述时间权重特征进行特征相乘,得到并将第二语种特征输入至所述第一全连接线性层进行线性处理,得到第三语种特征;
[0041]将所述第三语种特征输入至所述Softmax层进行处理,得到第四语种特征和语种预测结果,并将所述第四语种特征输入至所述第二全连接线性层进行语种编码处理,第一语种编码特征;
[0042]对所述第一语种编码特征和所述第一语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语种语音识别方法,其特征在于,包括:基于多个原始语音样本,对添加有语种识别模块的原始语音识别网络进行训练,得到第一多语种语音识别模型;当待测语音的语种类别不为测试者所获知时,将所述待测语音输入至所述第一多语种语音识别模型,得到所述待测语音的语音识别结果和语种识别结果。2.根据权利要求1所述的多语种语音识别方法,其特征在于,还包括:当所述待测语音的语种类别为所述测试者所获知时,将所述第一多语种语音识别模型中的所述语种识别模块进行删除,得到第一语音识别模型;对所述待测语音的语种类别进行编码,得到所述待测语音的目标语种编码特征,并将所述目标语种编码特征添加至所述第一语音识别模型中,得到目标语音识别模型;将所述待测语音输入至所述目标语音识别模型中,得到所述待测语音的语音识别结果。3.根据权利要求1或2所述的多语种语音识别方法,其特征在于,所述语种识别模块包括:语种特征子模块、时间权重子模块、第一全连接线性层、第二全连接线性层、第一1D线性层和Softmax层;所述语种识别模块用于:接收上一层输出的第一语音特征,并将所述第一语音特征分别输入至所述语种特征子模块和所述时间权重子模块进行处理,得到所述语种特征子模块输出的第一语种特征和所述时间权重子模块输出的时间权重特征;对所述第一语种特征与所述时间权重特征进行特征相乘,得到并将第二语种特征输入至所述第一全连接线性层进行线性处理,得到第三语种特征;将所述第三语种特征输入至所述Softmax层进行处理,得到第四语种特征和语种预测结果,并将所述第四语种特征输入至所述第二全连接线性层进行语种编码处理,第一语种编码特征;对所述第一语种编码特征和所述第一语种特征进行特征相乘,得到并将第二语种编码特征输入至所述第一1D线性层进行处理,得到第三语种编码特征;对所述第三语种编码特征与所述第一语音特征进行特征合并,得到并将第二语音特征输入至下一层。4.根据权利要求1所述的多语种语音识别方法,其特征在于,所述基于多个原始语音样本,对添加有语种识别模块的原始语音识别网络进行训练,得到第一多语种语音识别模型,包括:对每个原始语音样本进行预处理,得到每个原始语音样本对应的Fbank特征,并基于多个Fbank特征,对添加有所述语种识别模块的所述原始语音识别网络进行训练,得到所述第一多语种语音识别模型。5.根据权利要求4所述的多语种语音识别方法,其特征在于,所述基于多个Fbank特征,对添加有所述语种识别模块的所述原始语音识别网络进行训练,得到所述第一多语种语音识别模型的步骤,包括:将每个Fbank特征输入至添加有所述语种识别模块的所述原始语音识别网络,得到并根据每个Fbank特征对应的语种识别损失值和语音识别损失值,生成每个Fbank特征的目标损失值;
根据所有的目标损失值对添加有所述语种识别模块的所述原始语音识别...

【专利技术属性】
技术研发人员:张熙庆
申请(专利权)人:数美天下北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1