【技术实现步骤摘要】
用于训练混合语言识别模型的方法和装置
本申请实施例涉及计算机
,具体涉及用于训练混合语言识别模型的方法和装置。
技术介绍
随着语音识别技术的发展,语音识别的性能已满足实用,比如手机上的各种输入法都带有语音交互功能。而在实际应用中,除了普通话场景的语音识别外,还存在方言场景的语音识别。目前已有许多支持方言语音识别的语音交互产品,比如手机输入法上语音识别可选项,用户可以根据需要选择对应的方言,再比如一些针对特定方言制定的智能电视、智能冰箱等。相关技术中,通常采用普通话识别模型对普通话进行语音识别,采用相应的方言识别模型对方言进行语音识别,而在用户在切换语言时,需要来回选择相应的语音识别模型,操作繁琐。并且,随着支持的方言越来越多,需要训练的方言识别模型的数量的越来越多,导致模型训练工作量较高。
技术实现思路
本申请实施例提出了用于训练混合语言识别模型的方法和装置。第一方面,本申请实施例提出了一种用于训练混合语言识别模型的方法,包括:生成第一语言音频的第一音节标签序列和第二语言音频 ...
【技术保护点】
1.一种用于训练混合语言识别模型的方法,包括:/n生成第一语言音频的第一音节标签序列和第二语言音频的第二音节标签序列;/n利用预先训练的第一语言识别模型对所述第二语言音频和所述第二音节标签序列进行处理,得到连接时序分类维特比序列,其中,所述第一语言识别模型是基于所述第一音节标签序列训练得到的;/n基于所述连接时序分类维特比序列,确定所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分;/n基于所确定出的连接时序分类维特比得分,从所述第二音节标签序列中确定差异音节标签;/n基于所述第一音节标签序列和所述差异音节标签对深层神经网络进行混合训练,得到混合语言识别模型。/n
【技术特征摘要】
1.一种用于训练混合语言识别模型的方法,包括:
生成第一语言音频的第一音节标签序列和第二语言音频的第二音节标签序列;
利用预先训练的第一语言识别模型对所述第二语言音频和所述第二音节标签序列进行处理,得到连接时序分类维特比序列,其中,所述第一语言识别模型是基于所述第一音节标签序列训练得到的;
基于所述连接时序分类维特比序列,确定所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分;
基于所确定出的连接时序分类维特比得分,从所述第二音节标签序列中确定差异音节标签;
基于所述第一音节标签序列和所述差异音节标签对深层神经网络进行混合训练,得到混合语言识别模型。
2.根据权利要求1所述的方法,其中,所述生成第一语言音频的第一音节标签序列,包括:
提取所述第一语言音频的梅尔频率倒谱系数特征;
基于所述梅尔频率倒谱系数特征和所述第一语言音频对应的文本对高斯混合模型进行训练,得到对齐高斯混合模型和所述第一音节标签序列。
3.根据权利要求2所述的方法,其中,所述生成第二语言音频的第二音节标签序列,包括:
将所述第二语言音频输入至所述对齐高斯混合模型,得到所述第二音节标签序列,其中,所述第二音节标签序列的标签数等于所述第一音节标签序列的标签数。
4.根据权利要求1所述的方法,其中,所述利用预先训练的第一语言识别模型对所述第二语言音频和所述第二音节标签序列进行处理,得到连接时序分类维特比序列,包括:
对所述第二音节标签序列去重,得到去重音节标签序列;
对所述去重音节标签序列去静音帧,得到有效音节标签序列;
对所述有效音节标签序列插入空格,得到插空音节标签序列;
将所述第二语言音频和所述插空音节标签序列输入至所述第一语言识别模型,得到所述连接时序分类维特比序列。
5.根据权利要求4所述的方法,其中,所述基于所述连接时序分类维特比序列,确定所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分,包括:
对于所述有效音节标签序列中的每种有效音节标签,基于该有效音节标签在所述连接时序分类维特比序列中的位置,确定该有效音节标签的连接时序分类维特比得分。
6.根据权利要求4或5所述的方法,其中,所述基于所确定出的连接时序分类维特比得分,从所述第二音节标签序列中确定差异音节标签,包括:
将所述有效音节标签序列中连接时序分类维特比得分小于预设阈值的有效音节标签确定为差异音节标签。
7.根据权利要求1所述的方法,其中,所述第一语言识别模型通过如下步骤训练得到:
提取所述第一语言音频的滤波器组系数特征;
基于所述滤波器组系数特征和所述第一音节标签序列对深层神经网络进行训练,得到第一语言识别模型,其中,所述第一语言识别模型的输出层的节点数等于所述第一音节标签序列的标签数。
8.根据权利要求7所述的方法,其中,所述基于所述第一音节标签序列和所述差异音节标签对深层神经网络进行混合训练,得到混合语言识别模型,包括:
基于所述滤波器组系数特征、所述第一音节标签序列和所述差异音节标签对深层神经网络进行混合训练,得到混合语言识别模型,其中,所述混合语言识别模型的输出层的节点数等于所述第一音节标签序列的标签数和所述差异音节标签的标签数之和。
9.根据权利要求7或8所述的方法,其中,训练所述第一语言识别模型或所述混合语言识别模型时采用基于连接时序分类的训练准则优化所述深层神经网络。
10.一种用于训练混合语言识别模型的装置,包括:
生成单元,被配置成生成...
【专利技术属性】
技术研发人员:袁胜龙,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。