方言语音识别方法、装置、介质及电子设备制造方法及图纸

技术编号:27689300 阅读:14 留言:0更新日期:2021-03-17 04:24
本申请提供了一种方言语音识别方法、装置、介质及电子设备。该方法包括:获取待识别方言语音;将待识别方言语音输入编码模型得到与待识别方言语音对应的待识别低维序列,编码模型是基于使用普通话训练样本集训练得到的第一比对模型和使用方言训练样本集训练的第二比对模型得到的,将待识别低维序列进行解码,得到与待识别方言语音对应的文本,能够在一定程度上增加方言语音识别的准确性。

【技术实现步骤摘要】
方言语音识别方法、装置、介质及电子设备
本申请涉及通信
,特别涉及一种方言语音识别方法、装置、介质及电子设备。
技术介绍
随着人工智能的逐步发展,神经网络模型得到了广泛应用,在模型训练的过程中,模型的性能一方面取决于所使用的算法,另一方面取决于训练样本数据量的多少。在语音识别模型中,由于能够获得较多的普通话训练样本,训练出的普通话识别模型通常比较准确,但是,各地方言与普通话有一定差异,普通话识别模型不能准确识别方言,而训练各种方言对应的语音识别模型时,各种方言的样本数量又不能保证,使得方言语音不能被准确识别。
技术实现思路
本申请旨在提供一种方言语音识别方法、装置、介质及电子设备,其能够在一定程度上增加方言语音识别的准确性。根据本申请实施例的一个方面,提供了一种方言语音识别方法,包括:获取待识别方言语音;将所述待识别方言语音输入编码模型得到与所述待识别方言语音对应的待识别低维序列,所述编码模型是基于使用普通话训练样本集训练得到的第一比对模型和使用方言训练样本集训练的第二比对模型得到的,其中,所述第一比对模型包括:多个第一特征提取模块,用于提取普通话语音样本的普通话语音特征,每个所述第一特征提取模块包括卷积层、与卷积层的输出连接的池化层和与池化层的输出连接的全连接层,其中,所述卷积层有多个,多个所述卷积层之间采用跳跃连接的方式连接;第一高维编码模块,与多个所述第一特征提取模块中最后一个模块的输出连接,用于将所述普通话语音特征进行高维编码,得到普通话高维序列;第一回归模块,与所述第一高维编码模块的输出连接,用于将所述普通话高维序列转化为普通话低维序列,所述第一回归模块包括循环神经网络的隐藏层,所述隐藏层有多个,多个所述隐藏层中相邻的两个隐藏层之间设置一层聚焦层;所述第二比对模型包括:多个第二特征提取模块,用于提取方言语音样本的方言语音特征,每个所述第二特征提取模块包括卷积层、与卷积层的输出连接的池化层和与池化层的输出连接的全连接层,其中,所述卷积层有多个,多个所述卷积层之间采用跳跃连接的方式连接;第二高维编码模块,与多个所述第二特征提取模块中最后一个模块的输出连接,用于将所述方言语音特征进行高维编码,得到方言高维序列;第二回归模块,与所述第二高维编码模块的输出连接,用于将所述方言高维序列转化为方言低维序列,所述第二回归模块包括循环神经网络的隐藏层,所述隐藏层有多个,多个所述隐藏层中相邻的两个隐藏层之间设置一层聚焦层;基于所述第一比对模型和所述第二比对模型得到编码模型的过程,包括:将所述第一比对模型通过无监督的知识蒸馏方法向所述第二比对模型进行知识蒸馏得到所述编码模型;将示例普通话语音输入第一比对模型,并将与和所述示例普通话语音相同语义的方言语音输入所述编码模型;获取所述第一比对模型的输出和所述编码模型的输出,计算所述第一比对模型的输出和所述编码模型的输出之间的差异度;基于所述第一比对模型的输出和所述编码模型的输出之间的差异度调整所述编码模型;将所述待识别低维序列进行解码,得到与所述待识别方言语音对应的文本。根据本申请实施例的一个方面,提供了一种方言语音识别装置,包括:获取单元,配置为获取待识别方言语音;输入单元,配置为将所述待识别方言语音输入编码模型得到与所述待识别方言语音对应的待识别低维序列,所述编码模型是基于使用普通话训练样本集训练得到的第一比对模型和使用方言训练样本集训练的第二比对模型得到的,其中,所述第一比对模型包括:多个第一特征提取模块,用于提取普通话语音样本的普通话语音特征,每个所述第一特征提取模块包括卷积层、与卷积层的输出连接的池化层和与池化层的输出连接的全连接层,其中,所述卷积层有多个,多个所述卷积层之间采用跳跃连接的方式连接;第一高维编码模块,与多个所述第一特征提取模块中最后一个模块的输出连接,用于将所述普通话语音特征进行高维编码,得到普通话高维序列;第一回归模块,与所述第一高维编码模块的输出连接,用于将所述普通话高维序列转化为普通话低维序列,所述第一回归模块包括循环神经网络的隐藏层,所述隐藏层有多个,多个所述隐藏层中相邻的两个隐藏层之间设置一层聚焦层;所述第二比对模型包括:多个第二特征提取模块,用于提取方言语音样本的方言语音特征,每个所述第二特征提取模块包括卷积层、与卷积层的输出连接的池化层和与池化层的输出连接的全连接层,其中,所述卷积层有多个,多个所述卷积层之间采用跳跃连接的方式连接;第二高维编码模块,与多个所述第二特征提取模块中最后一个模块的输出连接,用于将所述方言语音特征进行高维编码,得到方言高维序列;第二回归模块,与所述第二高维编码模块的输出连接,用于将所述方言高维序列转化为方言低维序列,所述第二回归模块包括循环神经网络的隐藏层,所述隐藏层有多个,多个所述隐藏层中相邻的两个隐藏层之间设置一层聚焦层;基于所述第一比对模型和所述第二比对模型得到编码模型的过程,包括:将所述第一比对模型通过无监督的知识蒸馏方法向所述第二比对模型进行知识蒸馏得到所述编码模型;将示例普通话语音输入第一比对模型,并将与和所述示例普通话语音相同语义的方言语音输入所述编码模型;获取所述第一比对模型的输出和所述编码模型的输出,计算所述第一比对模型的输出和所述编码模型的输出之间的差异度;基于所述第一比对模型的输出和所述编码模型的输出之间的差异度调整所述编码模型;解码单元,配置为将所述待识别低维序列进行解码,得到与所述待识别方言语音对应的文本。在本申请的一些实施例中,基于前述方案,所述获取单元配置为:获取所述待识别方言语音的窗长;根据所述窗长将所述待识别方言语音进行分帧;将分帧后的待识别方言语音输入至所述编码模型。在本申请的一些实施例中,基于前述方案,所述第一高维编码模块是由一维卷积层组成的嵌入层。在本申请的一些实施例中,基于前述方案,所述第一比对模型还包括第一输出模块,所述第一输出模块与所述第一回归模块的输出连接,用于将所述普通话低维序列输出,所述第一输出模块的损失函数为噪声收敛估计损失函数。在本申请的一些实施例中,基于前述方案,所述第二高维编码模块是由一维卷积层组成的嵌入层。在本申请的一些实施例中,基于前述方案,所述第二比对模型还包括第二输出模块,所述第二输出模块与所述第二回归模块的输出连接,用于将所述方言低维序列输出,所述第二输出模块的损失函数为噪声收敛估计损失函数。在本申请的一些实施例中,基于前述方案,所述获取单元配置为:将所述示例普通话语音输入所述第一比对模型,并将与所述示例普通话语音语音相同的方言输入所述第二比对模型;获取所述第一比对模型的输出和所述第二比对模型的输出,计算所述第一比对模型的输出和所述第二比对模型的输出之间的差异度;基于所述第一比对模型的输出和所述第二比对模型的输出之间的差异度,将所述第一比对模型向所述第二比对模型进行知识蒸馏,得到所述编码模型。根据本申请实施例的一个方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行上任一项所述的方法。根据本申请实施例的一个方面,提供本文档来自技高网...

【技术保护点】
1.一种方言语音识别方法,其特征在于,/n获取待识别方言语音;/n将所述待识别方言语音输入编码模型得到与所述待识别方言语音对应的待识别低维序列,所述编码模型是基于使用普通话训练样本集训练得到的第一比对模型和使用方言训练样本集训练的第二比对模型得到的,其中,/n所述第一比对模型包括:/n多个第一特征提取模块,用于提取普通话语音样本的普通话语音特征,每个所述第一特征提取模块包括卷积层、与卷积层的输出连接的池化层和与池化层的输出连接的全连接层,其中,所述卷积层有多个,多个所述卷积层之间采用跳跃连接的方式连接;/n第一高维编码模块,与多个所述第一特征提取模块中最后一个模块的输出连接,用于将所述普通话语音特征进行高维编码,得到普通话高维序列;/n第一回归模块,与所述第一高维编码模块的输出连接,用于将所述普通话高维序列转化为普通话低维序列,所述第一回归模块包括循环神经网络的隐藏层,所述隐藏层有多个,多个所述隐藏层中相邻的两个隐藏层之间设置一层聚焦层;/n所述第二比对模型包括:/n多个第二特征提取模块,用于提取方言语音样本的方言语音特征,每个所述第二特征提取模块包括卷积层、与卷积层的输出连接的池化层和与池化层的输出连接的全连接层,其中,所述卷积层有多个,多个所述卷积层之间采用跳跃连接的方式连接;/n第二高维编码模块,与多个所述第二特征提取模块中最后一个模块的输出连接,用于将所述方言语音特征进行高维编码,得到方言高维序列;/n第二回归模块,与所述第二高维编码模块的输出连接,用于将所述方言高维序列转化为方言低维序列,所述第二回归模块包括循环神经网络的隐藏层,所述隐藏层有多个,多个所述隐藏层中相邻的两个隐藏层之间设置一层聚焦层;/n基于所述第一比对模型和所述第二比对模型得到编码模型的过程,包括:/n将所述第一比对模型通过无监督的知识蒸馏方法向所述第二比对模型进行知识蒸馏得到所述编码模型;/n将示例普通话语音输入第一比对模型,并将与和所述示例普通话语音相同语义的方言语音输入所述编码模型;/n获取所述第一比对模型的输出和所述编码模型的输出,计算所述第一比对模型的输出和所述编码模型的输出之间的差异度;/n基于所述第一比对模型的输出和所述编码模型的输出之间的差异度调整所述编码模型;/n将所述待识别低维序列进行解码,得到与所述待识别方言语音对应的文本。/n...

【技术特征摘要】
1.一种方言语音识别方法,其特征在于,
获取待识别方言语音;
将所述待识别方言语音输入编码模型得到与所述待识别方言语音对应的待识别低维序列,所述编码模型是基于使用普通话训练样本集训练得到的第一比对模型和使用方言训练样本集训练的第二比对模型得到的,其中,
所述第一比对模型包括:
多个第一特征提取模块,用于提取普通话语音样本的普通话语音特征,每个所述第一特征提取模块包括卷积层、与卷积层的输出连接的池化层和与池化层的输出连接的全连接层,其中,所述卷积层有多个,多个所述卷积层之间采用跳跃连接的方式连接;
第一高维编码模块,与多个所述第一特征提取模块中最后一个模块的输出连接,用于将所述普通话语音特征进行高维编码,得到普通话高维序列;
第一回归模块,与所述第一高维编码模块的输出连接,用于将所述普通话高维序列转化为普通话低维序列,所述第一回归模块包括循环神经网络的隐藏层,所述隐藏层有多个,多个所述隐藏层中相邻的两个隐藏层之间设置一层聚焦层;
所述第二比对模型包括:
多个第二特征提取模块,用于提取方言语音样本的方言语音特征,每个所述第二特征提取模块包括卷积层、与卷积层的输出连接的池化层和与池化层的输出连接的全连接层,其中,所述卷积层有多个,多个所述卷积层之间采用跳跃连接的方式连接;
第二高维编码模块,与多个所述第二特征提取模块中最后一个模块的输出连接,用于将所述方言语音特征进行高维编码,得到方言高维序列;
第二回归模块,与所述第二高维编码模块的输出连接,用于将所述方言高维序列转化为方言低维序列,所述第二回归模块包括循环神经网络的隐藏层,所述隐藏层有多个,多个所述隐藏层中相邻的两个隐藏层之间设置一层聚焦层;
基于所述第一比对模型和所述第二比对模型得到编码模型的过程,包括:
将所述第一比对模型通过无监督的知识蒸馏方法向所述第二比对模型进行知识蒸馏得到所述编码模型;
将示例普通话语音输入第一比对模型,并将与和所述示例普通话语音相同语义的方言语音输入所述编码模型;
获取所述第一比对模型的输出和所述编码模型的输出,计算所述第一比对模型的输出和所述编码模型的输出之间的差异度;
基于所述第一比对模型的输出和所述编码模型的输出之间的差异度调整所述编码模型;
将所述待识别低维序列进行解码,得到与所述待识别方言语音对应的文本。


2.根据权利要求1所述的方言语音识别方法,其特征在于,所述将待识别方言语音输入编码模型得到与所述待识别方言语音对应的待识别低维序列,包括:
获取所述待识别方言语音的窗长;
根据所述窗长将所述待识别方言语音进行分帧;
将分帧后的待识别方言语音输入至所述编码模型。


3.根据权利要求1所述的方言语音识别方法,其特征在于,所述第一高维编码模块是由一维卷积层组成的嵌入层。


4.根据权利要求1所述的方言语音识别方法,其特征在于,所述第一比对模型还包括第一输出模块,所述第一输出模块与所述第一回归模块的输出连接,用于将所述普通话低维序列输出,所述第一输出模块的损失函数为噪声收敛估计损失函数。


5.根据权利要求1所述的方言语音识别方法,其特征在于,所述第二高维编码模块是由一维卷积层组成的嵌入层。


6.根据权利要求1所述的方言语音识别方法,其特征在于,所述第二比对模型还包括第二输出模块,所述第二输出模块与所述第二回归模块的输出连接,用于将所述方言低维序列输出,所述第二输出模块的损失函数为...

【专利技术属性】
技术研发人员:魏文琦王健宗张之勇程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1