多方言识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:22690508 阅读:16 留言:0更新日期:2019-11-30 04:30
本申请实施例公开了一种多方言识别方法、装置、设备及可读存储介质,通过预先构建的方言识别模型进行方言的识别,其中,该方言识别模型通过包括多种方言的训练语料训练得到,而且该方言识别模型的训练过程中不仅局限于语料的语音内容,还引入了方言所属的方言种类,结合方言所属的方言种类对方言识别模型进行优化,使得方言识别模型能够准确识别多种方言,使得用户不必再进行语音识别模式的切换,简化了用户操作,提高了多方言识别的准确率和效率。

Multi dialect recognition method, device, equipment and readable storage medium

The embodiment of the application discloses a multi dialect recognition method, device, device and readable storage medium. The dialect recognition model is obtained by training a variety of dialect training corpus, and the training process of the dialect recognition model is not only limited to the speech content of the corpus, but also introduces the dialect office This paper optimizes the dialect recognition model based on the type of dialect, so that the dialect recognition model can accurately recognize multiple dialects, so that the user does not need to switch the speech recognition mode, simplifies the user's operation, and improves the accuracy and efficiency of multi dialect recognition.

【技术实现步骤摘要】
多方言识别方法、装置、设备及可读存储介质
本申请涉及语音识别
,更具体地说,涉及一种多方言识别方法、装置、设备及可读存储介质。
技术介绍
目前,越来越多的人工智能应用的入口依赖于语音识别,例如,实现不同语种不同国家人民之间的无障碍交流的翻译机、大大减少人力资源的机器人客服、解放双手的语音输入法、控制家电设备更便捷自然的智能家居(家电),它们的入口都依赖于语音识别,因此语音识别的准确率显得尤为重要。然而,现有的语音识别方案,通常只支持普通话的识别,如果用户使用方言,则识别的正确率会严重下降。或者虽然支持方言的识别,但是需要用户手动操作选择方言对应的识别模式,这需要用户主动配合,如果用户普通话和方言夹杂,则很难意识到主动去切换模式,并且在多人会话交流的场景,如果有多种方言的说话人出现,频繁切换明显会导致效率低下,用户体验变差。因此,如何提高方言识别的准确率和效率成为亟待解决的技术问题。
技术实现思路
有鉴于此,本申请提供了一种多方言方法、装置、设备及可读存储介质,用于。为了实现上述目的,现提出的方案如下:一种多方言识别方法,包括:接收语音数据;对所述语音数据提取方言识别特征;将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。上述方法,优选的,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。上述方法,优选的,所述方言识别模型包括:特征提取器,分类器和判别器;其中,所述特征提取器的输入为所述方言识别特征,输出为表征特征,所述表征特征为比所述方言识别特征更具有区分性的特征;所述分类器的输入为所述表征特征,输出为所述语音数据的识别结果;所述判别器的输入为所述表征特征,输出为所述语音数据所属的方言种类,或者,输出为所述语音数据所属的方言种类以及所述语音数据所属的方言属性类别。上述方法,优选的,所述判别器包括:梯度反转层和语种判别层;或者,所述判别器包括:梯度反转层,语种判别层和属性判别层;其中,所述梯度反转层的输入为所述表征特征,输出为所述表征特征;所述语种判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言种类;所述属性判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言属性类别。上述方法,优选的,在对所述方言识别模型进行训练时,所述梯度反转层将所述语种判别层的梯度取反后传给所述特征提取器,或者,所述梯度反转层将所述语种判别层和属性判别层的梯度取反后传给所述特征提取器,以更新所述特征提取器的参数。上述方法,优选的,在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数和所述判别器的损失函数加权构成。上述方法,优选的,若所述判别器包括梯度反转层和语种判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数和所述语种判别层的损失函数加权构成;或者,若所述判别器包括梯度反转层、语种判别层和属性判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数加权构成。上述方法,优选的,若所述判别器包括梯度反转层、语种判别层和属性判别层,则在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数,以及语种判别层和所述属性判别层的语种属性一致性损失函数加权构成。上述方法,优选的,所述语种判别层为包含控制门的神经网络;所述神经网络的层数大于1;所述神经网络的每个层的输入根据所述控制门的输出与上一层输出的特征得到;所述控制门的输入为所述上一层输出的特征对应的所述分类器输出的向量。一种多方言识别装置,包括:接收模块,用于接收语音数据;提取模块,用于对所述语音数据提取方言识别特征;识别模块,用于将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。上述装置,优选的,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。上述装置,优选的,所述方言识别模型包括:特征提取器,分类器和判别器;其中,所述特征提取器用于获取所述方言识别特征,并输出表征特征,所述表征特征为比所述方言识别特征更具有区分性的特征;所述分类器用于获取所述表征特征,并输出所述语音数据的识别结果;所述判别器用于获取所述表征特征,并输出所述语音数据所属的方言种类,或者,输出所述语音数据所属的方言种类以及所述语音数据所属的方言属性类别。上述装置,优选的,所述判别器包括:梯度反转层和语种判别层;或者,所述判别器包括:梯度反转层,语种判别层和属性判别层;其中,所述梯度反转层用于获取所述表征特征,并输出所述表征特征;所述语种判别层用于获取所述梯度反转层输出的表征特征,并输出所述语音数据所属的方言种类;所述属性判别层用于获取所述梯度反转层输出的表征特征,并输出所述语音数据所属的方言属性类别。上述装置,优选的,所述梯度反转层用于在对所述方言识别模型进行训练时,将所述语种判别层的梯度取反后传给所述特征提取器,或者,所述梯度反转层用于在对所述方言识别模型进行训练时,将所述语种判别层和属性判别层的梯度取反后传给所述特征提取器,以更新所述特征提取器的参数。上述装置,优选的,所述方言识别模型在训练时的损失函数由所述分类器的损失函数和所述判别器的损失函数加权构成。上述装置,优选的,若所述判别器包括梯度反转层和语种判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数和所述语种判别层的损失函数加权构成;或者,若所述判别器包括梯度反转层、语种判别层和属性判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数加权构成。上述装置,优选的,若所述判别器包括梯度反转层、语种判别层和属性判别层,则所述方言识别模型在训练时的损失函数由所述分类器的损失函数,所述语种判别层的损失函数,所述属性判别层的损失函数,以及语种判别层和所述属性判别层的语种属性一致性损失函数加权构成。上述装置,优选的,所述语种判别层为包含控制门的神经网络;所述神经网络的层数大于1;所述神经网络的每个层的输入是根据所述控制门的输出与上一层输出的特征得到的;所述控制门的输入为所述上一层输出的特征对应的所述分类器输出的向量。一种多方言识别设备,包括存储器和处理器;所述存储器,用于存储程序;...

【技术保护点】
1.一种多方言识别方法,其特征在于,包括:/n接收语音数据;/n对所述语音数据提取方言识别特征;/n将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。/n

【技术特征摘要】
1.一种多方言识别方法,其特征在于,包括:
接收语音数据;
对所述语音数据提取方言识别特征;
将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。


2.根据权利要求1所述的方法,其特征在于,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。


3.根据权利要求1或2所述的方法,其特征在于,所述方言识别模型包括:特征提取器,分类器和判别器;其中,
所述特征提取器的输入为所述方言识别特征,输出为表征特征,所述表征特征为比所述方言识别特征更具有区分性的特征;
所述分类器的输入为所述表征特征,输出为所述语音数据的识别结果;
所述判别器的输入为所述表征特征,输出为所述语音数据所属的方言种类,或者,输出为所述语音数据所属的方言种类以及所述语音数据所属的方言属性类别。


4.根据权利要求3所述的方法,其特征在于,所述判别器包括:梯度反转层和语种判别层;或者,所述判别器包括:梯度反转层,语种判别层和属性判别层;其中,
所述梯度反转层的输入为所述表征特征,输出为所述表征特征;
所述语种判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言种类;
所述属性判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言属性类别。


5.根据权利要求4所述的方法,其特征在于,在对所述方言识别模型进行训练时,
所述梯度反转层将所述语种判别层的梯度取反后传给所述特征提取器,或者,所述梯度反转层将所述语种判别层和属性判别层的梯度取反后传给所述特征提取器,以更新所述特征提取器的参数。


6.根据权利要求4所述的方法,其特征在于,在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数和所述判别器的损失函数加权构成。
...

【专利技术属性】
技术研发人员:许丽潘嘉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1