The embodiment of the application discloses a multi dialect recognition method, device, device and readable storage medium. The dialect recognition model is obtained by training a variety of dialect training corpus, and the training process of the dialect recognition model is not only limited to the speech content of the corpus, but also introduces the dialect office This paper optimizes the dialect recognition model based on the type of dialect, so that the dialect recognition model can accurately recognize multiple dialects, so that the user does not need to switch the speech recognition mode, simplifies the user's operation, and improves the accuracy and efficiency of multi dialect recognition.
【技术实现步骤摘要】
多方言识别方法、装置、设备及可读存储介质
本申请涉及语音识别
,更具体地说,涉及一种多方言识别方法、装置、设备及可读存储介质。
技术介绍
目前,越来越多的人工智能应用的入口依赖于语音识别,例如,实现不同语种不同国家人民之间的无障碍交流的翻译机、大大减少人力资源的机器人客服、解放双手的语音输入法、控制家电设备更便捷自然的智能家居(家电),它们的入口都依赖于语音识别,因此语音识别的准确率显得尤为重要。然而,现有的语音识别方案,通常只支持普通话的识别,如果用户使用方言,则识别的正确率会严重下降。或者虽然支持方言的识别,但是需要用户手动操作选择方言对应的识别模式,这需要用户主动配合,如果用户普通话和方言夹杂,则很难意识到主动去切换模式,并且在多人会话交流的场景,如果有多种方言的说话人出现,频繁切换明显会导致效率低下,用户体验变差。因此,如何提高方言识别的准确率和效率成为亟待解决的技术问题。
技术实现思路
有鉴于此,本申请提供了一种多方言方法、装置、设备及可读存储介质,用于。为了实现上述目的,现提出的方案如下:一种多方言识别方法,包括:接收语音数据;对所述语音数据提取方言识别特征;将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。上述方法,优选的,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。
【技术保护点】
1.一种多方言识别方法,其特征在于,包括:/n接收语音数据;/n对所述语音数据提取方言识别特征;/n将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。/n
【技术特征摘要】
1.一种多方言识别方法,其特征在于,包括:
接收语音数据;
对所述语音数据提取方言识别特征;
将所述方言识别特征输入预先构建的方言识别模型,得到所述语音数据的识别结果;所述方言识别模型为利用至少标注有语音内容和所属方言种类的训练语料训练得到。
2.根据权利要求1所述的方法,其特征在于,所述方言识别模型为利用至少标注有语音内容、所属方言种类和方言属性类别的训练语料训练得到。
3.根据权利要求1或2所述的方法,其特征在于,所述方言识别模型包括:特征提取器,分类器和判别器;其中,
所述特征提取器的输入为所述方言识别特征,输出为表征特征,所述表征特征为比所述方言识别特征更具有区分性的特征;
所述分类器的输入为所述表征特征,输出为所述语音数据的识别结果;
所述判别器的输入为所述表征特征,输出为所述语音数据所属的方言种类,或者,输出为所述语音数据所属的方言种类以及所述语音数据所属的方言属性类别。
4.根据权利要求3所述的方法,其特征在于,所述判别器包括:梯度反转层和语种判别层;或者,所述判别器包括:梯度反转层,语种判别层和属性判别层;其中,
所述梯度反转层的输入为所述表征特征,输出为所述表征特征;
所述语种判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言种类;
所述属性判别层的输入为所述梯度反转层输出的表征特征,输出为所述语音数据所属的方言属性类别。
5.根据权利要求4所述的方法,其特征在于,在对所述方言识别模型进行训练时,
所述梯度反转层将所述语种判别层的梯度取反后传给所述特征提取器,或者,所述梯度反转层将所述语种判别层和属性判别层的梯度取反后传给所述特征提取器,以更新所述特征提取器的参数。
6.根据权利要求4所述的方法,其特征在于,在对所述方言识别模型进行训练时,所述方言识别模型的损失函数由所述分类器的损失函数和所述判别器的损失函数加权构成。
...
【专利技术属性】
技术研发人员:许丽,潘嘉,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。