一种语种识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:45906977 阅读:18 留言:0更新日期:2025-07-22 21:31
本申请提供了一种语种识别方法、装置、电子设备及存储介质,所述语种识别方法包括:获取待识别音频;将待识别音频输入至语种识别模型之中进行音频特征提取,对所述音频特征进行语种编码处理和音素编码处理生成音频段级别的音位嵌入向量序列,对所述音位嵌入向量序列进行特征编码处理、句子级别统计处理以及线性投影处理,输出所述待识别音频的语种类别;其中,所述语种识别模型是通过对神经网络模型进行自监督音素分割任务以及语种识别任务联合训练得到的。通过音素分割任务和语种识别任务的联合训练得到的语种识别模型,有效提高了音频的语种识别的准确性。

【技术实现步骤摘要】

本申请涉及音频识别,尤其是涉及一种语种识别方法、装置、电子设备及存储介质


技术介绍

1、语种识别(spoken language identification,lid)是指通过分析处理语音片段来判别该语音所属语种的技术。与说话人识别类似,语种识别也分为语种辨别和语种确认两种任务。在辨别任务中,给定一段语音,系统要从若干可能语言中选择一种作为该段语音所属的语言;在确认任务中,给定一段语音,系统需要确定该段语音是否属于某种语言。目前,传统语种识别算法对于未见过的语音语种识别性能不佳,算法泛化性差。基于深度学习的语种识别算法有效提高了语种识别的性能,但是目前基于深度学习的语种识别算法对于语言区分度不大(如方言)的场景性能下降明显,同时对短语音语种识别性能有限。所以,如何提高语种识别的准确性成为了不容小觑的技术问题。


技术实现思路

1、有鉴于此,本申请的目的在于提供一种语种识别方法、装置、电子设备及存储介质,通过音素分割任务和语种识别任务的联合训练得到的语种识别模型,有效提高了音频的语种识别的准确性。

本文档来自技高网...

【技术保护点】

1.一种语种识别方法,其特征在于,所述语种识别方法包括:

2.根据权利要求1所述的语种识别方法,其特征在于,所述对所述音频特征进行语种编码处理和音素编码处理生成音频段级别的音位嵌入向量序列,包括:

3.根据权利要求1所述的语种识别方法,其特征在于,所述对所述音位嵌入向量序列进行特征编码处理、句子级别统计处理以及线性投影处理,输出所述待识别音频的语种类别,包括:

4.根据权利要求1所述的语种识别方法,其特征在于,通过以下步骤确定出所述语种识别模型:

5.根据权利要求4所述的语种识别方法,其特征在于,所述将所述样本音频特征输入至神经网络模型的共...

【技术特征摘要】

1.一种语种识别方法,其特征在于,所述语种识别方法包括:

2.根据权利要求1所述的语种识别方法,其特征在于,所述对所述音频特征进行语种编码处理和音素编码处理生成音频段级别的音位嵌入向量序列,包括:

3.根据权利要求1所述的语种识别方法,其特征在于,所述对所述音位嵌入向量序列进行特征编码处理、句子级别统计处理以及线性投影处理,输出所述待识别音频的语种类别,包括:

4.根据权利要求1所述的语种识别方法,其特征在于,通过以下步骤确定出所述语种识别模型:

5.根据权利要求4所述的语种识别方法,其特征在于,所述将所述样本音频特征输入至神经网络模型的共享卷积神经网络层之中进行自监督音素分割任务和语种识别任务,输出所述样本音频特征的降维后的音素特征以及语种特征,包括:

6.根据权利要求4所述的语种识别方法,其特征在于,所述基于损失函数、所述样本音频的预测语...

【专利技术属性】
技术研发人员:王红红郑榕王秋明
申请(专利权)人:北京远鉴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1