语种识别方法、装置、电子设备及介质制造方法及图纸

技术编号：33885147 阅读：11 留言：0更新日期：2022-06-22 17:17

本发明专利技术提供一种语种识别方法、装置、电子设备及介质，该语种识别方法包括：获取多语种音频数据，根据音频数据提取对应的声学特征；创建深度神经网络，以声学特征作为输入，通过训练得到已训练的深度神经网络；根据语种识别请求，获取音频序列并提取声学特征，采用已训练的深度神经网络进行推理，确定音频序列中的语种概率；根据语种概率，计算语种置信度，最后确定音频序列的语种。本发明专利技术的技术方案通过对每个语种的声学发音特征进行建模，建模单元颗粒度更小，从而可以进一步提高语种识别的准确率和鲁棒性。率和鲁棒性。率和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
语种识别方法、装置、电子设备及介质

[0001]本专利技术涉及计算机人工智能
，尤其涉及一种语种识别方法、装置、电子设备及介质。

技术介绍

[0002]随着AI技术和计算机硬件的不断发展，语音识别领域取得了飞速发展，并且在各个领域均得到了广泛的应用，例如，智能音箱、智能客服助手、智能语音质检等。然而，在实际使用过程中，智能语音助手均需要事先指定需要识别的语言类型才能正常工作。语种识别技术可以自动识别用户所使用的语言，在很多语音处理任务中得到了广泛的应用，例如多语种语音识别、跨语种通信和机器翻译等领域。
[0003]传统的语种识别技术大多是采用语音信号处理中的方法，对底层声学特征进行抽取，例如梅尔频率倒谱系数(MFCC)、感知线性预测系数(PLP)等特征，然后采用浅层机器学习方法，例如混合高斯模型(GMM)及其改进方法GMM
‑
UBM，对音频进行语种分类。但这种方式的语种识别的准确率不高。
[0004]而基于深度学习的语种识别方法大多是采用不同形式的神经网络对输入音频序列的语种信息进行建模，如图1所示，但这种语种识别方式无法满足对于识别率和鲁棒率越来越高的要求。

技术实现思路

[0005]本专利技术实施例的主要目的在于提出一种语种识别方法、装置、电子设备及介质，提高了语种识别的准确率和鲁棒性。
[0006]本专利技术的一方面提供了一种语种识别方法，包括：
[0007]获取多种音频数据，根据所述音频数据确定声学特征；
[0008]创建深度神经...

【技术保护点】

【技术特征摘要】
1.一种语种识别方法，其特征在于，包括：获取多语种音频数据，根据所述音频数据确定声学特征；创建深度神经网络，以所述声学特征作为输入，通过训练得到已训练的所述深度神经网络；根据语种识别请求，获取音频序列，通过已训练的所述深度神经网络对所述音频序列进行推理，确定所述音频序列中的语种概率；根据所述语种概率，确定语种置信度，进而确定所述音频序列的语种。2.根据权利要求1所述的语种识别方法，其特征在于，所述获取多语种音频数据，根据所述音频数据确定声学特征，包括：采集不同语种的所述音频数据，对所述音频数据执行预处理、加窗、FTT变换及梅尔滤波器处理，得到所述声学特征。3.根据权利要求2所述的语种识别方法，其特征在于，所述创建深度神经网络，以所述声学特征作为输入，通过训练得到已训练的所述深度神经网络，包括：以所述声学特征作为输入，以已标注的语种标签作为训练目标，对所述深度神经网络进行训练，所述深度神经网络的目标函数采用CTC损失函数，通过所述CTC损失函数对深度神经网络进行训练，训练得到的所述深度神经网络用来确定所述声学特征的序列概率。4.根据权利要求3所述的语种识别方法，其特征在于，所述方法还包括：已训练的所述深度神经网络包括建模单元集，所述建模单元集合用于表征多个声学感知建模单元的集合，所述语种标签对应所述建模单元集，所述声学感知建模单元用于表征语音发声的语种、拼音、音节、音素中的至少一种。5.根据权...

【专利技术属性】
技术研发人员：司玉景，张钦，李全忠，何国涛，蒲瑶，
申请(专利权)人：普强时代珠海横琴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人