语种识别方法、装置、电子设备及介质制造方法及图纸

技术编号:33885147 阅读:11 留言:0更新日期:2022-06-22 17:17
本发明专利技术提供一种语种识别方法、装置、电子设备及介质,该语种识别方法包括:获取多语种音频数据,根据音频数据提取对应的声学特征;创建深度神经网络,以声学特征作为输入,通过训练得到已训练的深度神经网络;根据语种识别请求,获取音频序列并提取声学特征,采用已训练的深度神经网络进行推理,确定音频序列中的语种概率;根据语种概率,计算语种置信度,最后确定音频序列的语种。本发明专利技术的技术方案通过对每个语种的声学发音特征进行建模,建模单元颗粒度更小,从而可以进一步提高语种识别的准确率和鲁棒性。率和鲁棒性。率和鲁棒性。

【技术实现步骤摘要】
语种识别方法、装置、电子设备及介质


[0001]本专利技术涉及计算机人工智能
,尤其涉及一种语种识别方法、装置、电子设备及介质。

技术介绍

[0002]随着AI技术和计算机硬件的不断发展,语音识别领域取得了飞速发展,并且在各个领域均得到了广泛的应用,例如,智能音箱、智能客服助手、智能语音质检等。然而,在实际使用过程中,智能语音助手均需要事先指定需要识别的语言类型才能正常工作。语种识别技术可以自动识别用户所使用的语言,在很多语音处理任务中得到了广泛的应用,例如多语种语音识别、跨语种通信和机器翻译等领域。
[0003]传统的语种识别技术大多是采用语音信号处理中的方法,对底层声学特征进行抽取,例如梅尔频率倒谱系数(MFCC)、感知线性预测系数(PLP)等特征,然后采用浅层机器学习方法,例如混合高斯模型(GMM)及其改进方法GMM

UBM,对音频进行语种分类。但这种方式的语种识别的准确率不高。
[0004]而基于深度学习的语种识别方法大多是采用不同形式的神经网络对输入音频序列的语种信息进行建模,如图1所示,但这种语种识别方式无法满足对于识别率和鲁棒率越来越高的要求。

技术实现思路

[0005]本专利技术实施例的主要目的在于提出一种语种识别方法、装置、电子设备及介质,提高了语种识别的准确率和鲁棒性。
[0006]本专利技术的一方面提供了一种语种识别方法,包括:
[0007]获取多种音频数据,根据所述音频数据确定声学特征;
[0008]创建深度神经网络,以所述声学特征作为输入,通过训练得到已训练的所述深度神经网络;
[0009]根据语种识别请求,获取音频序列,通过已训练的所述深度神经网络对所述音频序列进行推理,确定所述音频序列中的语种概率;
[0010]根据所述语种概率,确定所述音频序列的语种。
[0011]根据所述的语种识别方法,其中获取多语种音频数据,根据音频数据提取对应的声学特征,包括:采集不同语种的所述音频数据,对所述音频数据执行预处理、加窗、FTT变换及梅尔滤波器处理,得到所述声学特征。
[0012]根据所述的语种识别方法,其中创建深度神经网络,以声学特征作为输入,通过训练得到已训练的深度神经网络,包括:以所述声学特征作为输入,以已标注的语种标签作为训练目标,对所述深度神经网络进行训练,所述深度神经网络的目标函数采用CTC损失函数,通过所述CTC损失函数对深度神经网络进行训练,训练得到的所述深度神经网络用来确定所述声学特征的序列概率。
[0013]根据所述的语种识别方法,其中方法还包括:
[0014]已训练的所述深度神经网络包括建模单元集,所述建模单元集合用于表征多个声学感知建模单元的集合,所述语种标签对应所述建模单元集,所述声学感知建模单元用于表征语音发声的语种、拼音、音节、音素中的至少一种。
[0015]根据所述的语种识别方法,其中根据语种识别请求,获取音频序列并提取声学特征,采用已训练的深度神经网络进行推理,确定音频序列中的语种概率,包括:
[0016]通过已训练的所述深度神经网络模型对所述音频序列进行推理,得到后验概率,对所述后验概率进行基于前缀树的束搜索算法的解码处理,确定每个语种声学感知建模的单元数量。
[0017]根据所述的语种识别方法,其中方法包括:
[0018]以所述感知建模单元数量的最大值作为所述音频序列的分类识别结果。
[0019]本专利技术的另一实施方式还包括一种语种识别装置,包括:
[0020]声学特征模块,用于获取多语种音频数据,根据音频数据提取对应的声学特征;
[0021]训练模块,用于创建深度神经网络,以所述声学特征作为输入,通过训练得到已训练的所述深度神经网络;
[0022]推理模块,用于根据语种识别请求,获取音频序列,通过已训练的所述深度神经网络对所述音频序列进行推理,确定所述音频序列中的语种概率;
[0023]分类模块,用于根据语种概率,计算语种置信度,最后确定音频序列的语种。
[0024]本专利技术实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
[0025]所述存储器用于存储程序;
[0026]所述处理器执行所述程序实现如前文所描述的方法。
[0027]本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文所描述的方法。
[0028]本专利技术的有益效果为:通过多语种音频数据对应的声学特征训练深度神经网络,通过训练后的深度神经网络执行语种概率识别,进一步通过对每个语种的声学发音现象进行建模,建模单元颗粒度更小,从而提高了语种识别的准确率和鲁棒性。
[0029]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0030]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0031]图1是神经网络对输入音频序列的建模识别示意图。
[0032]图2是本专利技术实施例的语种识别方法的流程示意图。
[0033]图3是本专利技术实施例的语种标签和语种声学感知建模单元的关系示意图。
[0034]图4是本专利技术实施例的基于声学感知的深度神经网络结构示意图。
[0035]图5是本专利技术实施例的基于深度神经网络声学感知的语种识别系统示意图。
[0036]图6是本专利技术实施例的语种识别装置示意图。
具体实施方式
[0037]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本专利技术的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本专利技术技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0038]参考图2,图2是语种识别方法的流程示意图,其流程包括:
[0039]S100,获取多语种音频数据,根据音频数据提取对应的声学特征;
[0040]在一些实施例中,声学特征采集不同语种的音频数据,对音频数据执行预处理、加窗、FTT变换及梅尔滤波器处理,得到声学特征。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:获取多语种音频数据,根据所述音频数据确定声学特征;创建深度神经网络,以所述声学特征作为输入,通过训练得到已训练的所述深度神经网络;根据语种识别请求,获取音频序列,通过已训练的所述深度神经网络对所述音频序列进行推理,确定所述音频序列中的语种概率;根据所述语种概率,确定语种置信度,进而确定所述音频序列的语种。2.根据权利要求1所述的语种识别方法,其特征在于,所述获取多语种音频数据,根据所述音频数据确定声学特征,包括:采集不同语种的所述音频数据,对所述音频数据执行预处理、加窗、FTT变换及梅尔滤波器处理,得到所述声学特征。3.根据权利要求2所述的语种识别方法,其特征在于,所述创建深度神经网络,以所述声学特征作为输入,通过训练得到已训练的所述深度神经网络,包括:以所述声学特征作为输入,以已标注的语种标签作为训练目标,对所述深度神经网络进行训练,所述深度神经网络的目标函数采用CTC损失函数,通过所述CTC损失函数对深度神经网络进行训练,训练得到的所述深度神经网络用来确定所述声学特征的序列概率。4.根据权利要求3所述的语种识别方法,其特征在于,所述方法还包括:已训练的所述深度神经网络包括建模单元集,所述建模单元集合用于表征多个声学感知建模单元的集合,所述语种标签对应所述建模单元集,所述声学感知建模单元用于表征语音发声的语种、拼音、音节、音素中的至少一种。5.根据权...

【专利技术属性】
技术研发人员:司玉景张钦李全忠何国涛蒲瑶
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1