语音识别方法及装置制造方法及图纸

技术编号:39427848 阅读:14 留言:0更新日期:2023-11-19 16:13
本申请提供一种语音识别方法及装置,可用于金融领域或其他技术领域。所述方法包括:获取目标领域的语音数据;将所述语音数据输入预先训练好的跨领域声纹识别模型,得到所述跨领域声纹识别模型输出的识别结果,其中,所述跨领域声纹识别模型是根据源领域的语音数据和所述目标领域的近似语音数据训练得到的,所述目标领域的近似语音数据是将目标领域的文本数据输入训练好的多说话人语音合成模型得到的,所述多说话人语音合成模型是利用源领域的语音数据及所述语音数据对应的文本数据训练得到的。本申请实施例提供的语音识别方法及装置,能够实现跨领域的声纹识别。能够实现跨领域的声纹识别。能够实现跨领域的声纹识别。

【技术实现步骤摘要】
语音识别方法及装置


[0001]本申请涉及人工智能
,具体涉及一种语音识别方法及装置。

技术介绍

[0002]声纹识别技术(说话人识别技术)是根据说话人的语音特征判断说话人身份的一种生物识别技术。声纹识别技术因其采集方便、非接触、用户接受程度高等优点,成为在线和通过电话验证用户身份的主要手段,被广泛应用于金融支付、安防、公安侦查和司法鉴定等领域。
[0003]声纹识别主要包括三个步骤:声纹注册、模型训练、声纹评估。在声纹注册阶段,说话人提供一段语音,提取声纹特征,作为其声纹模板。在模型训练阶段,从一组语音数据中学习声纹特征,并建立评分机制。在声纹评估阶段,提取待识别语音的声纹特征,与前期注册的声纹模板进行比对,根据比对的相似性分数判断待识别说话人的身份。
[0004]前期声纹识别技术利用传统机器学习算法建模进行研究,通过手工提取声纹特征如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)、线性预测倒谱系数(Linear Predictive Cepstral Coefficients,LPCC)、感知线性预测(Perceptual Linear Predictive,PLP)等进行声纹识别。随着人工智能和大数据技术的发展,利用深度神经网络(Deep Neural Network,DNN)自动提取声纹特征进行声纹识别,能够捕捉到语音的深度信息,进一步提升声纹识别系统的识别率。
[0005]深度神经网络模型性能依赖足够多的训练数据,训练数据不足会导致模型过拟合、通用性较差等问题。数据增强是解决训练数据不足的重要技术。目前声纹识别方向的数据增强方法有:给训练数据加入扰动或噪音、通过房间冲激响应模拟远场语音、时频谱增强等。这些方法是对信道的增强,可用于提升训练数据的信道多样性,但是无法提升训练数据的文本多样性和声纹多样性。文本多样性指训练数据所包含的字词语句,若字词语句均来自单一领域(如儿童教育),在该领域测试模型能得到较好的识别性能,而在其他领域(如金融财经)测试该模型,由于训练数据的字词语句中不包含“金融”、“利率”等词语,模型识别正确率会降低。声纹多样性指训练数据包含的说话人数量,说话人越多,模型的通用性越强。
[0006]若针对每个领域分别训练一个模型,会耗费大量的人力和物力,并且由于一些限制,可能无法获取某一领域的语音数据来训练模型。因此,研究提升文本多样性和声纹多样性的方法,以实现跨领域的声纹识别具有重大意义及需求。

技术实现思路

[0007]针对现有技术中的问题,本申请实施例提供一种语音识别方法及装置,能够至少部分地解决现有技术中存在的问题。
[0008]一方面,本申请提出一种语音识别方法,包括:
[0009]获取目标领域的语音数据;
[0010]将所述语音数据输入预先训练好的跨领域声纹识别模型,得到所述跨领域声纹识别模型输出的识别结果,其中,所述跨领域声纹识别模型是根据源领域的语音数据和所述目标领域的近似语音数据训练得到的,所述目标领域的近似语音数据是将目标领域的文本数据输入训练好的多说话人语音合成模型得到的,所述多说话人语音合成模型是利用源领域的语音数据及所述语音数据对应的文本数据训练得到的。
[0011]在一些实施例中,所述多说话人语音合成模型用于:
[0012]提取语音数据的声纹特征以及文本数据中的文本特征;
[0013]将所述声纹特征与所述文本特征进行拼接,得到目标特征矢量;
[0014]结合注意力机制对所述目标特征矢量进行解码,得到音频的中间表征;
[0015]根据音频的中间表征合成语音数据。
[0016]在一些实施例中,所述多说话人语音合成模型的训练过程如下:
[0017]将源领域的语音数据及所述语音数据对应的文本数据输入预设的神经网络模型,得到所述神经网络模型输出的语音数据;
[0018]根据输入所述神经网络模型的语音数据以及所述神经网络模型输出的语音数据,计算所述神经网络模型的预测损失;
[0019]根据所述预测损失对所述神经网络模型的模型参数进行修正,得到训练好的多说话人语音合成模型。
[0020]在一些实施例中,所述方法还包括:
[0021]将目标领域的文本数据和随机产生的虚拟声纹特征输入所述多说话人语音合成模型,得到所述多说话人语音合成模型合成的所述目标领域的近似语音数据。
[0022]在一些实施例中,所述跨领域声纹识别模型的训练过程如下:
[0023]根据所述源领域的语音数据和所述目标领域的近似语音数据,生成N组语音数据,其中,每组语音数据包括一待识别的语音数据以及一对比语音数据,N为正整数;
[0024]将所述N组语音数据输入预设的声纹识别模型,得到所述声纹识别模型输出的每组语音数据的识别分数;
[0025]根据所述识别分数对所述声纹识别模型的模型参数进行修正,得到训练好的跨领域声纹识别模型。
[0026]在一些实施例中,所述将所述N组语音数据输入预设的声纹识别模型,得到所述声纹识别模型输出的每组语音数据的识别分数包括:
[0027]对每组语音数据中的待识别的语音数据以及对比语音数据分别进行预处理,得到每个语音数据的语谱图;
[0028]将每组语音数据中的待识别的语音数据的语谱图以及对比语音数据的语谱图输入预设的声纹识别模型,得到所述声纹识别模型输出的每组语音数据的识别分数。
[0029]在一些实施例中,所述预设的声纹识别模型用于:
[0030]提取语谱图中的空间局部特征;
[0031]学习所述空间局部特征中的时序特征,得到由时间序列表示的语音特征;
[0032]根据每组语音数据的语谱图所对应的由时间序列表示的语音特征,计算该组语音数据的识别分数。
[0033]在一些实施例中,所述预先训练好的跨领域声纹识别模型用于计算输入的语音数
据与注册语音数据之间的相似度,并将与输入语音数据的相似度大于预设阈值的注册语音数据的用户身份作为输入语音数据的识别结果进行输出。
[0034]另一方面,本申请提出一种语音识别装置,包括:
[0035]获取模块,用于获取目标领域的语音数据;
[0036]识别模块,用于将所述语音数据输入预先训练好的跨领域声纹识别模型,得到所述跨领域声纹识别模型输出的识别结果,其中,所述跨领域声纹识别模型是根据源领域的语音数据和所述目标领域的近似语音数据训练得到的,所述目标领域的近似语音数据是将目标领域的文本数据输入训练好的多说话人语音合成模型得到的,所述多说话人语音合成模型是利用源领域的语音数据及所述语音数据对应的文本数据训练得到的。
[0037]在一些实施例中,所述多说话人语音合成模型包括:
[0038]说话人编码模块,用于提取语音数据的声纹特征;
[0039]声学模型模块,包括编码器、特征拼接单元以及解码器,所述编码器用于提取文本数据中的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取目标领域的语音数据;将所述语音数据输入预先训练好的跨领域声纹识别模型,得到所述跨领域声纹识别模型输出的识别结果,其中,所述跨领域声纹识别模型是根据源领域的语音数据和所述目标领域的近似语音数据训练得到的,所述目标领域的近似语音数据是将目标领域的文本数据输入训练好的多说话人语音合成模型得到的,所述多说话人语音合成模型是利用源领域的语音数据及所述语音数据对应的文本数据训练得到的。2.根据权利要求1所述的方法,其特征在于,所述多说话人语音合成模型用于:提取语音数据的声纹特征以及文本数据中的文本特征;将所述声纹特征与所述文本特征进行拼接,得到目标特征矢量;结合注意力机制对所述目标特征矢量进行解码,得到音频的中间表征;根据音频的中间表征合成语音数据。3.根据权利要求2所述的方法,其特征在于,所述多说话人语音合成模型的训练过程如下:将源领域的语音数据及所述语音数据对应的文本数据输入预设的神经网络模型,得到所述神经网络模型输出的语音数据;根据输入所述神经网络模型的语音数据以及所述神经网络模型输出的语音数据,计算所述神经网络模型的预测损失;根据所述预测损失对所述神经网络模型的模型参数进行修正,得到训练好的多说话人语音合成模型。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:将目标领域的文本数据和随机产生的虚拟声纹特征输入所述多说话人语音合成模型,得到所述多说话人语音合成模型合成的所述目标领域的近似语音数据。5.根据权利要求2所述的方法,其特征在于,所述跨领域声纹识别模型的训练过程如下:根据所述源领域的语音数据和所述目标领域的近似语音数据,生成N组语音数据,其中,每组语音数据包括一待识别的语音数据以及一对比语音数据,N为正整数;将所述N组语音数据输入预设的声纹识别模型,得到所述声纹识别模型输出的每组语音数据的识别分数;根据所述识别分数对所述声纹识别模型的模型参数进行修正,得到训练好的跨领...

【专利技术属性】
技术研发人员:黄淋黎明欣饶宇熹王心月
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1