语音识别方法及装置制造方法及图纸

技术编号：39427848 阅读：14 留言：0更新日期：2023-11-19 16:13

本申请提供一种语音识别方法及装置，可用于金融领域或其他技术领域。所述方法包括：获取目标领域的语音数据；将所述语音数据输入预先训练好的跨领域声纹识别模型，得到所述跨领域声纹识别模型输出的识别结果，其中，所述跨领域声纹识别模型是根据源领域的语音数据和所述目标领域的近似语音数据训练得到的，所述目标领域的近似语音数据是将目标领域的文本数据输入训练好的多说话人语音合成模型得到的，所述多说话人语音合成模型是利用源领域的语音数据及所述语音数据对应的文本数据训练得到的。本申请实施例提供的语音识别方法及装置，能够实现跨领域的声纹识别。能够实现跨领域的声纹识别。能够实现跨领域的声纹识别。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法及装置

[0001]本申请涉及人工智能
，具体涉及一种语音识别方法及装置。

技术介绍

[0002]声纹识别技术(说话人识别技术)是根据说话人的语音特征判断说话人身份的一种生物识别技术。声纹识别技术因其采集方便、非接触、用户接受程度高等优点，成为在线和通过电话验证用户身份的主要手段，被广泛应用于金融支付、安防、公安侦查和司法鉴定等领域。
[0003]声纹识别主要包括三个步骤：声纹注册、模型训练、声纹评估。在声纹注册阶段，说话人提供一段语音，提取声纹特征，作为其声纹模板。在模型训练阶段，从一组语音数据中学习声纹特征，并建立评分机制。在声纹评估阶段，提取待识别语音的声纹特征，与前期注册的声纹模板进行比对，根据比对的相似性分数判断待识别说话人的身份。
[0004]前期声纹识别技术利用传统机器学习算法建模进行研究，通过手工提取声纹特征如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)、线性预测倒谱系数(Linear Predictive Cepstral Coefficients，LPCC)、感知线性预测(Perceptual Linear Predictive，PLP)等进行声纹识别。随着人工智能和大数据技术的发展，利用深度神经网络(Deep Neural Network，DNN)自动提取声纹特征进行声纹识别，能够捕捉到语音的深度信息，进一步提升声纹识别系统的识别率。
[0005]深度神经网络模型性能依赖足够多的训练数据，训练数据不...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取目标领域的语音数据；将所述语音数据输入预先训练好的跨领域声纹识别模型，得到所述跨领域声纹识别模型输出的识别结果，其中，所述跨领域声纹识别模型是根据源领域的语音数据和所述目标领域的近似语音数据训练得到的，所述目标领域的近似语音数据是将目标领域的文本数据输入训练好的多说话人语音合成模型得到的，所述多说话人语音合成模型是利用源领域的语音数据及所述语音数据对应的文本数据训练得到的。2.根据权利要求1所述的方法，其特征在于，所述多说话人语音合成模型用于：提取语音数据的声纹特征以及文本数据中的文本特征；将所述声纹特征与所述文本特征进行拼接，得到目标特征矢量；结合注意力机制对所述目标特征矢量进行解码，得到音频的中间表征；根据音频的中间表征合成语音数据。3.根据权利要求2所述的方法，其特征在于，所述多说话人语音合成模型的训练过程如下：将源领域的语音数据及所述语音数据对应的文本数据输入预设的神经网络模型，得到所述神经网络模型输出的语音数据；根据输入所述神经网络模型的语音数据以及所述神经网络模型输出的语音数据，计算所述神经网络模型的预测损失；根据所述预测损失对所述神经网络模型的模型参数进行修正，得到训练好的多说话人语音合成模型。4.根据权利要求2所述的方法，其特征在于，所述方法还包括：将目标领域的文本数据和随机产生的虚拟声纹特征输入所述多说话人语音合成模型，得到所述多说话人语音合成模型合成的所述目标领域的近似语音数据。5.根据权利要求2所述的方法，其特征在于，所述跨领域声纹识别模型的训练过程如下：根据所述源领域的语音数据和所述目标领域的近似语音数据，生成N组语音数据，其中，每组语音数据包括一待识别的语音数据以及一对比语音数据，N为正整数；将所述N组语音数据输入预设的声纹识别模型，得到所述声纹识别模型输出的每组语音数据的识别分数；根据所述识别分数对所述声纹识别模型的模型参数进行修正，得到训练好的跨领...

【专利技术属性】
技术研发人员：黄淋，黎明欣，饶宇熹，王心月，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人