语音和声纹识别模型训练方法、语音处理方法及相关装置制造方法及图纸

技术编号：41491976 阅读：25 留言：0更新日期：2024-05-30 14:37

本申请公开了一种语音和声纹识别模型训练方法、语音处理方法及相关装置，该方法包括：利用无监督样本语音对语音识别分支中的语音编码器和声纹识别分支中的声纹编码器进行自监督预训练；利用经预训练的语音编码器构建语音识别模型，以及利用经预训练的声纹编码器构建声纹识别模型；利用第一有监督样本语音对语音识别模型进行训练，以及利用第二有监督样本语音对声纹识别模型进行训练。通过上述方式，能够实现语音识别与声纹识别的解耦。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理领域，特别是涉及一种语音和声纹识别模型训练方法、语音处理方法及相关装置。

技术介绍

1、目前，语音模型的训练大多是专注于帧级语义特征的学习，或者，专注于句子级声纹特征的学习，都是单个模型的训练，无法实现两者结合。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音和声纹识别模型训练方法、语音处理方法及相关装置，能够实现语音识别与声纹识别的解耦。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供语音和声纹识别模型的训练方法，该方法包括：利用无监督样本语音对语音识别分支中的语音编码器和声纹识别分支中的声纹编码器进行自监督预训练，其中，在预训练的过程中，语音编码器是结合声纹编码器提取的声纹特征进行编码的，声纹编码器是结合语音编码器提取的语义特征进行编码的；利用经预训练的语音编码器构建语音识别模型，以及利用经预训练的声纹编码器构建声纹识别模型；利用第一有监督样本语音对语音识别模型进行训练，以及利用第二有监督样本语音对声纹识别模型进行训练。

3...

【技术保护点】

1.一种语音和声纹识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，利用无监督样本语音对语音识别分支中的语音编码器进行自监督预训练，包括：

3.根据权利要求2所述的方法，其特征在于，所述语音编码器包括语义特征提取模块，所述语义特征提取模块包含顺序连接的若干语义特征提取块，至少一个所述语义特征提取块作为第一目标提取块，各所述第一目标提取块通过一语义融合单元连接下一所述语义特征提取块；

4.根据权利要求3所述的方法，其特征在于，所述声纹识别分支包括教师分支和学生分支，所述教师分支包括教师声纹编码器，所述学生分支包括学生声纹编...

【技术特征摘要】

1.一种语音和声纹识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，利用无监督样本语音对语音识别分支中的语音编码器进行自监督预训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述声纹识别分支包括教师分支和学生分支，所述教师分支包括教师声纹编码器，所述学生分支包括学生声纹编码器，所述目标语音片段划分为第一语音子片段和第二语音子片段，所述相应声纹特征为相应教师声纹特征和相应学生声纹特征的融合结果，所述相应教师声纹特征为所述教师声纹编码器的相应声纹特征提取块针对第一语音子片段输出的声纹特征，所述相应学生声纹特征为所述学生声纹编码器的相应声纹特征提取块针对第二语音子片段输出的声纹特征；

5.根据权利要求3所述的方法，其特征在于，所述语音编码器还包括第一感知模块，首个所述语义特征提取块的输入特征是所述输入片段特征；所述利用所述语音编码器基于所述初始片段特征和所述声纹编码器针对所述目标语音片段的声纹特征进行编码，得到目标语义特征，还包括：

6.根据权利要求2所述的方法，其特征在于，所述目标语音片段的伪标签是对所述目标语音片段进行特征聚类得到的参考类别，所述预测结果为基于所述目标语义特征预测得到的预测类别。

7.根据权利要求6所述的方法，其特征在于，所述初始片段特征是由所述目标语音片段中的各语音帧的第一帧特征组成；在所述利用所述预测结果和所述目标语音片段的伪标签之间的差异，调整所述语音识别分支的参数之前，还包括：

...

【专利技术属性】
技术研发人员：吴航，潘嘉，高建清，刘聪，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人