发音对象识别、会议中的说话人识别方法以及装置制造方法及图纸

技术编号：37719044 阅读：13 留言：0更新日期：2023-06-02 00:17

本说明书实施例提供发音对象识别、会议中的说话人识别方法以及装置，其中发音识别方法包括：获取待识别的语音数据；将语音数据输入预先训练的声纹识别模型，确定语音数据对应的目标发音对象，该声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特征确定。如此，使用无标签语音样本对模型进行自监督训练，降低了数据成本和人力成本，提高了模型训练的效率，并且能够确保同一批次的不同发音对象的对象特征的多样性，降低了模型坍塌问题出现的可能性。问题出现的可能性。问题出现的可能性。

全部详细技术资料下载

【技术实现步骤摘要】
发音对象识别、会议中的说话人识别方法以及装置

[0001]本说明书实施例涉及语音识别
，特别涉及一种发音对象识别、会议中的说话人识别、声纹识别模型的训练方法。

技术介绍

[0002]说话人识别是利用机器对语音数据进行语音识别，以确定该语音数据对应的说话人。现有的说话人识别均是利用有标签语音数据训练神经网络以提取说话人的特征，再根据说话人的特征确定说话人。但对神经网络的训练往往需要大量的有标签语音数据，而大量的有标签语音数据需要耗费大量的人力物力，效率较低。
[0003]因此，亟需一种更可靠的发音对象识别方法。

技术实现思路

[0004]有鉴于此，本说明书实施例提供了一种发音对象识别方法。本说明书一个或者多个实施例同时涉及一种会议中的说话人识别方法，一种声纹识别模型的训练方法，一种发音对象识别装置，一种会议中的说话人识别装置，一种声纹识别模型的训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面，提供了一种发音对象识别方法，包括：
[0006]获取待识别的语音数据；
[0007]将语音数据输入预先训练的声纹识别模型，确定语音数据对应的目标发音对象，其中，声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，自监督训练中采用的损失包括第一损失和第二损失，第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，第二损失基于无标签语音样本对应的发音对象的对象特...

【技术保护点】

【技术特征摘要】
1.一种发音对象识别方法，包括：获取待识别的语音数据；将所述语音数据输入预先训练的声纹识别模型，确定所述语音数据对应的目标发音对象，其中，所述声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到，所述自监督训练中采用的损失包括第一损失和第二损失，所述第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定，所述第二损失基于所述无标签语音样本对应的发音对象的对象特征确定。2.根据权利要求1所述的方法，所述获取待识别的语音数据之前，还包括：获取样本集，其中，所述样本集包括多个无标签语音样本；将所述样本集划分为多个批次；根据各批次的无标签语音样本，利用指定模型，获得所述各批次中无标签语音样本对应的样本对象的对象特征和概率分布；对各样本对象的对象特征之间进行差异分析得到第一损失，并根据所述概率分布确定第二损失；根据所述第一损失和所述第二损失，对所述指定模型进行训练，获得训练后的声纹识别模型。3.根据权利要求2所述的方法，所述对象特征包括第一对象特征和第二对象特征，所述概率分布包括第一概率分布和第二概率分布；所述根据各批次的无标签语音样本，利用指定模型，获得所述各批次中无标签语音样本对应的样本对象的对象特征和概率分布，包括：提取第一批次中的第一无标签语音样本，其中，所述第一批次为任一批次，所述第一无标签语音样本为所述第一批次中的任一无标签语音样本；将所述第一无标签语音样本划分为第一语音片段和第二语音片段，其中，所述第一语音片段的时长大于所述第二语音片段的时长；将所述第一语音片段输入指定模型，得到所述样本发音对象的第一对象特征和第一概率分布，以及将所述第二语音片段输入所述指定模型，得到所述样本发音对象的第二对象特征和第二概率分布。4.根据权利要求3所述的方法，所述对各样本对象的对象特征之间进行差异分析得到第一损失，包括：基于所述第一批次中各无标签语音样本对应的样本发音对象分别的第一对象特征和第二对象特征，确定第一损失；所述根据所述概率分布确定第二损失，包括：基于所述第一无标签语音样本对应的样本发音对象的第一概率分布和第二概率分布，确定第二损失。5.根据权利要求4所述的方法，所述第一损失包括多样性损失；所述基于所述第一批次中各无标签语音样本对应的样本发音对象分别的第一对象特征和第二对象特征，确定第一损失，包括：基于所述第一批次中各样本发音对象的第一对象特征在各维度的特征值，确定各维度对应的第一标准差；基于所述第一批次中各样本发音对象的第二对象特征在各维度的特征值，确定各维度
对应的第二标准差；基于所述各维度对应的第一标准差和第二标准差，确定多样性损失。6.根据权利要求4或5所述的方法，所述第一损失包括冗余度消除损失；所述基于所述第一批次中各无标签语音样本对应的样本发音对象分别的第一对象特征和第二对象特征，确定第一损失，包括：基于所述第一批次中各样本发音对象的第一对象特征在各维度的特征值和各样本发音对象的第二对象特征在各维度的特征值，确定协方差矩阵，其中，协方差矩阵中的元素表征第一对象特征和第二对象特征在任意两个维度的特征值之间的相关性；基于所述协方差矩阵确定所述冗余度消除损失。7.根据权利要求4所述的方法，所述基于所述第一无标签语音样本对应的样本发音对象的第一概率分布和第二概率分布，确定第二损失，包括：基于所述样本发音对象的第一概率分布在各维度的特征值和第二概率...

【专利技术属性】
技术研发人员：陈亚峰，郑斯奇，王绘，程路遥，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人