发音对象识别、会议中的说话人识别方法以及装置制造方法及图纸

技术编号:37719044 阅读:13 留言:0更新日期:2023-06-02 00:17
本说明书实施例提供发音对象识别、会议中的说话人识别方法以及装置,其中发音识别方法包括:获取待识别的语音数据;将语音数据输入预先训练的声纹识别模型,确定语音数据对应的目标发音对象,该声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到,自监督训练中采用的损失包括第一损失和第二损失,第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定,第二损失基于无标签语音样本对应的发音对象的对象特征确定。如此,使用无标签语音样本对模型进行自监督训练,降低了数据成本和人力成本,提高了模型训练的效率,并且能够确保同一批次的不同发音对象的对象特征的多样性,降低了模型坍塌问题出现的可能性。问题出现的可能性。问题出现的可能性。

【技术实现步骤摘要】
发音对象识别、会议中的说话人识别方法以及装置


[0001]本说明书实施例涉及语音识别
,特别涉及一种发音对象识别、会议中的说话人识别、声纹识别模型的训练方法。

技术介绍

[0002]说话人识别是利用机器对语音数据进行语音识别,以确定该语音数据对应的说话人。现有的说话人识别均是利用有标签语音数据训练神经网络以提取说话人的特征,再根据说话人的特征确定说话人。但对神经网络的训练往往需要大量的有标签语音数据,而大量的有标签语音数据需要耗费大量的人力物力,效率较低。
[0003]因此,亟需一种更可靠的发音对象识别方法。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种发音对象识别方法。本说明书一个或者多个实施例同时涉及一种会议中的说话人识别方法,一种声纹识别模型的训练方法,一种发音对象识别装置,一种会议中的说话人识别装置,一种声纹识别模型的训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种发音对象识别方法,包括:
[0006]获取待识别的语音数据;
[0007]将语音数据输入预先训练的声纹识别模型,确定语音数据对应的目标发音对象,其中,声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到,自监督训练中采用的损失包括第一损失和第二损失,第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定,第二损失基于无标签语音样本对应的发音对象的对象特征确定。
[0008]根据本说明书实施例的第二方面,提供了一种会议中的说话人识别方法,包括:
[0009]获取会议语音数据;
[0010]将会议语音数据输入预先训练的声纹识别模型,确定会议语音数据对应的说话人,其中,声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到,自监督训练中采用的损失包括第一损失和第二损失,第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定,第二损失基于无标签语音样本对应的发音对象的对象特征确定。
[0011]根据本说明书实施例的第三方面,提供了一种声纹识别模型的训练方法,应用于云侧设备,包括:
[0012]获取样本集,其中,样本集包括多个无标签语音样本;
[0013]将样本集划分为多个批次;
[0014]根据各批次的无标签语音样本,利用指定模型,获得各批次中无标签语音样本对应的样本对象的对象特征和概率分布;
[0015]对各样本对象的对象特征之间进行差异分析得到第一损失,并根据概率分布确定第二损失;
[0016]根据第一损失和第二损失,对指定模型进行训练,获得训练后的声纹识别模型的模型参数;
[0017]将模型参数发送至端侧设备。
[0018]根据本说明书实施例的第四方面,提供了一种发音对象识别装置,包括:
[0019]第一获取模块,被配置为获取待识别的语音数据;
[0020]第一确定模块,被配置为将语音数据输入预先训练的声纹识别模型,确定语音数据对应的目标发音对象,其中,声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到,自监督训练中采用的损失包括第一损失和第二损失,第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定,第二损失基于无标签语音样本对应的发音对象的对象特征确定。
[0021]根据本说明书实施例的第五方面,提供了一种会议中的说话人识别装置,包括:
[0022]第二获取模块,被配置为获取会议语音数据;
[0023]第二确定模块,被配置为将会议语音数据输入预先训练的声纹识别模型,确定会议语音数据对应的说话人,其中,声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到,自监督训练中采用的损失包括第一损失和第二损失,第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定,第二损失基于无标签语音样本对应的发音对象的对象特征确定。
[0024]根据本说明书实施例的第六方面,提供了一种声纹识别模型的训练装置,包括:
[0025]第二获取模块,被配置为获取样本集,其中,样本集包括多个无标签语音样本;
[0026]批次划分模块,被配置为将样本集划分为多个批次;
[0027]第一获得模块,被配置为根据各批次的无标签语音样本,利用指定模型,获得各批次中无标签语音样本对应的样本对象的对象特征和概率分布;
[0028]第二获得模块,被配置为对各样本对象的对象特征之间进行差异分析得到第一损失,并根据概率分布确定第二损失;
[0029]训练模块,被配置为根据第一损失和第二损失,对指定模型进行训练,获得训练后的声纹识别模型的模型参数;
[0030]发送模块,被配置为将模型参数发送至端侧设备。
[0031]根据本说明书实施例的第七方面,提供了一种计算设备,包括:
[0032]存储器和处理器;
[0033]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面所述的发音对象识别方法或第二方面所述的会议中的说话人识别方法或第三方面所述的声纹识别模型的训练方法的步骤。
[0034]根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面所述的发音对象识别方法或第二方面所述的会议中的说话人识别方法或第三方面所述的声纹识别模型的训练方法的步骤。
[0035]根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面所述的发音对象识别方法或第二方面所述的会议中的说话人识别方法或第三方面所述的声纹识别模型的训练方法的步骤。
[0036]本说明书实施例提供了一种发音对象识别方法,获取待识别的语音数据;将语音数据输入预先训练的声纹识别模型,确定语音数据对应的目标发音对象,其中,声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到,自监督训练中采用的损失包括第一损失和第二损失,第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定,第二损失基于无标签语音样本对应的发音对象的对象特征确定。上述方案使用无标签语音样本对模型进行自监督训练,则不需要人工进行大量的标签标注工作,降低了数据成本和人力成本,提高了获取样本的效率,进而提高了模型训练的效率,并且,使用同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定第一损失,能够确保同一批次的不同发音对象的对象特征的多样性,即不同的发音对象的对象特征差异较大,降低了将不同的发音对象的无标签语音样本映射为相同的对象特征的情况的出现,降低了模型坍塌的问题出现的可能性,提高了训练得到的声纹识别模型的性能,进而使用该声纹识别模型进行发音对象识别,能够提高发音对象识别的准确性。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种发音对象识别方法,包括:获取待识别的语音数据;将所述语音数据输入预先训练的声纹识别模型,确定所述语音数据对应的目标发音对象,其中,所述声纹识别模型为利用无标签语音样本对指定模型进行自监督训练得到,所述自监督训练中采用的损失包括第一损失和第二损失,所述第一损失基于同一批次的多个无标签语音样本分别对应的发音对象的特征差异确定,所述第二损失基于所述无标签语音样本对应的发音对象的对象特征确定。2.根据权利要求1所述的方法,所述获取待识别的语音数据之前,还包括:获取样本集,其中,所述样本集包括多个无标签语音样本;将所述样本集划分为多个批次;根据各批次的无标签语音样本,利用指定模型,获得所述各批次中无标签语音样本对应的样本对象的对象特征和概率分布;对各样本对象的对象特征之间进行差异分析得到第一损失,并根据所述概率分布确定第二损失;根据所述第一损失和所述第二损失,对所述指定模型进行训练,获得训练后的声纹识别模型。3.根据权利要求2所述的方法,所述对象特征包括第一对象特征和第二对象特征,所述概率分布包括第一概率分布和第二概率分布;所述根据各批次的无标签语音样本,利用指定模型,获得所述各批次中无标签语音样本对应的样本对象的对象特征和概率分布,包括:提取第一批次中的第一无标签语音样本,其中,所述第一批次为任一批次,所述第一无标签语音样本为所述第一批次中的任一无标签语音样本;将所述第一无标签语音样本划分为第一语音片段和第二语音片段,其中,所述第一语音片段的时长大于所述第二语音片段的时长;将所述第一语音片段输入指定模型,得到所述样本发音对象的第一对象特征和第一概率分布,以及将所述第二语音片段输入所述指定模型,得到所述样本发音对象的第二对象特征和第二概率分布。4.根据权利要求3所述的方法,所述对各样本对象的对象特征之间进行差异分析得到第一损失,包括:基于所述第一批次中各无标签语音样本对应的样本发音对象分别的第一对象特征和第二对象特征,确定第一损失;所述根据所述概率分布确定第二损失,包括:基于所述第一无标签语音样本对应的样本发音对象的第一概率分布和第二概率分布,确定第二损失。5.根据权利要求4所述的方法,所述第一损失包括多样性损失;所述基于所述第一批次中各无标签语音样本对应的样本发音对象分别的第一对象特征和第二对象特征,确定第一损失,包括:基于所述第一批次中各样本发音对象的第一对象特征在各维度的特征值,确定各维度对应的第一标准差;基于所述第一批次中各样本发音对象的第二对象特征在各维度的特征值,确定各维度
对应的第二标准差;基于所述各维度对应的第一标准差和第二标准差,确定多样性损失。6.根据权利要求4或5所述的方法,所述第一损失包括冗余度消除损失;所述基于所述第一批次中各无标签语音样本对应的样本发音对象分别的第一对象特征和第二对象特征,确定第一损失,包括:基于所述第一批次中各样本发音对象的第一对象特征在各维度的特征值和各样本发音对象的第二对象特征在各维度的特征值,确定协方差矩阵,其中,协方差矩阵中的元素表征第一对象特征和第二对象特征在任意两个维度的特征值之间的相关性;基于所述协方差矩阵确定所述冗余度消除损失。7.根据权利要求4所述的方法,所述基于所述第一无标签语音样本对应的样本发音对象的第一概率分布和第二概率分布,确定第二损失,包括:基于所述样本发音对象的第一概率分布在各维度的特征值和第二概率...

【专利技术属性】
技术研发人员:陈亚峰郑斯奇王绘程路遥
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1