声纹识别模型的训练方法及装置、声纹识别方法及装置制造方法及图纸

技术编号:32538614 阅读:27 留言:0更新日期:2022-03-05 11:34
本公开涉及一种声纹识别模型的训练方法及装置、声纹识别方法及装置,涉及语音数据处理领域。声纹识别模型的训练方法包括:获取声纹识别数据集;根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;利用所述第二训练数据集,训练所述声纹识别模型。根据本公开,训练的声纹识别模型更精简有效,提高了声纹识别的效率和准确率。别的效率和准确率。别的效率和准确率。

【技术实现步骤摘要】
声纹识别模型的训练方法及装置、声纹识别方法及装置


[0001]本公开涉及语音数据处理领域,特别涉及一种声纹识别模型的训练方法及声纹识别方法、装置、电子设备、计算机可存储介质。

技术介绍

[0002]声纹识别是一种借助声音完成对语音用户身份识别的技术,是语音领域重要的研究方向之一。随着计算机技术的不断发展,声纹识别在近年来得到很大的发展,加上方便有效的特点,其已然成为一种高效的身份识别方法,在公安、银行、智能家居中都有着广泛地应用。
[0003]自2010年起,逐渐开始使用深度学习模型来提取声纹特征。但相关技术中,仍需要专家手工设计声纹识别所需要的模型结构,并通过试验对比模型效果的好坏。设计模型结构需要大量的专业知识与反复试验,随着模型结构日趋复杂,模型的使用和实现成本也逐渐提高。

技术实现思路

[0004]根据本公开的第一方面,提供了一种声纹识别模型的训练方法,包括:获取声纹识别数据集;根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;利用所述第二训练数据集,训练所述声纹识别模型。
[0005]在一些实施例中,根据所述声纹识别数据集中的语音数据,生成第一训练数据集,包括:从声纹识别数据集中随机抽取出部分语音数据;从所述部分语音数据中,确定时长相近的多个语音数据;通过语音活性检测,去除所述时长相近的多个语音数据中的静默音;从所述时长相近的多个语音数据的每一个中,提取一个或多个语谱图;根据所述一个或多个语谱图及其标签,生成第一训练数据集,其中,所述一个或多个语谱图的标签为对应的语音用户。
[0006]在一些实施例中,根据所述声纹识别数据集中的语音数据,生成第二训练数据集,包括:通过语音活性检测,去除所述语音数据中的静默音;从每一条所述语音数据中,提取一个或多个语谱图;根据所述一个或多个语谱图及其标签,生成第二训练数据集,其中,所述一个或多个语谱图的标签为对应的语音用户。
[0007]在一些实施例中,根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,包括:对所述语音数据做语音增强处理。
[0008]在一些实施例中,对所述语音数据做语音增强处理,包括在所述语音数据中添加以下干扰声中的至少一种:背景噪声、混响、背景音乐声或背景语音用户声。
[0009]在一些实施例中,所述神经网络架构搜索算法为可微结构搜索DARTS算法。
[0010]在一些实施例中,利用所述第二训练数据集,训练所述声纹识别模型,包括:使用至少两种损失函数训练所述声纹识别模型。
[0011]在一些实施例中,使用至少两种损失函数训练所述声纹识别模型,包括:在前T轮的训练中使用加性间隔归一化指数AM

Softmax损失函数,在T轮以后的训练中使用三元组Triplet损失函数,其中T为正整数。
[0012]根据本公开第二方面,提供了一种声纹识别方法,包括:根据上述任一实施例所述的声纹识别模型的训练方法,训练所述声纹识别模型;获取待识别语音数据和对比声纹特征;利用所述声纹识别模型,提取待识别语音数据的声纹特征;计算所述待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度;根据所述余弦相似度,确定所述待识别语音数据的语音用户。
[0013]在一些实施例中,根据所述余弦相似度,确定所述待识别语音数据的语音用户,包括:若所述余弦相似度高于预设的阈值,确定该对比声纹特征的语音用户为所述待识别语音数据的语音用户。
[0014]在一些实施例中,根据所述余弦相似度,确定所述待识别语音数据的语音用户,包括:从多个所述对比声纹特征中,选择与所述待识别语音数据的余弦相似度最高的对比声纹特征;确定该对比声纹特征的语音用户为所述待识别语音数据的语音用户。
[0015]根据本公开第三方面,提供了一种声纹识别模型的训练装置,包括:获取模块,被配置为获取声纹识别数据集;生成模块,被配置为根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;搜索模块,被配置为利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;训练模块,被配置为利用所述第二训练数据集,训练所述声纹识别模型。
[0016]根据本公开第四方面,提供了一种声纹识别装置,包括:根据上述任一实施例的声纹识别模型的训练装置;获取模块,被配置为获取待识别语音数据和对比声纹特征;提取模块,被配置为利用所述声纹识别模型,提取待识别语音数据的声纹特征;计算模块,被配置为计算所述待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度;确定模块,被配置为根据所述余弦相似度,确定所述待识别语音数据的语音用户。
[0017]根据本公开的第五方面,提供了一种电子设备,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行根据上述实施例所述的声纹识别模型的训练方法,或执行根据上述实施例所述的声纹识别方法。
[0018]在一些实施例中,所述电子设备,还包括:麦克风,用于获取所述待识别语音数据。
[0019]根据本公开的第六方面,提供了一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时,实现根据以上实施例所述的声纹识别模型的训练方法,或根据以上实施例所述的声纹识别方法。
[0020]本公开实施例的声纹识别模型的训练方法,能够高效地生成声纹识别所需要的模型,提高了声纹识别模型的训练效率和性能,并能够将模型投入到实际的声纹识别任务中使用,提高了声纹识别的准确率。
附图说明
[0021]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0022]参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
[0023]图1示出根据本公开一些实施例的声纹识别模型的训练方法的流程图;
[0024]图2示出根据本公开一些实施例的声纹识别方法的流程图;
[0025]图3示出根据本公开一些实施例的声纹识别模型训练装置的框图;
[0026]图4示出根据本公开一些实施例的声纹识别装置的框图。
[0027]图5示出根据本公开另一些实施例的电子设备的框图。
[0028]图6示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
[0029]现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0030]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别模型的训练方法,包括:获取声纹识别数据集;根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,其中,所述第一训练数据集为从声纹识别数据集中随机抽取出部分语音数据,所述第二训练数据集为声纹识别数据集中的全部语音数据;利用所述第一训练数据集,通过神经网络架构搜索算法,搜索得到声纹识别模型;利用所述第二训练数据集,训练所述声纹识别模型。2.根据权利要求1所述的声纹识别模型的训练方法,其中,根据所述声纹识别数据集中的语音数据,生成第一训练数据集,包括:从声纹识别数据集中随机抽取出部分语音数据;从所述部分语音数据中,确定时长相近的多个语音数据;通过语音活性检测,去除所述时长相近的多个语音数据中的静默音;从所述时长相近的多个语音数据的每一个中,提取一个或多个语谱图;根据所述一个或多个语谱图及其标签,生成第一训练数据集,其中,所述一个或多个语谱图的标签为对应的语音用户。3.根据权利要求1所述的声纹识别模型的训练方法,其中,根据所述声纹识别数据集中的语音数据,生成第二训练数据集,包括:通过语音活性检测,去除所述语音数据中的静默音;从每一条所述语音数据中,提取一个或多个语谱图;根据所述一个或多个语谱图及其标签,生成第二训练数据集,其中,所述一个或多个语谱图的标签为对应的语音用户。4.根据权利要求1

3任一项所述的声纹识别模型的训练方法,其中,根据所述声纹识别数据集中的语音数据,生成第一训练数据集和第二训练数据集,包括:对所述语音数据做语音增强处理。5.根据权利要求4所述的声纹识别模型的训练方法,其中,对所述语音数据做语音增强处理,包括在所述语音数据中添加以下干扰声中的至少一种:背景噪声、混响、背景音乐声或背景语音用户声。6.根据权利要求1所述的声纹识别模型的训练方法,其中,所述神经网络架构搜索算法为可微结构搜索DARTS算法。7.根据权利要求1所述的声纹识别模型的训练方法,其中,利用所述第二训练数据集,训练所述声纹识别模型,包括:使用至少两种损失函数训练所述声纹识别模型。8.根据权利要求7所述的声纹识别模型的训练方法,其中,使用至少两种损失函数训练所述声纹识别模型,包括:在前T轮的训练中使用加性间隔归一化指数AM

Softmax损失函数,在T轮以后的训练中使用三元组Triplet损失函数,其中T为正整数。9.一种声纹识别方法,包括:根据权利要...

【专利技术属性】
技术研发人员:沈浩赵德欣杨杰郭耀光
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1