声纹识别模型训练方法、声纹识别方法及相关设备技术

技术编号:35586373 阅读:11 留言:0更新日期:2022-11-16 15:01
本申请提供一种声纹识别模型训练方法、声纹识别方法及相关设备,方法包括:将有标注的第一样本数据输入至待训练模型包括的编码网络,进行第N次迭代训练;通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至解码网络,进行第N+1次迭代训练;将第二样本数据输入至前馈网络,进行第N+1次迭代训练;在第一向量和第二向量的均方误差小于第一阈值的情况下,得到声纹识别模型;第一向量是进行第N+1次迭代训练后的解码网络输出的,第二向量是进行第N+1次迭代训练后的前馈网络输出的,声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。这样可以降低模型训练的难度。低模型训练的难度。低模型训练的难度。

【技术实现步骤摘要】
声纹识别模型训练方法、声纹识别方法及相关设备


[0001]本申请涉及声纹识别
,尤其涉及到一种声纹识别模型训练方法、声纹识别方法及相关设备。

技术介绍

[0002]声纹识别作为可信的声纹特征认证技术,在身份认证、安全核身等诸多领域和场景中都有广阔的应用前景。但是语音很容易受到各种噪声环境、情绪、身体状况等外部环境和自身因素的影响,因此,提高声纹识别准确率,有着极为重要的现实意义。当前训练得到的声纹识别模型对于样本数据的数量以及质量的要求较高,从而导致声纹识别模型的训练难度较大。

技术实现思路

[0003]本申请实施例提供一种声纹识别模型训练方法、声纹识别方法及相关设备,以解决声纹识别模型的训练难度较大的问题。
[0004]第一方面,本申请实施例提供了一种声纹识别模型训练方法,包括:
[0005]将有标注的第一样本数据输入至待训练模型包括的编码网络,进行第N次迭代训练;其中,所述N为正整数,所述待训练模型还包括解码网络和前馈网络,所述编码网络通过所述解码网络与所述前馈网络连接;
[0006]通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至所述解码网络,进行第N+1次迭代训练;以及,将所述第二样本数据输入至所述前馈网络,进行第N+1次迭代训练;
[0007]在第一向量和第二向量的均方误差小于第一阈值的情况下,得到声纹识别模型;其中,所述第一向量是进行第N+1次迭代训练后的解码网络输出的,所述第二向量是进行第N+1次迭代训练后的前馈网络输出的,所述声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。
[0008]可以看出,本申请实施例中,可以同时使用有标注的第一样本数据和无标注的第二样本数据训练得到声纹识别模型,降低了对样本数据的数量以及质量的要求,从而降低了声纹识别模型训练的难度;另外,在声纹识别模型的训练过程中,先采用有标注的第一样本数据对编码网络进行第N次迭代训练,然后将第二样本数据通过第N次迭代训练后的编码网络传输至解码网络,同时,将第二样本数据输入至前馈网络中,从而使得在采用第二样本数据对解码网络和前馈网络进行训练时,经过第一样本数据训练过的编码网络可以对解码网络和前馈网络的训练过程起到监督引导作用,使得第二样本数据有了非常明显的学习方向,从而进一步降低了声纹识别模型训练的难度。
[0009]第二方面,本申请实施例还提供了一种声纹识别方法,包括:
[0010]获取待识别用户的第一声纹数据;
[0011]将所述第一声纹数据输入至声纹识别模型包括的编码网络,输出所述第一声纹数
据对应的第一特征向量;
[0012]将所述第一特征向量与预先存储的第二特征向量输入至目标分类器,输出似然分布数值;其中,所述目标分类器与所述声纹识别模型包括的编码网络连接,所述第二特征向量是将目标用户的第二声纹数据输入至所述声纹识别模型包括的编码网络输出的;
[0013]在所述似然分布数值大于第二阈值的情况下,确定所述待识别用户和所述目标用户为相同用户。
[0014]可以看出,在本申请实施例中,以通过声纹识别模型以及与声纹识别模型连接的目标分类器来判断待识别用户与目标用户是否为相同用户,从而提高了对待识别用户的声纹数据的识别结果的准确度,减小了因不能准确识别待识别用户的声纹数据所造成的损失。
[0015]第三方面,本申请实施例提供了一种声纹识别模型训练装置,包括:
[0016]第一输入模块,用于将有标注的第一样本数据输入至待训练模型包括的编码网络,进行第N次迭代训练;其中,所述N为正整数,所述待训练模型还包括解码网络和前馈网络,所述编码网络通过所述解码网络与所述前馈网络连接;
[0017]第二输入模块,用于通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至所述解码网络,进行第N+1次迭代训练;以及,将所述第二样本数据输入至所述前馈网络,进行第N+1次迭代训练;
[0018]第一得到模块,用于在第一向量和第二向量的均方误差小于第一阈值的情况下,得到声纹识别模型;其中,所述第一向量是进行第N+1次迭代训练后的解码网络输出的,所述第二向量是进行第N+1次迭代训练后的前馈网络输出的,所述声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。
[0019]第四方面,本申请实施例还提供一种声纹识别装置,包括:
[0020]第一获取模块,用于获取待识别用户的第一声纹数据;
[0021]第三输入模块,用于将所述第一声纹数据输入至声纹识别模型包括的编码网络,输出所述第一声纹数据对应的第一特征向量;
[0022]第四输入模块,用于将所述第一特征向量与预先存储的第二特征向量输入至目标分类器,输出似然分布数值;其中,所述目标分类器与所述声纹识别模型包括的编码网络连接,所述第二特征向量是将目标用户的第二声纹数据输入至所述声纹识别模型包括的编码网络输出的;
[0023]第一确定模块,用于在所述似然分布数值大于第二阈值的情况下,确定所述待识别用户和所述目标用户为相同用户。
[0024]第五方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述声纹识别模型训练方法中的步骤,或者,所述处理器执行所述计算机程序时实现上述声纹识别方法中的步骤。
[0025]第六方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述声纹识别模型训练方法中的步骤,或者,所述计算机程序被处理器执行时实现上述声纹识别方法中的步骤。
附图说明
[0026]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是本申请实施例提供的一种声纹识别模型训练方法的流程图;
[0028]图2是本申请实施例提供的一种待训练模型的结构示意图;
[0029]图3是本申请实施例提供的一种声纹识别方法的流程图;
[0030]图4是本申请实施例提供的一种声纹识别模型训练方法和声纹识别方法的流程图;
[0031]图5是本申请实施例提供的一种声纹识别模型训练装置的结构示意图;
[0032]图6是本申请实施例提供的一种声纹识别装置的结构示意图;
[0033]图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别模型训练方法,其特征在于,包括:将有标注的第一样本数据输入至待训练模型包括的编码网络,进行第N次迭代训练;其中,所述N为正整数,所述待训练模型还包括解码网络和前馈网络,所述编码网络通过所述解码网络与所述前馈网络连接;通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至所述解码网络,进行第N+1次迭代训练;以及,将所述第二样本数据输入至所述前馈网络,进行第N+1次迭代训练;在第一向量和第二向量的均方误差小于第一阈值的情况下,得到声纹识别模型;其中,所述第一向量是进行第N+1次迭代训练后的解码网络输出的,所述第二向量是进行第N+1次迭代训练后的前馈网络输出的,所述声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。2.根据权利要求1所述的方法,其特征在于,所述解码网络包括M个第一卷积层,所述前馈网络包括M个第二卷积层,所述M个第一卷积层和所述M个第二卷积层一一对应连接,所述M为正整数;所述M个第一卷积层输出M个第一向量,所述M个第二卷积层输出M个第二向量;所述第一向量和第二向量的均方误差小于第一阈值,包括:M个均方误差的和小于所述第一阈值,所述M个均方误差是根据所述M个第一向量和所述M个第二向量进行均方误差计算得到的。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:从样本池中获取第一初始数据和第二初始数据,所述第一初始数据有标注,所述第二初始数据无标注;对所述第一初始数据进行数据扩增处理,得到所述第一样本数据;以及对所述第二初始数据进行数据扩增处理,得到所述第二样本数据。4.根据权利要求3所述的方法,其特征在于,所述对所述第一初始数据进行数据扩增处理,得到所述第一样本数据;以及对所述第二初始数据进行数据扩增处理,得到所述第二样本数据,包括:对所述第一初始数据和数据扩增处理后的第一初始数据进行特征提取,得到第三特征向量;以及,对所述第二初始数据和数据扩增处理后的第二初始数据进行特征提取,得到第四特征向量;对所述第三特征向量进行谱增强,将谱增强后的第三特征向量确定为所述第一样本数据;以及将所述第四特征向量确定为所述第二样本数据。5.根据权利要求4所述的方法,其特征在于,所述第三特征向量和所述第四特征向量均为80维滤波器组特征。6.一种声纹识别方法,其特征在于,包括:获取待识别用户的第一声纹数据;将所述第一声纹数据输入至声纹识别模型包括的编码网络,输出所述第一声纹数据对应的第一特征向量;将所述第一特征向量与预先存储的第二特征向量输入至目标分类器,输出似然分布数值;其中,所述目标分类器与所述声纹识别模型包括的编码网络连接,所述第二特征向量是将目标用户的第二声纹数据输入至所述声纹识别模型包括的编码网络输出的;
在所述似然分布数值大于第二阈值的情况下,确定所述待识别用户...

【专利技术属性】
技术研发人员:孟庆林吴海英蒋宁王洪斌陈燕丽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1