声纹识别模型训练方法、识别方法、电子设备及存储介质技术

技术编号：26381111 阅读：28 留言：0更新日期：2020-11-19 23:49

本申请提供一种声纹识别模型训练方法、识别方法及电子设备，属于声纹识别技术领域，其中，声纹识别模型训练方法，通过在原有的N个人的音频数据的基础上，增加M条音频数据，且该M条音频数据不同于N个人的音频数据，通过增加M条音频数据的负面例子数据训练的模型，可以有效的提高什么样的声纹特征不是同一个人的判断，因而误判将两个人判断为是同一个人的概率大大降低，进而可以有效提高模型判断的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
声纹识别模型训练方法、识别方法、电子设备及存储介质
本申请涉及声纹识别
，尤其涉及未知说话人声纹识别模型训练方法、识别方法、电子设备及存储介质。
技术介绍
声纹识别，生物识别技术的一种，也称为说话人识别。声纹识别就是把声信号转换成电信号，再用计算机进行识别。现有的声纹识别，基于深度学习的声纹识别算法，需要获取大量的数据进行训练，需要单个人跨信道、跨时间，和同时有较长的音频，以提高模型训练的准确度。然后在实际模型使用中经常会经常出现误判，例如将两个人当成一个人，或将一个人当成两个人，因而影响模型的识别精度。
技术实现思路
有鉴于此，本申请提供一种声纹识别模型训练方法、识别方法、电子设备及存储介质，通过增加不同于原有模型训练集中的音频数据，以从负面例子提高声纹识别模型的准确性判断。本申请的一些实施方式提供了一种声纹识别模型训练方法。以下从多个方面介绍本申请，以下多个方面的实施方式和有益效果可互相参考。第一方面，本申请提供一种声纹识别模型训练方法，包括：所述电子设备基于N个人的多条...

【技术保护点】
1.一种声纹识别模型训练方法，应用于电子设备，其特征在于，所述方法包括：/n所述电子设备基于N个人的多条音频数据作为训练样本集进行训练获得第一声纹识别模型，其中，N个人中的每个人有多条音频，且N个人中的一部分或全部的人有跨时间和跨信道的音频数据，N为大于等于1的自然数；/n所述电子设备获取M条音频数据，所述M条音频数据来源于未明确身份的说话人；/n所述电子设备基于第一声纹识别模型对M条音频数据中的声纹特征进行提取，以获得所述M条音频数据中的M条声纹特征，其中，M条音频数据不同于所述N个人的多条音频数据，且M条音频数据为大于等于1的自然数；/n所述电子设备将M条声纹特征作为固定权重，加入第一声纹...

【技术特征摘要】
1.一种声纹识别模型训练方法，应用于电子设备，其特征在于，所述方法包括：
所述电子设备基于N个人的多条音频数据作为训练样本集进行训练获得第一声纹识别模型，其中，N个人中的每个人有多条音频，且N个人中的一部分或全部的人有跨时间和跨信道的音频数据，N为大于等于1的自然数；
所述电子设备获取M条音频数据，所述M条音频数据来源于未明确身份的说话人；
所述电子设备基于第一声纹识别模型对M条音频数据中的声纹特征进行提取，以获得所述M条音频数据中的M条声纹特征，其中，M条音频数据不同于所述N个人的多条音频数据，且M条音频数据为大于等于1的自然数；
所述电子设备将M条声纹特征作为固定权重，加入第一声纹识别模型的说话人分类算法中，以获得第二声纹识别模型；
所述电子设备基于所述N个人的多条音频数据对所述第二声纹识别模型进行训练，以得到未知说话人声纹识别模型。

2.根据权利要求1所述的方法，其特征在于，所述电子设备将M条声纹特征作为固定权重，加入第一声纹识别模型的说话人分类算法中，得到新的说话人分类算法公式Li为：

其中，

表示N个人的多条音频数据的可学权重，j属于[1,i-1]或[i+1,N]，i表示第i个人，表示M条音频数据的固定权重，k属于[1,M]。

3.根据权利要求1或2所述的方法，其特征在于，所述电子设备基于N个人的多条音频数据作为训练样本集进行训练获得第一声纹识别模型，包括：
所述电子设备获取N个人的多条音频数据，从每一条音频数据中截取设定时长的音频，并将每一设定时长的音频抽成多维的频谱图；
所述电子设备将所述多维的频谱图送入神经网络中，获得N个人的多条音频数据的声纹特征；
所述电子设备基于所述N个人的多条音频数据的声纹特征做说话人分类计算，并获得第一声纹识别模型。

4.根据权利要求3所述的方法，其特征在于，还包括：
所述电子设备基于未知说话人声纹识别模型再次对M条音频数据中的声纹特征进行提取，以获得所述M条音频数据中的M条新的声纹特征，并将M条新的声纹特征作为固定权重，并基于N个人的多条音频数据对未知说话人声纹识别模型再次进行训练。

5.一种音频数据的声纹识别方法，应用于电子设备，其特征在于，所述方法包括：
所述电子设备获取待识别的音频数据；
所述电子设备基于未知说话人声纹识别模型对所述待识别的音频数据的声纹特征进行提取；
所述电子设备对所述待识别的音频数据的声纹特征F1与标准的声纹特征F2进行1:1比对计算，计算出所述声纹特征F1和所述声纹特征F2的余弦相似度，
当该余弦相似度大于等于设定第一...

【专利技术属性】
技术研发人员：陈华官，张志齐，
申请(专利权)人：上海依图网络科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人