本发明专利技术声纹识别技术领域,具体涉及豪萨语声纹识别模型的训练方法、识别方法及装置,所述训练方法包括获取英语音频样本的第一频域特征及第一声纹特征,以及豪萨语音频样本的第二频域特征及第二声纹特征;基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型;基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型。通过迁移学习的方法既能够避免豪萨语音频样本不足的问题,又保证训练得到的豪萨语声纹识别模型的准确性。得到的豪萨语声纹识别模型的准确性。得到的豪萨语声纹识别模型的准确性。
【技术实现步骤摘要】
豪萨语声纹识别模型的训练方法、识别方法及装置
[0001]本专利技术涉及声纹识别
,具体涉及豪萨语声纹识别模型的训练方法、识别方法及装置。
技术介绍
[0002]语音识别是将人类的声音信号转化为文本的过程,是人工智能感知领域的重要技术之一。随着深度学习技术的发展,语音识别的精度和速度都取得了长远的进步。现如今,语音识别技术已经渗透到我们日常生活中的许多应用中,如智能音箱,导购机器人等产品。然而,现有的语音识别研究大多只关注于人数使用最多的语种,如英语和汉语,这导致了语音识别的应用只局限在较为发达的地区和城市。
[0003]世界上有6809种语言,大多是为使用人数很少的小语种,针对小语种的语音识别的研究是拉近不同语种人群之间交流的关键桥梁。其中,豪萨语是属于亚非语系乍得语族,是非洲最重要的三大语言之一。对于声纹识别模型而言,对其训练一般都需要几千小时的音频,而豪萨语作为小语种,所能够收集的样本数据较少。由于样本数据的缺乏,就会导致训练得到的声纹识别模型的准确性较低,进而导致声纹识别的准确率较低。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供了一种豪萨语声纹识别模型的训练方法、识别方法及装置,以解决声纹识别的准确率较低的问题。
[0005]根据第一方面,本专利技术实施例提供了一种豪萨语声纹识别模型的训练方法,包括:
[0006]获取英语音频样本的第一频域特征及第一声纹特征,以及豪萨语音频样本的第二频域特征及第二声纹特征;
[0007]基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型;
[0008]基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型,所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。
[0009]本专利技术实施例提供的豪萨语声纹识别模型的训练方法,由于豪萨语音频样本的数量较少,且豪萨语与英语较为相似,在对豪萨语声纹识别模型进行训练时,先基于英语音频样本对豪萨语声纹识别模型进行训练,将训练得到的参数作为豪萨语声纹识别模型的初始参数;再基于豪萨语音频样本对初始豪萨语语音模型进行再次训练,进而对初始参数进行微调。即,通过迁移学习的方法既能够避免豪萨语音频样本不足的问题,又保证训练得到的豪萨语声纹识别模型的准确性。
[0010]结合第一方面,在第一方面第一实施方式中,所述基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型,包括:
[0011]将所述第一频域特征输入所述豪萨语声纹识别模型中,得到第一预测声纹特征;
[0012]基于所述第一声纹特征以及所述第一预测声纹特征的误差,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型。
[0013]本专利技术实施例提供的豪萨语声纹识别模型的训练方法,将英语音频样本对应的第一频域特征经豪萨语声纹识别模型的处理后得到第一预测声纹特征,再利用该网络预测得到声纹特征与音频样本对应的声纹特征进行误差比较,以对模型参数进行调整,可以保证所确定出的初始豪萨语声纹识别模型的初始参数的准确性。
[0014]结合第一方面第一实施方式,在第一方面第二实施方式中,所述将所述第一频域特征输入所述豪萨语声纹识别模型中,得到第一预测声纹特征,包括:
[0015]利用所述豪萨语声纹识别模型中的第一网络模型对所述第一频域特征进行处理,得到帧级别的说话人信息;
[0016]利用所述豪萨语声纹识别模型中的第二网络模型对所述帧级别的说话人信息进行聚类,得到句子级别的说话人信息,确定所述第一预测声纹特征。
[0017]本专利技术实施例提供的豪萨语声纹识别模型的训练方法,在豪萨语声纹识别模型中设置两个网络模型,首先进行帧级别的说话人信息,再利用第二网络模型对第一网络模型的输出进行聚类分析,确定第一预测声纹特征;即,通过聚类方式得到第一预测声纹特征,可以保证第一预测声纹特征的准确性,提高模型训练的效率。
[0018]结合第一方面第一实施方式,在第一方面第三实施方式中,所述基于所述第一声纹特征以及所述第一预测声纹特征的误差,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型的初始参数,包括:
[0019]利用所述第一声纹特征以及所述第一预测声纹特征进行损失函数的计算;
[0020]基于所述损失函数的计算结果,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型的初始参数。
[0021]结合第一方面,在第一方面第四实施方式中,所述基于所述豪萨语音频样本以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型,包括:
[0022]将所述第二频域特征输入所述初始豪萨语声纹识别模型中,得到第二预测声纹特征;
[0023]基于所述第二声纹特征以及所述第二预测声纹特征的误差,对所述初始豪萨语声纹识别模型的初始参数进行调整,确定所述目标豪萨语声纹识别模型。
[0024]本专利技术实施例提供的豪萨语声纹识别模型的训练方法,在初始参数确定的基础上,再利用豪萨语音频样本对初始参数进行微调,一方面能够保证目标豪萨语声纹识别模型的准确性,另一方面能够提高模型训练的效率。
[0025]结合第一方面,在第一方面第五实施方式中,所述获取英语音频样本的第一频域特征,以及,所述获取豪萨语音频样本的第二频域特征,包括:
[0026]将所述英语音频样本以及所述豪萨语音频样本分别划分为静音段与非静音段;
[0027]分别对非静音段的所述英语音频样本以及非静音段的所述豪萨语音频样本进行傅里叶变换处理,以得到所述第一频域特征以及所述第二频域特征。
[0028]本专利技术实施例提供的豪萨语声纹识别模型的训练方法,在进行频域特征的处理之
前,先将音频样本中的静音段去除,可以减少数据处理量,提高训练效率。
[0029]结合第一方面,或第一方面第一实施方式至第五实施方式中任一项,在第一方面第六实施方式中,还包括:
[0030]获取内类数据以及内间数据,所述内类数据为同一说话人的音频数据,所述内间数据为不同说话人的音频数据;
[0031]提取所述内类数据以及所述内间数据的频域特征;
[0032]将提取出的频域特征输入所述目标豪萨语声纹识别模型中,确定各个所述内类数据对应的声纹特征,以及各个所述内间数据对应的声纹特征;
[0033]基于各个所述内类数据对应的声纹特征的相似度,以及各个所述内间数据对应的声纹特征的相似度,确定声纹识别阈值。
[0034]本专利技术实施例提供的豪萨语声纹识别模型的训练方法,在目标豪萨语声纹识别模型确定之后,在利用大量的内类数据以及内间数据进行本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种豪萨语声纹识别模型的训练方法,其特征在于,包括:获取英语音频样本的第一频域特征及第一声纹特征,以及豪萨语音频样本的第二频域特征及第二声纹特征;基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型;基于所述第二频域特征以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型,所述目标豪萨语声纹识别模型的输出为说话人的声纹特征。2.根据权利要求1所述的训练方法,其特征在于,所述基于所述第一频域特征以及所述第一声纹特征对豪萨语声纹识别模型进行训练,确定所述豪萨语声纹识别模型的初始参数,得到初始豪萨语声纹识别模型,包括:将所述第一频域特征输入所述豪萨语声纹识别模型中,得到第一预测声纹特征;基于所述第一声纹特征以及所述第一预测声纹特征的误差,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型。3.根据权利要求2所述的训练方法,其特征在于,所述将所述第一频域特征输入所述豪萨语声纹识别模型中,得到第一预测声纹特征,包括:利用所述豪萨语声纹识别模型中的第一网络模型对所述第一频域特征进行处理,得到帧级别的说话人信息;利用所述豪萨语声纹识别模型中的第二网络模型对所述帧级别的说话人信息进行聚类,得到句子级别的说话人信息,确定所述第一预测声纹特征。4.根据权利要求2所述的训练方法,其特征在于,所述基于所述第一声纹特征以及所述第一预测声纹特征的误差,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型的初始参数,包括:利用所述第一声纹特征以及所述第一预测声纹特征进行损失函数的计算;基于所述损失函数的计算结果,对所述豪萨语声纹识别模型的参数进行调整,确定所述初始豪萨语声纹识别模型的初始参数。5.根据权利要求1所述的训练方法,其特征在于,所述基于所述豪萨语音频样本以及所述第二声纹特征对所述初始豪萨语声纹识别模型进行训练,调整所述初始豪萨语声纹识别模型的初始参数,确定目标豪萨语声纹识别模型,包括:将所述第二频域特征输入所述初始豪萨语声纹识别模型中,得到第二预测声纹特征;基于所述第二声纹特征以及所述第二预测声纹特征的误差,对所述初始豪萨语声纹识别模型的初始参数进行调整,确定所述目标豪萨语声纹识别模型。6.根据权利要求1所述的训练方法,其特征在于,所述获取英语音频样本的第一频域特征,以及,所述获取豪萨语音频样本的第二频域特征,包括:将所述英语音频样本以及所述豪萨语音频样本分别划分为静音段与非静音段;分别对非静音段的所述英语音频样本以及非静音段的所述豪萨语音频样本进行傅里叶变换处理,以得到所述第一频域特征以及所述第二频域特征。7.根据权利要求1
‑
6中任一项所述的训练方法,其特征在...
【专利技术属性】
技术研发人员:李威勇,龚科,
申请(专利权)人:暗物智能科技广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。