一种说话人识别方法、装置、存储介质及设备制造方法及图纸

技术编号:38214057 阅读:11 留言:0更新日期:2023-07-25 11:22
本申请公开了一种说话人识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,并提取其声学特征,然后利用该声学特征,构建目标语音对应的声学特征语谱图,并按照预设窗长,将声学特征语谱图切分成N个语谱图片段;接着将N个语谱图片段输入至预先构建的说话人识别模型,识别得到目标说话人的目标声纹特征向量;进而根据目标声纹特征向量,对目标说话人进行识别,得到目标说话人的识别结果。由于本申请是通过先使用原始特征域和谱增广特征域下的声学特征,结合跨域特征信息共同训练构建了说话人识别模型,有效提升了模型的声纹特征提取效果,从而在利用该说话人识别模型进行说话人识别时,可以有效提高识别结果的准确率。结果的准确率。结果的准确率。

【技术实现步骤摘要】
一种说话人识别方法、装置、存储介质及设备


[0001]本申请涉及语音处理
,尤其涉及一种说话人识别方法、装置、存储介质及设备。

技术介绍

[0002]语音交互作为一种重要的人机交互方式,能够为人们的生活带来极大的便利,其中比较重要的是基于语音对说话人进行识别的技术,这被称为说话人识别。例如,说话人识别可应用于对说话人的身份进行确认的场合,如法院审理、远程金融服务、安保等领域,均需要基于语音数据对说话人的身份进行准确识别。其中,声纹识别是说话人身份识别中的关键技术之一。
[0003]现有的基于声纹识别结果进行说话人身份识别的方法通常是采用基于卷积神经网络(Convolutional Neural Networks,简称CNN)的声纹建模方法,但目前建立的声纹识别模型在训练和使用阶段中会出现声学特征域不匹配的问题,导致模型识别结果的准确率较低。
[0004]因此,如何提高声纹识别结果的准确率,进而提高说话人识别结果的准确率是目前亟待解决的技术问题。

技术实现思路

[0005]本申请实施例的主要目的在于提供一种说话人识别方法、装置、存储介质及设备,能够在进行说话人识别时,有效提高声纹识别结果的准确率,进而提高说话人识别结果的准确率。
[0006]本申请实施例提供了一种说话人识别方法,包括:
[0007]获取待识别的目标语音,并提取所述目标语音的声学特征;
[0008]利用所述目标语音的声学特征,构建所述目标语音对应的声学特征语谱图,并按照预设窗长,将所述声学特征语谱图切分成N个语谱图片段;所述N为大于0的正整数;
[0009]将所述N个语谱图片段输入至预先构建的说话人识别模型,识别得到目标说话人的目标声纹特征向量;所述说话人识别模型是同时使用原始特征域和谱增广特征域下的声学特征,结合跨域特征信息共同训练得到的;
[0010]根据所述目标声纹特征向量,对所述目标说话人进行识别,得到所述目标说话人的识别结果。
[0011]一种可能的实现方式中,所述将所述N个语谱图片段输入至预先构建的说话人识别模型,识别得到目标说话人的目标声纹特征向量,包括:
[0012]将所述N个语谱图片段按序逐个输入至预先构建的说话人识别模型,得到N个声纹特征向量;
[0013]对所述N个声纹特征向量进行加权平均计算,并将得到的计算结果作为目标说话人的目标声纹特征向量。
[0014]一种可能的实现方式中,所述方法还包括:
[0015]利用样本语音和预设目标损失函数,对初始说话人识别模型进行跨域训练处理,得到训练后的说话人识别模型;
[0016]利用验证语音对所述训练后的说话人识别模型进行验证更新训练,得到更新后的所述说话人识别模型。
[0017]一种可能的实现方式中,所述初始说话人识别模型为主流声纹识别模型ECAPA神经网络。
[0018]一种可能的实现方式中,所述利用样本语音和预设目标损失函数,对初始说话人识别模型进行跨域训练处理,得到训练后的说话人识别模型,包括:
[0019]提取样本语音的声学特征,并利用所述样本语音的声学特征,构建所述样本语音对应的样本声学特征语谱图,并按照预设窗长,将所述样本声学特征语谱图切分成M个样本语谱图片段;所述M为大于0的正整数;
[0020]对所述M个样本语谱图片段进行在线谱增广处理,得到经过谱增广之后的M个样本语谱图片段;
[0021]将所述M个样本语谱图片段和所述谱增广之后的M个样本语谱图片段,成对输入初始说话人识别模型,分别得到M个样本声纹特征向量和M个谱增广样本声纹特征向量;
[0022]利用所述M个样本声纹特征向量和M个谱增广样本声纹特征向量,构建原始声学特征域下的三元组声纹特征向量和谱增广特征域下的三元组声纹特征向量;以及构建不同声学特征域下的三元组声纹特征向量;
[0023]根据所述原始声学特征域下的三元组声纹特征向量、所述增广特征域下的三元组声纹特征向量、所述不同声学特征域下的三元组声纹特征向量和预设目标损失函数,对所述初始说话人识别模型进行训练,得到训练后的说话人识别模型。
[0024]一种可能的实现方式中,所述预设目标损失函数包括第一目标损失函数、第二目标损失函数、第三目标损失函数;所述第一目标损失函数用于拉近相同声学特征域下的三元组声纹特征向量中锚点声纹特征向量和正例声纹特征向量之间的距离以及拉开锚点声纹特征向量和反例声纹特征向量之间的距离;所述第二目标损失函数用于拉近不同声学特征域下的三元组声纹特征向量中锚点声纹特征向量和正例声纹特征向量之间的距离以及拉开锚点声纹特征向量和反例声纹特征向量之间的距离;所述第三目标损失函数用于提升所述说话人识别模型识别结果的准确性。
[0025]一种可能的实现方式中,所述目标语音的声学特征为梅尔频率倒谱系数MFCC或滤波器组特征。
[0026]本申请实施例还提供了一种说话人识别装置,包括:
[0027]获取单元,用于获取待识别的目标语音,并提取所述目标语音的声学特征;
[0028]切分单元,用于利用所述目标语音的声学特征,构建所述目标语音对应的声学特征语谱图,并按照预设窗长,将所述声学特征语谱图切分成N个语谱图片段;所述N为大于0的正整数;
[0029]第一识别单元,用于将所述N个语谱图片段输入至预先构建的说话人识别模型,识别得到目标说话人的目标声纹特征向量;所述说话人识别模型是同时使用原始特征域和谱增广特征域下的声学特征,结合跨域特征信息共同训练得到的;
[0030]第二识别单元,用于根据所述目标声纹特征向量,对所述目标说话人进行识别,得到所述目标说话人的识别结果。
[0031]一种可能的实现方式中,所述第一识别单元包括:
[0032]第一输入子单元,用于将所述N个语谱图片段按序逐个输入至预先构建的说话人识别模型,得到N个声纹特征向量;
[0033]计算子单元,用于对所述N个声纹特征向量进行加权平均计算,并将得到的计算结果作为目标说话人的目标声纹特征向量。
[0034]一种可能的实现方式中,所述装置还包括:
[0035]训练单元,用于利用样本语音和预设目标损失函数,对初始说话人识别模型进行跨域训练处理,得到训练后的说话人识别模型;
[0036]更新单元,用于利用验证语音对所述训练后的说话人识别模型进行验证更新训练,得到更新后的所述说话人识别模型。
[0037]一种可能的实现方式中,所述初始说话人识别模型为主流声纹识别模型ECAPA神经网络。
[0038]一种可能的实现方式中,所述训练单元包括:
[0039]第一构建子单元,用于提取样本语音的声学特征,并利用所述样本语音的声学特征,构建所述样本语音对应的样本声学特征语谱图,并按照预设窗长,将所述样本声学特征语谱图切分成M个样本语谱图片段;所述M为大于0的正整数;
[0040]谱增广子单元,用于对所述M个样本语谱图片段进行在线谱增广处理,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话人识别方法,其特征在于,包括:获取待识别的目标语音,并提取所述目标语音的声学特征;利用所述目标语音的声学特征,构建所述目标语音对应的声学特征语谱图,并按照预设窗长,将所述声学特征语谱图切分成N个语谱图片段;所述N为大于0的正整数;将所述N个语谱图片段输入至预先构建的说话人识别模型,识别得到目标说话人的目标声纹特征向量;所述说话人识别模型是同时使用原始特征域和谱增广特征域下的声学特征,结合跨域特征信息共同训练得到的;根据所述目标声纹特征向量,对所述目标说话人进行识别,得到所述目标说话人的识别结果。2.根据权利要求1所述的方法,其特征在于,所述将所述N个语谱图片段输入至预先构建的说话人识别模型,识别得到目标说话人的目标声纹特征向量,包括:将所述N个语谱图片段按序逐个输入至预先构建的说话人识别模型,得到N个声纹特征向量;对所述N个声纹特征向量进行加权平均计算,并将得到的计算结果作为目标说话人的目标声纹特征向量。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用样本语音和预设目标损失函数,对初始说话人识别模型进行跨域训练处理,得到训练后的说话人识别模型;利用验证语音对所述训练后的说话人识别模型进行验证更新训练,得到更新后的所述说话人识别模型。4.根据权利要求3所述的方法,其特征在于,所述初始说话人识别模型为主流声纹识别模型ECAPA神经网络。5.根据权利要求3所述的方法,其特征在于,所述利用样本语音和预设目标损失函数,对初始说话人识别模型进行跨域训练处理,得到训练后的说话人识别模型,包括:提取样本语音的声学特征,并利用所述样本语音的声学特征,构建所述样本语音对应的样本声学特征语谱图,并按照预设窗长,将所述样本声学特征语谱图切分成M个样本语谱图片段;所述M为大于0的正整数;对所述M个样本语谱图片段进行在线谱增广处理,得到经过谱增广之后的M个样本语谱图片段;将所述M个样本语谱图片段和所述谱增广之后的M个样本语谱图片段,成对输入初始说话人识别模型,分别得到M个样本声纹特征向量和M个谱增广样本声纹特征向量;利用所述M个样本声纹特征向量和M个谱增广样本声纹特征向量,构建原始声学特征域下的三元组声纹特征向量和谱增广特征域下的三元组声纹特征向量;以及构建不同声学特征域下的三元组声纹特征向量;根据...

【专利技术属性】
技术研发人员:李晋高天方昕刘俊华刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1