说话人识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32228330 阅读:10 留言:0更新日期:2022-02-09 17:33
本申请涉及一种说话人识别方法、装置、计算机设备和存储介质。所述方法包括:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。采用本方法能够提高说话人识别准确度。说话人识别准确度。说话人识别准确度。

【技术实现步骤摘要】
说话人识别方法、装置、计算机设备和存储介质


[0001]本申请涉及语音识别
,特别是涉及一种说话人识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着语音技术的飞速发展和广泛应用,存在很多需要进行说话人确认的场景。例如可以进行声纹识别,确定说话人的身份,当身份验证成功,则允许用户进行登录。
[0003]目前,可以采用声纹识别模型对语音进行说话人识别,然而,经常存在利用声纹识别模型识别得到的结果与正确的识别结果相差比较大的情况,导致说话人识别效果差。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种说话人识别方法、装置、计算机设备和存储介质。
[0005]一种说话人识别方法,所述方法包括:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
[0006]一种说话人识别装置,所述装置包括:目标语音获取模块,用于获取待进行说话人识别的目标语音;第一特征提取模块,用于对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;目标声纹特征提取模块,用于基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;说话人识别模块,用于基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
[0007]在一个实施例中,所述第一特征提取模块,用于:确定已训练的嗓音损伤分类模型,所述嗓音损伤分类模型包括已训练的损伤特征提取层以及已训练的损伤程度分类层;将所述目标语音输入到所述嗓音损伤分类模型中,利用所述损伤特征提取层进行特征提取,并跳过所述损伤程度分类层,将提取得到的语音损伤特征作为所述目标语音对应的目标嗓音质量特征。
[0008]在一个实施例中,训练得到所述嗓音损伤分类模型的模块用于:获取训练语音以及所述训练语音对应的损伤程度标签;将所述训练语音输入到待训练的损伤特征提取层对所述训练语音进行特征提取,得到训练提取特征;将所述训练提取特征输入到待训练的损伤程度分类层进行损伤程度预测,得到候选损伤程度对应的概率分布;基于候选损伤程度对应的概率分布以及所述损伤程度标签对应的概率分布的差异得到模型损失值,所述模型损失值与所述差异成正相关关系;基于所述模型损失值对待训练的损伤特征提取层以及待训练的损伤程度分类层进行参数调整,得到已训练的损伤特征提取层以及已训练的损伤程
度分类层。
[0009]在一个实施例中,所述第一特征提取模块,用于:确定已训练的嗓音恢复分类模型,所述嗓音恢复分类模型包括已训练的恢复特征提取层以及已训练的恢复程度分类层;将所述目标语音输入到所述嗓音恢复分类模型中进行处理,利用所述恢复特征提取层进行特征提取,并跳过所述恢复程度分类层,将提取得到的语音恢复特征作为所述目标语音对应的目标嗓音质量特征。
[0010]在一个实施例中,所述目标声纹特征是通过目标声纹识别模型提取得到的,通过目标特征类型集合中各个目标特征类型对应的特征对所述声纹识别模型进行训练;得到所述目标特征类型集合的模块包括:候选特征类型集合获取模块,用于获取候选特征类型集合;所述候选特征类型集合包括多个嗓音质量类型分别对应的特征类型以及多个语音韵律类型分别对应的特征类型;当前特征类型选取向量生成模块,用于获取所述候选特征类型集合对应的特征类型数量,生成特征维度为所述特征类型数量的多个当前特征类型选取向量,所述多个当前特征类型选取向量组成当前轮次的当前特征类型选取向量集合;所述当前特征类型选取向量中的特征数值表示所在位置对应的候选特征类型的被选取度;不同当前特征类型选取向量中,相同位置对应的候选特征类型一致;进化模块,用于对所述当前特征类型选取向量集合中的当前特征类型选取向量分别进行进化处理,得到进化后的进化特征类型选取向量;选取模块,用于基于所述进化特征类型选取向量对应的第一声纹识别准确度以及所述当前特征类型选取向量对应的第二声纹识别准确度,从所述进化特征类型选取向量以及所述当前特征类型选取向量中选取得到下一轮次的选取向量,直至得到满足声纹识别准确度条件的目标特征类型选取向量;目标特征类型集合得到模块,用于基于所述目标特征类型选取向量从所述候选特征类型集合中选取得到目标特征类型,组成所述目标特征类型集合。
[0011]在一个实施例中,得到所述进化特征类型选取向量对应的第一声纹识别准确度以及所述当前特征类型选取向量对应的第二声纹识别准确度的步骤包括:将基于所述当前特征类型选取向量从所述候选特征类型集合中选取得到的特征集合,作为第一特征类型集合;将基于所述进化特征类型选取向量从所述候选特征类型集合中选取得到的特征类型集合,作为第二特征类型集合;
[0012]获取所述第一特征类型集合的各个第一特征类型,获取所述训练用户在所述第一特征类型所对应的特征,各个所述第一特征类型所对应的特征组成所述训练用户对应的第一特征集合;获取所述第二特征类型集合的各个第二特征类型,获取所述训练用户在所述第二特征类型所对应的特征,各个所述第二特征类型所对应的特征组成所述训练用户对应的第二特征集合;获取所述第一特征集合对应的所述第一声纹识别准确度以及所述第二特征集合对应的所述第二声纹识别准确度。
[0013]在一个实施例中,所述获取所述第一特征集合对应的所述第一声纹识别准确度以及所述第二特征集合对应的所述第二声纹识别准确度包括:基于所述第一特征集合训练得到的第一声纹识别模型,以及基于所述第二特征集合训练得到的第二声纹识别模型;将测试用户对应的测试语音输入到所述第一声纹识别模型中进行声纹识别,基于识别结果得到所述第一声纹识别准确度;将所述测试用户对应的测试语音输入到所述第二声纹识别模型中进行声纹识别,基于识别结果得到所述第二声纹识别准确度。
[0014]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。
[0015]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话人识别方法,其特征在于,所述方法包括:获取待进行说话人识别的目标语音;对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征,以及对所述目标语音进行韵律特征提取,得到所述目标语音对应的目标语音韵律特征;基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取,提取得到目标声纹特征;基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。2.根据权利要求1所述的方法,其特征在于,所述对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征包括:确定已训练的嗓音损伤分类模型,所述嗓音损伤分类模型包括已训练的损伤特征提取层以及已训练的损伤程度分类层;将所述目标语音输入到所述嗓音损伤分类模型中,利用所述损伤特征提取层进行特征提取,并跳过所述损伤程度分类层,将提取得到的语音损伤特征作为所述目标语音对应的目标嗓音质量特征。3.根据权利要求2所述的方法,其特征在于,训练得到所述嗓音损伤分类模型的步骤包括:获取训练语音以及所述训练语音对应的损伤程度标签;将所述训练语音输入到待训练的损伤特征提取层对所述训练语音进行特征提取,得到训练提取特征;将所述训练提取特征输入到待训练的损伤程度分类层进行损伤程度预测,得到候选损伤程度对应的概率分布;基于候选损伤程度对应的概率分布以及所述损伤程度标签对应的概率分布的差异得到模型损失值,所述模型损失值与所述差异成正相关关系;基于所述模型损失值对待训练的损伤特征提取层以及待训练的损伤程度分类层进行参数调整,得到已训练的损伤特征提取层以及已训练的损伤程度分类层。4.根据权利要求1所述的方法,其特征在于,所述对所述目标语音进行质量特征提取,得到所述目标语音对应的目标嗓音质量特征包括:确定已训练的嗓音恢复分类模型,所述嗓音恢复分类模型包括已训练的恢复特征提取层以及已训练的恢复程度分类层;将所述目标语音输入到所述嗓音恢复分类模型中进行处理,利用所述恢复特征提取层进行特征提取,并跳过所述恢复程度分类层,将提取得到的语音恢复特征作为所述目标语音对应的目标嗓音质量特征。5.根据权利要求1所述的方法,其特征在于,所述目标声纹特征是通过目标声纹识别模型提取得到的,通过目标特征类型集合中各个目标特征类型对应的特征对所述声纹识别模型进行训练;得到所述目标特征类型集合的步骤包括:获取候选特征类型集合;所述候选特征类型集合包括多个嗓音质量类型分别对应的特征类型以及多个语音韵律类型分别对应的特征类型;获取所述候选特征类型集合对应的特征类型数量,生成特征维度为所述特征类型数量
的多个当前特征类型选取向量,所述多个当前特征类型选取向量组成当前轮次的当前特征类型选取向量集合;所述当前特征类型选取向量中的特征数值表示所在位置对应的候选特征类型的被选取度;不同当前特征类型选取向量中,相同位置对应的候选特征类型一致;对所述当前特征类型选取向量集合中的...

【专利技术属性】
技术研发人员:黎雨星刘强吴少忠王文耀
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1