一种假音检测方法、假音检测模型获取方法及相关设备技术

技术编号:38156033 阅读:7 留言:0更新日期:2023-07-13 09:24
本发明专利技术提供了一种假音检测方法、假音检测模型获取方法及相关设备,假音检测方法包括:获取目标语音;基于预先获得的目标假音检测模型,检测目标语音是否为假音,目标假音检测模型采用标注有语音类别的训练语音对构建的假音检测模型训练得到,构建的假音检测模型包括语音编码器、根据语音编码器的输出获取说话人表征的说话人表征模块、根据语音编码器的输出获取假音表征的假音表征模块,以及根据说话人表征模块的输出和假音表征模块的输出进行语音分类的语音分类模块,说话人表征模块通过结合说话人分类任务,辅以语音编码器训练得到,语音编码器为通过预训练获得的语音预训练模型。本发明专利技术提供的假音检测方法可准确地检测出语音是否为假音。语音是否为假音。语音是否为假音。

【技术实现步骤摘要】
一种假音检测方法、假音检测模型获取方法及相关设备


[0001]本专利技术涉及语音检测
,尤其涉及一种假音检测方法、假音检测模型获取方法及相关设备。

技术介绍

[0002]自动说话人验证(Automatic Speaker Verification,ASV)为基于说话人的语音对说话人进行身份验证的技术,该技术基于说话者独特的声音特征对说话者进行身份验证,其提供了一种低成本和灵活的生物识别解决方案。
[0003]目前,虽然ASV系统的可靠性已经足以支持大众市场的采用,但人们仍然担心ASV系统的可靠性,人们之所以担心ASV系统的可靠性,是因为ASV系统易受各种语音欺骗攻击的影响。语音欺骗攻击指的是,欺骗者利用语音合成、语音转换等技术生成假音,用假音欺骗ASV系统,使其错误地识别说话人的身份。
[0004]可以理解的是,若在基于说话人的语音进行身份验证前,能够对其进行假音检测(即检测语音是否为假音),将大大提高说话人身份验证的安全性和可靠性,而如何对语音进行假音检测是目前亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种假音检测方法、假音检测模型获取方法及相关设备,用以对语音进行假音检测,进而提升说话人身份验证的安全性和可靠性,其技术方案如下:
[0006]一种假音检测方法,包括:
[0007]获取目标语音;
[0008]基于预先获得的目标假音检测模型,检测所述目标语音是否为假音;其中:
[0009]所述目标假音检测模型采用标注有语音类别的训练语音对构建的假音检测模型训练得到,所述语音类别为真音、假音中的一种;
[0010]构建的假音检测模型包括:语音编码器、根据所述语音编码器的输出获取说话人表征的说话人表征模块、根据所述语音编码器的输出获取假音表征的假音表征模块,以及根据所述说话人表征模块的输出和所述假音表征模块的输出进行语音分类的语音分类模块;
[0011]所述说话人表征模块通过结合说话人分类任务,辅以所述语音编码器训练得到,所述语音编码器为通过预训练获得的语音预训练模型。
[0012]可选的,所述基于预先获得的目标假音检测模型,检测所述目标语音是否为假音,包括:
[0013]将所述目标语音输入所述目标假音检测模型的语音编码器进行编码,得到所述目标语音的语音特征;
[0014]将所述目标语音的语音特征分别输入所述目标假音检测模型的说话人表征模块和假音表征模块,得到所述目标语音对应的说话人表征和假音表征;
[0015]将所述目标语音对应的说话人表征和假音表征输入所述目标假音检测模型的语音分类模块,得到所述目标语音对应的语音分类结果;
[0016]根据所述目标语音对应的语音分类结果,确定所述目标语音是否为假音。
[0017]可选的,结合所述说话人分类任务,辅以所述语音编码器,训练说话人表征模块的过程包括:
[0018]构建包括所述语音编码器、说话人表征模块和说话人分类模块的说话人分类模型;
[0019]采用标注有说话人类别的训练语音,训练所述说话人分类模型,其中,训练所述说话人分类模型时,所述语音编码器的参数固定。
[0020]可选的,所述采用标注有说话人类别的训练语音,训练所述说话人分类模型,包括:
[0021]将训练语音输入所述说话人分类模型的语音编码器进行编码,得到训练语音的语音特征;
[0022]将训练语音的语音特征输入所述说话人分类模型的说话人表征模块,得到训练语音对应的说话人表征;
[0023]将训练语音对应的说话人表征输入所述说话人分类模型的说话人分类模块,得到训练语音对应的说话人分类结果;
[0024]根据训练语音对应的说话人分类结果和训练语音标注的说话人类别,对所述说话人分类模型中的说话人表征模块和说话人分类模块进行参数更新。
[0025]可选的,采用标注有语音类别的训练语音对构建的假音检测模型进行训练的过程包括:
[0026]采用标注有语音类别的训练语音,对构建的假音检测模型进行第一阶段训练,其中,对构建的假音检测模型进行第一阶段训练时,假音检测模型中的语音编码器和说话人表征模块的参数固定;
[0027]采用标注有语音类别的训练语音,对第一阶段训练后的假音检测模型进行第二阶段训练,第二阶段训练后的假音检测模型作为目标假音检测模型,其中,对第一阶段训练后的假音检测模型进行第二阶段训练时,假音检测模型中各模块的参数均进行更新。
[0028]可选的,所述采用标注有语音类别的训练语音,对构建的假音检测模型进行第一阶段训练,包括:
[0029]将训练语音输入构建的假音检测模型的语音编码器,得到训练语音的语音特征;
[0030]将训练语音的语音特征分别输入构建的假音检测模型的假音表征模块和说话人表征模块,得到训练语音对应的假音表征和说话人表征;
[0031]将训练语音对应的假音表征和说话人表征输入构建的假音检测模型的语音分类模块进行真音、假音的分类,得到训练语音对应的语音分类结果;
[0032]根据训练语音对应的语音分类结果以及训练语音标注的语音类别,对构建的假音检测模型中的假音表征模块和语音分类模块进行参数更新。
[0033]可选的,所述采用标注有语音类别的训练语音,对第一阶段训练后的假音检测模型进行第二阶段训练,包括:
[0034]将训练语音输入第一阶段训练后的假音检测模型的语音编码器,得到训练语音的
语音特征;
[0035]将训练语音的语音特征分别输入第一阶段训练后的假音检测模型的假音表征模块和说话人表征模块,得到训练语音对应的假音表征和说话人表征;
[0036]将训练语音对应的假音表征和说话人表征输入第一阶段训练后的假音检测模型的语音分类模块进行真音、假音的分类,得到训练语音对应的语音分类结果;
[0037]根据训练语音对应的语音分类结果以及训练语音标注的语音类别,对第一阶段训练后的假音检测模型中的所有模块进行参数更新。
[0038]一种假音检测模型获取方法,包括:
[0039]结合说话人分类任务,辅以语音编码器,对说话人表征模块进行训练,其中,所述语音编码器为通过预训练获得的语音预训练模型,所述说话人表征模块用于根据所述语音编码器的输出获取说话人表征;
[0040]构建假音检测模型,其中,所述假音检测模型包括所述语音编码器、训练得到的说话人表征模块、与所述训练得到的说话人表征模块共享所述语音编码器的输出的假音表征模块,以及根据所述说话人表征模块的输出和所述假音表征模块的输出进行语音分类的语音分类模块;
[0041]采用标注有语音类别的训练语音,对构建的假音检测模型进行训练,得到目标假音检测模型,其中,所述语音类别为真音、假音中的一种。
[0042]可选的,所述采用标注有语音类别的训练语音,对构建的假音检测模型进行训练,得到目标假音检测模型,包括:
[0043]采用标注有语音类别的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种假音检测方法,其特征在于,包括:获取目标语音;基于预先获得的目标假音检测模型,检测所述目标语音是否为假音;其中:所述目标假音检测模型采用标注有语音类别的训练语音对构建的假音检测模型训练得到,所述语音类别为真音、假音中的一种;构建的假音检测模型包括:语音编码器、根据所述语音编码器的输出获取说话人表征的说话人表征模块、根据所述语音编码器的输出获取假音表征的假音表征模块,以及根据所述说话人表征模块的输出和所述假音表征模块的输出进行语音分类的语音分类模块;所述说话人表征模块通过结合说话人分类任务,辅以所述语音编码器训练得到,所述语音编码器为通过预训练获得的语音预训练模型。2.根据权利要求1所述的假音检测方法,其特征在于,所述基于预先获得的目标假音检测模型,检测所述目标语音是否为假音,包括:将所述目标语音输入所述目标假音检测模型的语音编码器进行编码,得到所述目标语音的语音特征;将所述目标语音的语音特征分别输入所述目标假音检测模型的说话人表征模块和假音表征模块,得到所述目标语音对应的说话人表征和假音表征;将所述目标语音对应的说话人表征和假音表征输入所述目标假音检测模型的语音分类模块,得到所述目标语音对应的语音分类结果;根据所述目标语音对应的语音分类结果,确定所述目标语音是否为假音。3.根据权利要求1所述的假音检测方法,其特征在于,结合所述说话人分类任务,辅以所述语音编码器,训练说话人表征模块的过程包括:构建包括所述语音编码器、说话人表征模块和说话人分类模块的说话人分类模型;采用标注有说话人类别的训练语音,训练所述说话人分类模型,其中,训练所述说话人分类模型时,所述语音编码器的参数固定。4.根据权利要求3所述的假音检测方法,其特征在于,所述采用标注有说话人类别的训练语音,训练所述说话人分类模型,包括:将训练语音输入所述说话人分类模型的语音编码器进行编码,得到训练语音的语音特征;将训练语音的语音特征输入所述说话人分类模型的说话人表征模块,得到训练语音对应的说话人表征;将训练语音对应的说话人表征输入所述说话人分类模型的说话人分类模块,得到训练语音对应的说话人分类结果;根据训练语音对应的说话人分类结果和训练语音标注的说话人类别,对所述说话人分类模型中的说话人表征模块和说话人分类模块进行参数更新。5.根据权利要求1所述的假音检测方法,其特征在于,采用标注有语音类别的训练语音对构建的假音检测模型进行训练的过程包括:采用标注有语音类别的训练语音,对构建的假音检测模型进行第一阶段训练,其中,对构建的假音检测模型进行第一阶段训练时,假音检测模型中的语音编码器和说话人表征模块的参数固定;
采用标注有语音类别的训练语音,对第一阶段训练后的假音检测模型进行第二阶段训练,第二阶段训练后的假音检测模型作为目标假音检测模型,其中,对第一阶段训练后的假音检测模型进行第二阶段训练时,假音检测模型中各模块的参数均进行更新。6.根据权利要求5所述的假音检测方法,其特征在于,所述采用标注有语音类别的训练语音,对构建的假音检测模型进行第一阶段训练,包括:将训练语音输入构建的假音检测模型的语音编码器,得到训练语音的语音特征;将训练语音的语音特征分别输入构建的假音检测模型的假音表征模块和说话人表征模块,得到训练语音对应的假音表征和说话人表征;将训练语音对应的假音表征和说话人表征输入构建的假音检测模型的语音分类模块进行真音、假音的分类,得到训练语音对应的语音分类结果;根据训练语音对应的语音分类结果以及训练语音标注的语音类别,对构建的假音检测模型中的假音表征模块和语音分类模块进行参数更新。7.根据权利要求5所述的假音检测方法,其特征在于,所述采用标注有语音类别的训练语音,对第一阶段训练后的假音检测模型进行第二阶段训练,包括:将训练语音输入第一阶段训练后的假音检测模型的语音编码器,得到训练语音的语音...

【专利技术属性】
技术研发人员:唐海桃高天徐文渊陈艳姣方昕刘俊华刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1