【技术实现步骤摘要】
一种活体检测模型的训练方法、装置、设备及存储介质
[0001]本申请涉及语音识别
,更具体地,涉及一种活体检测模型的训练方法、装置、设备及存储介质。
技术介绍
[0002]随着语音信号处理技术的不断发展,利用说话人语音信号进行身份认证的系统在诸多行业得到了广泛的应用。在利用说话人语音信号进行身份认证存在较大的安全隐患,其中的安全隐患包括,利用合成语音冒充说话人语音。因此,如何鉴别合成语音和自然人声是消除安全隐患的关键。
[0003]基于此,通常使用预先训练的活体检测模型对待检测语音进行检测,鉴别待检测语音是否为真人发出的语音,而非是合成语音或回放录音。但是,在相关技术中的活体检测模型的泛化能力较差,进而导致语音鉴别的准确率较差。
技术实现思路
[0004]有鉴于此,本申请提出了一种活体检测模型的训练方法、装置、设备及存储介质。
[0005]第一方面,本申请实施例提供了一种活体检测模型的训练方法,所述活体检测模型包括第一神经网络以及第二神经网络,所述方法包括:获取用于模型训练的音频样本集, ...
【技术保护点】
【技术特征摘要】
1.一种活体检测模型的训练方法,其特征在于,所述活体检测模型包括第一神经网络以及第二神经网络,所述方法包括:获取用于模型训练的音频样本集,所述音频样本集包括标注有标签信息的音频样本,所述标签信息为活体标签或非活体标签;基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应的多种第一音频特征;将所述音频样本输入至所述第一神经网络进行特征提取,得到所述音频样本对应的第二音频特征;将所述音频样本对应的第二音频特征输入至所述第二神经网络,得到所述音频样本对应的识别结果,所述识别结果用于表征所述音频样本是否为真人发出的语音;基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述音频样本对应的识别结果、所述多种第一音频特征以及所述第二音频特征,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足预设条件,得到训练后的所述活体检测模型,包括:基于所述识别结果、所述标签信息、所述多种第一音频特征以及所述第二音频特征,获取总损失值;根据所述总损失值,对所述第一神经网络以及所述第二神经网络进行迭代训练,直至所述第一神经网络以及所述第二神经网络满足所述预设条件,得到训练后的所述活体检测模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述识别结果、所述标签信息、所述多种第一音频特征以及所述第二音频特征,获取总损失值,包括:根据所述识别结果与所述标签信息之间的差异,确定第一损失值;根据所述第二音频特征与所述多种第一音频特征中每种第一音频特征之间的差异,确定与所述每种第一音频特征对应的第二损失值,得到多个第二损失值;根据所述第一损失值以及所述多个第二损失值,确定所述总损失值。4.根据权利要求3所述的方法,其特征在于,所述音频样本集中包括多种应用场景下的音频样本,在所述根据所述第一损失值以及所述多个第二损失值,确定所述总损失值之前,所述方法还包括:获取与每种特征提取算法所匹配的应用场景的场景数量,得到所述每种特征提取算法的使用频次;基于所述每种特征提取算法的使用频次,确定在多种特征提取算法中所述每种特征提取算法的使用占比;基于所述每种特征提取算法的使用占比,确定所述多个第二损失值中每个第二损失值对应的权重;所述根据所述第一损失值以及所述多个第二损失值,确定所述总损失值,包括:根据所述每个第二损失值对应的权重,对所述多个第二损失值进行加权求和,得到第
三损失值;获取所述第三损失值与所述第一损失值的和值,作为所述总损失值。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述音频样本集中包括多种应用场景下的音频样本,所述基于多种特征提取算法中的每种特征提取算法,分别提取所述音频样本集中的音频样本的音频特征,得到所述音频样本对应...
【专利技术属性】
技术研发人员:李亚桐,朱颖珂,
申请(专利权)人:深圳市声扬科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。