场景声纹模型优化方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:42378226 阅读:27 留言:0更新日期:2024-08-16 15:03
本申请涉及人工智能领域,具体公开了一种场景声纹模型优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:构建多任务学习网络模型,其中,所述多任务学习网络模型包括:基础分类模型、第一输出层,第二输出层;仅对多任务学习网络模型中的一部分层的参数开放训练;从训练集中加载基础数据和场景数据,并对所述多任务学习网络模型进行迭代训练,判断多任务学习网络模型是否达到收敛条件,若是,则结束对多任务学习网络模型的训练,得到优化后的模型。从而可以大大节约模型的训练时间,并使得模型在特定场景上的识别效果得到优化,以及确保模型具备良好的鲁棒性与泛化能力。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种场景声纹模型优化方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、随着人工智能技术的发展,出现了声纹识别技术,这个技术正被广泛应用在各种加密或者解密场景中。主流的声纹识别模型一般采用resnet等深度神经网络,利用大量带有说话人标签的语料进行学习,通过不断训练使得模型可以准确提取对应说话人的声学或语言特征,从而完成说话人辨认、说话人确认、说话人日志等下游任务。

2、目前,在声纹识别任务中,对于特定场景的模型优化主要有两种方式:第一种是直接将场景数据与基础数据混合,重新对整个模型进行训练。第二种是对基础模型进行微调。然而,第一种方式耗时长,会浪费大量计算资源,且对场景数据识别的优化效果非常有限。第二种方式虽然一定程度上缩短了模型训练的时间,但是由于参与微调的只有场景数据,且相较于基础数据,场景数据的数据量较少。这会导致训练的模型在被应用于真实场景(尤其是与训练数据存在较大差异的场景)时,会出现识别效果不佳,鲁棒性低的问题。


技术实现思路b>

1本文档来自技高网...

【技术保护点】

1.一种场景声纹模型优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述构建多任务学习网络模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述仅对所述多任务学习网络模型中的一部分层的参数开放训练,包括:

4.根据权利要求1所述的方法,其特征在于,在从训练集中加载基础数据和场景数据之前,所述方法还包括:

5.根据权利要求1至4任意一项所述的方法,其特征在于,对所述多任务学习网络模型进行迭代训练,包括:

6.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:

7.一...

【技术特征摘要】

1.一种场景声纹模型优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述构建多任务学习网络模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述仅对所述多任务学习网络模型中的一部分层的参数开放训练,包括:

4.根据权利要求1所述的方法,其特征在于,在从训练集中加载基础数据和场景数据之前,所述方法还包括:

5.根据权利要求1至4任意一项所述的方法,其特征在于,对所述多任务学习网络模型进行迭代训练,包括:

6.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:

7.一种场景声纹模型优化装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述模型构建模块,具体用于:

9.根据权利要求7所述的装置,其...

【专利技术属性】
技术研发人员:徐雪萍
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1