一种多领域神经网络在垂直领域微调的优化方法及系统技术方案

技术编号:26792152 阅读:22 留言:0更新日期:2020-12-22 17:07
本发明专利技术提供了一种多领域神经网络在垂直领域微调的优化方法及系统,所述方法执行以下步骤:训练基础领域模型;对所述基础领域模型进行裁剪,得到裁剪基础领域模型;基于裁剪基础领域模型,生成裁剪基础领域模型中每一层对应的mask矩阵;基于垂直领域数据和所述mask矩阵,对裁剪基础领域模型进行微调,得到具备垂直领域能力的多领域神经网络模型。根据本发明专利技术的方法,使用垂直领域数据和mask矩阵来微调裁剪基础网络中的无用分支,作为一种增量学习的方式,能够提升垂直领域的效果,这样最终得到的多领域模型具备基础领域模型的全部性能,同时具备处理垂直领域的能力,因此可以解决多领域神经网络在垂直领域微调后,在基础领域效果急剧下降的问题。

【技术实现步骤摘要】
一种多领域神经网络在垂直领域微调的优化方法及系统
本专利技术涉及机器翻译
,特别涉及一种多领域神经网络在垂直领域微调的优化方法及系统。
技术介绍
目前,垂直领域的数据往往数据量比较少,无法直接训练,现有的对于垂直领域效果优化大都使用微调(Fine-Tuning)的技术,Fine-Tuning即用垂直领域数据对基础领域模型进行微调,例如机器翻译任务中的使用经文领域数据对口语翻译模型进行Fine-Tuning来优化经文翻译,目前该方法是垂直领域效果优化的最有效的方法之一。这种方法的弊端在于,Fine-Tuning虽然能有效提升垂直领域的翻译效果,但是对于预训练模型本身的效果会有很大的影响,会导致基础领域效果的急剧下降,比如在机器翻译中,口语领域的模型作为基础领域模型来进行经文翻译任务的优化,虽然能提升经文翻译的效果,但口语领域翻译效果急剧下降;另外,使用多任务学习(Multi-TaskLearning)的方式对多个领域同时训练,虽然能缓解基础领域效果的急剧下降,但无法根本解决多个领域之间的相互影响。
技术实现思路
本文档来自技高网
...

【技术保护点】
1.一种多领域神经网络在垂直领域微调的优化方法,其特征在于,所述方法执行以下步骤:/n步骤1:训练基础领域模型;/n步骤2:对所述基础领域模型进行裁剪,得到裁剪基础领域模型;/n步骤3:基于所述裁剪基础领域模型,生成所述裁剪基础领域模型中每一层对应的mask矩阵;/n步骤4:基于垂直领域数据和所述mask矩阵,对所述裁剪基础领域模型进行微调,得到具备垂直领域能力的多领域神经网络模型。/n

【技术特征摘要】
1.一种多领域神经网络在垂直领域微调的优化方法,其特征在于,所述方法执行以下步骤:
步骤1:训练基础领域模型;
步骤2:对所述基础领域模型进行裁剪,得到裁剪基础领域模型;
步骤3:基于所述裁剪基础领域模型,生成所述裁剪基础领域模型中每一层对应的mask矩阵;
步骤4:基于垂直领域数据和所述mask矩阵,对所述裁剪基础领域模型进行微调,得到具备垂直领域能力的多领域神经网络模型。


2.如权利要求1所述的方法,其特征在于,所述步骤1:训练基础领域模型包括:
对基础领域模型进行训练,以得到在基础领域效果上达到最优的基础领域模型。


3.如权利要求1所述的方法,其特征在于,所述步骤2:对所述基础领域模型进行裁剪,得到裁剪基础领域模型包括:
保留所述基础领域模型中的有用分支,去除所述基础领域模型中的无用分支,以得到所述裁剪基础领域模型。


4.如权利要求3所述的方法,其特征在于,所述步骤3:基于所述裁剪基础领域模型,生成所述裁剪基础领域模型中每一层对应的mask矩阵包括:
将所述裁剪基础领域模型中的有用分支的权值赋值为1,将所述裁剪基础领域模型中的无用分支的权值赋值为0,以得到所述裁剪基础领域模型中每一层对应的mask矩阵。


5.如权利要求4所述的方法,其特征在于,所述步骤4:基于垂直领域数据和所述mask矩阵,对所述裁剪基础领域模型进行微调,得到具备垂直领域能力的多领域神经网络模型执行以下步骤:
步骤S41:利用垂直领域数据对所述裁剪基础领域模型进行微调训练;
步骤S42:在微调训练的过程中加载所述mask矩阵;
步骤S43:根据所述mask矩阵,保持权值赋值为1的分支固定不变,对权值赋值为0的分支...

【专利技术属性】
技术研发人员:陈巍华
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1