【技术实现步骤摘要】
一种多领域神经网络在垂直领域微调的优化方法及系统
本专利技术涉及机器翻译
,特别涉及一种多领域神经网络在垂直领域微调的优化方法及系统。
技术介绍
目前,垂直领域的数据往往数据量比较少,无法直接训练,现有的对于垂直领域效果优化大都使用微调(Fine-Tuning)的技术,Fine-Tuning即用垂直领域数据对基础领域模型进行微调,例如机器翻译任务中的使用经文领域数据对口语翻译模型进行Fine-Tuning来优化经文翻译,目前该方法是垂直领域效果优化的最有效的方法之一。这种方法的弊端在于,Fine-Tuning虽然能有效提升垂直领域的翻译效果,但是对于预训练模型本身的效果会有很大的影响,会导致基础领域效果的急剧下降,比如在机器翻译中,口语领域的模型作为基础领域模型来进行经文翻译任务的优化,虽然能提升经文翻译的效果,但口语领域翻译效果急剧下降;另外,使用多任务学习(Multi-TaskLearning)的方式对多个领域同时训练,虽然能缓解基础领域效果的急剧下降,但无法根本解决多个领域之间的相互影响。 ...
【技术保护点】
1.一种多领域神经网络在垂直领域微调的优化方法,其特征在于,所述方法执行以下步骤:/n步骤1:训练基础领域模型;/n步骤2:对所述基础领域模型进行裁剪,得到裁剪基础领域模型;/n步骤3:基于所述裁剪基础领域模型,生成所述裁剪基础领域模型中每一层对应的mask矩阵;/n步骤4:基于垂直领域数据和所述mask矩阵,对所述裁剪基础领域模型进行微调,得到具备垂直领域能力的多领域神经网络模型。/n
【技术特征摘要】
1.一种多领域神经网络在垂直领域微调的优化方法,其特征在于,所述方法执行以下步骤:
步骤1:训练基础领域模型;
步骤2:对所述基础领域模型进行裁剪,得到裁剪基础领域模型;
步骤3:基于所述裁剪基础领域模型,生成所述裁剪基础领域模型中每一层对应的mask矩阵;
步骤4:基于垂直领域数据和所述mask矩阵,对所述裁剪基础领域模型进行微调,得到具备垂直领域能力的多领域神经网络模型。
2.如权利要求1所述的方法,其特征在于,所述步骤1:训练基础领域模型包括:
对基础领域模型进行训练,以得到在基础领域效果上达到最优的基础领域模型。
3.如权利要求1所述的方法,其特征在于,所述步骤2:对所述基础领域模型进行裁剪,得到裁剪基础领域模型包括:
保留所述基础领域模型中的有用分支,去除所述基础领域模型中的无用分支,以得到所述裁剪基础领域模型。
4.如权利要求3所述的方法,其特征在于,所述步骤3:基于所述裁剪基础领域模型,生成所述裁剪基础领域模型中每一层对应的mask矩阵包括:
将所述裁剪基础领域模型中的有用分支的权值赋值为1,将所述裁剪基础领域模型中的无用分支的权值赋值为0,以得到所述裁剪基础领域模型中每一层对应的mask矩阵。
5.如权利要求4所述的方法,其特征在于,所述步骤4:基于垂直领域数据和所述mask矩阵,对所述裁剪基础领域模型进行微调,得到具备垂直领域能力的多领域神经网络模型执行以下步骤:
步骤S41:利用垂直领域数据对所述裁剪基础领域模型进行微调训练;
步骤S42:在微调训练的过程中加载所述mask矩阵;
步骤S43:根据所述mask矩阵,保持权值赋值为1的分支固定不变,对权值赋值为0的分支...
【专利技术属性】
技术研发人员:陈巍华,
申请(专利权)人:云知声智能科技股份有限公司,厦门云知芯智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。