【技术实现步骤摘要】
文本处理模型训练方法及装置
[0001]本公开涉及机器学习
,尤其涉及一种文本处理模型训练方法及装置。
技术介绍
[0002]随着机器学习技术的发展,在文本处理领域出现了许多不同架构的网络模型和不同的训练方法。但是无论是基于哪一种架构的网络模型,以及基于哪一种训练方法对模型进行训练,相比于越来越高的需求,最终得到的文本处理模型的精度和泛化能力都是有待提高的。
技术实现思路
[0003]有鉴于此,本公开实施例提供了一种文本处理模型训练方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,文本处理模型的精度和泛化能力不能满足需求,有待进一步提高的问题。
[0004]本公开实施例的第一方面,提供了一种文本处理模型训练方法,包括:将N个长短期记忆网络串行连接,在每两个长短期记忆网络之间依次插入一个适配层和一个残差层,得到文本处理模型,其中,每个残差层用于将与该残差层连接的适配层的输入和输出相加,并将相加的结果输入到与该残差层连接的长短期记忆网络,总共插入N
‑
1个适配层和N />‑
1个本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本处理模型训练方法,其特征在于,包括:将N个长短期记忆网络串行连接,在每两个长短期记忆网络之间依次插入一个适配层和一个残差层,得到文本处理模型,其中,每个残差层用于将与该残差层连接的适配层的输入和输出相加,并将相加的结果输入到与该残差层连接的长短期记忆网络,总共插入N
‑
1个适配层和N
‑
1个残差层;设置所述文本处理模型中第一个适配层的学习率,并根据第一个适配层的学习率,通过指数衰减公式或者线性衰减公式计算并设置其它适配层的学习率;获取训练数据集,利用所述训练数据集对所述文本处理模型进行基于文本处理任务的训练。2.根据权利要求1所述的方法,其特征在于,根据第一个适配层的学习率,通过线性衰减公式计算其它适配层的学习率:;其中,i为所述文本处理模型中适配层的序号,1≤i≤N
‑
1,L1为所述文本处理模型中第一个适配层的学习率,Li为所述文本处理模型中第i个适配层的学习率,K为预设常数,。3.根据权利要求1所述的方法,其特征在于,根据第一个适配层的学习率,通过指数衰减公式计算并设置其它适配层的学习率:;其中,i为所述文本处理模型中适配层的序号,1≤i≤N
‑
1,L1为所述文本处理模型中第一个适配层的学习率,Li为所述文本处理模型中第i个适配层的学习率,e为自然常数。4.根据权利要求1所述的方法,其特征在于,利用所述训练数据集对所述文本处理模型进行基于文本处理任务的训练,包括:在所述文本处理模型中,冻结所有长短期记忆网络的网络参数,基于所述文本处理任务,利用所述训练数据集对所有适配层的网络参数进行优化。5.根据权利要求1所述的方法,其特征在于,利用所述训练数据集对所述文本处理模型进行基于文本处理任务的训练,包括:按照预设比例将所述训练数据集划分为第一训练数据集、第二训练数据集和第三训练数据集,对所述文本处理模型进行多阶段训练:对所述文本处理模型的第一阶段训练:冻结所有长短期记忆网络的网络参数,基于所述文本处理任务,利用所述第一训练数据集优化所有适配层的网络参数;对所述文本处理模型的第二阶段训练:冻结所有适配层的网络参数,基于所述文本处理任务,利用所述第二训练数据集优化所有长短期记忆网络的网络参数;对所述文本处理模型的第三阶段训练:利用所述第三训练数据集优化所有适配层的网络参数以及所有长短...
【专利技术属性】
技术研发人员:吴亚军,暴宇健,汪骞,
申请(专利权)人:深圳须弥云图空间科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。