【技术实现步骤摘要】
语言任务模型训练方法、装置、电子设备及存储介质
本专利技术涉及人工智能技术,尤其涉及一种基于人工智能的语言任务模型训练方法、装置、电子设备及存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。相关技术中各种大规模预训练语言模型,虽然有很强的语境表征能力,但是它们对很多特定任务的接口并不丰富,例如,语言模型对阅读理解任务的应用方式只是简单地把问题和文章拼接在一起来进行训练,这种训练方式的缺点在于语言模型对特定数据集中的高级特征(如领域特定的知识、阅读理解中问题和文章的交互)的学习并不到位。
技术实现思路
本专利技术实施例提供一种基于人工智能的语言任务模型训练方法、装置、电子设备及存储介质,能够防止语言模型的灾难性遗忘现象,同时保证语言模型和任务模型均能达到符合对应学习率的训练效果。本专利技术实施例的技术方案是这样实现的 ...
【技术保护点】
1.一种基于人工智能的语言任务模型训练方法,其特征在于,/n所述语言任务模型包括语言模型和任务模型;/n所述方法包括:/n基于预训练样本集合中对应语言任务的语料样本,在所述语言模型中进行分层预训练;/n将训练样本集合中对应语言任务的语料样本,在所述语言任务模型中进行正向传播;/n固定所述语言模型的参数,在所述语言任务模型中进行反向传播,以更新所述任务模型的参数;/n将所述训练样本集合中对应所述语言任务的语料样本,在所述语言任务模型中进行正向传播和反向传播,以更新所述语言模型和所述任务模型的参数。/n
【技术特征摘要】
1.一种基于人工智能的语言任务模型训练方法,其特征在于,
所述语言任务模型包括语言模型和任务模型;
所述方法包括:
基于预训练样本集合中对应语言任务的语料样本,在所述语言模型中进行分层预训练;
将训练样本集合中对应语言任务的语料样本,在所述语言任务模型中进行正向传播;
固定所述语言模型的参数,在所述语言任务模型中进行反向传播,以更新所述任务模型的参数;
将所述训练样本集合中对应所述语言任务的语料样本,在所述语言任务模型中进行正向传播和反向传播,以更新所述语言模型和所述任务模型的参数。
2.根据权利要求1所述的方法,其特征在于,在基于预训练样本集合中对应语言任务的语料样本,在所述语言模型中进行分层预训练之前,所述方法还包括:
对所述语言任务的预标记的语料样本执行以下处理中的任意一种:
从所述语料样本中随机抽取至少一个待替换词,并从同义词词典中随机抽取对应所述至少一个待替换词的同义词,以进行替换处理;
从所述语料样本中随机抽取一个待替换词,并从所述同义词词典中随机抽取对应所述待替换词的同义词,以插入到所述语料样本中的任意位置;
从所述语料样本中随机选择两个待交换词,并交换两个所述待交换词的位置;
对所述语料样本中的每个词执行随机删除处理;
将所述语料样本以及经过处理得到的语料样本,组合为训练样本集合;
从所述训练样本集合中采样多个语料样本,以组成预训练样本集合;
其中,所述预训练样本集合中语料样本的数目超过预训练样本数目阈值。
3.根据权利要求1所述的方法,其特征在于,所述基于预训练样本集合中对应语言任务的语料样本,在所述语言模型中进行分层预训练,包括:
初始化所述语言模型,并初始化包括所述语料样本以及对应所述语料样本的预测类别的语言模型损失函数;
对所述语言模型进行划分处理,得到多个子语言模型;
其中,多个所述子语言模型中的每个子语言模型包括至少一个特征提取层;
基于所述预训练样本集合,对多个所述子语言模型进行分层预训练。
4.根据权利要求3所述的方法,其特征在于,所述对多个所述子语言模型进行分层预训练,包括:
对所述语言模型进行第k层次训练,以更新所述语言模型中与输出侧距离最近的k个子语言模型,且在更新过程中固定所述语言模型中其他子语言模型的参数不变;
其中,k为大于或者等于2的整数,所述其他子语言模型为所述语言模型中除了与输出侧距离最近的k个子语言模型之外的子语言模型;
当第k层次训练的迭代次数达到对应的迭代次数阈值时,继续对所述语言模型进行第k+1层次训练,以更新所述语言模型中与输出侧距离最近的k+1个子语言模型,且在更新过程中固定所述语言模型中其他子语言模型的参数不变;
当所述语言模型中的每个子语言模型均被更新过,且参与迭代次数最少的子语言模型所经历的迭代次数达到对应的迭代次数阈值时,确定多个所述子语言模型分层预训练完成。
5.根据权利要求4所述的方法,其特征在于,所述对所述语言模型进行第k+1层次训练,以更新所述语言模型中与输出侧距离最近的k+1个子语言模型,包括:
在所述语言模型的第k+1层次训练中每次迭代训练过程中执行以下处理:
通过所述语言模型,对所述预训练样本集合包括的语料样本进行分类处理,得到对应所述语料样本的预测类别;
确定所述语料样本的所述预测类别和预标记的真实类别之间的误差,并将所述误差代入所述语言模型损失函数,以在所述语言模型中进行反向传播,以确定当所述语言模型损失函数取得最小值时,对应所述语言模型中与输出侧距离最近的k+1个子语言模型的参数变化值;
根据所确定的参数变化值更新所述语言模型中与输出侧距离最近的k+1个子语言模型。
6.根据权利要求1所述的方法,其特征在于,所述将训练样本集合中对应语言任务的语料样本,在所述语言任务模型中进行正向传播,包括:
初始化所述语言任务模型,并执行以下处理:
将每个所述语料样本在所述语言任务模型的各个层中进行正向传播,以对所述训练样本集合包括的语料样本进行分类处理,得到对应所述语料样本的预测类别;
所述固定所述语言模型的参数,在所述语言任务模型中进行反向传播,以更新所述任务模型的参数,包括:
初始化包括所述语料样本以及对应所述语料样本的预测类别的语言任务模型损失函数;
固定所述语言模型的参数,并执行以下处理:
确定所述语料样本的预测类别和预标记的真实类别之间的误差,并将所述误差代入所述语言任务模型损失函数,以在所述语言任务模型中进行反向传播,以
基于任务模型学习率确定所述语言任务模型损失函数取得最小值时所述任务模型的参数变化值,并基于所述参数变化值更新所述任务模型的参数。
7.根据权利要求6所述的方法,其特征在于,所述将每个所述语料样本在所述语言任务模型的各个层中进行正向传播,以对所述训练样本集合包括的语料样本进行分类处理,得到对应所述语料样本的预测类别,包括:
通过所述语言模型的各特征提取层,分别提取表征所述语料样本的不同维度的子语义特征;
结合对应各特征提取层中的权重,对所述各特征提取层所提取的子语义特征进行加权处理,得到用于对所述语料样本进行分类的语义特征;
通过所述任务模型的卷积层,对所述语义特征进行任务语义提取处理,得到对应所述语言任务的任务语义特征;
结合对应所述语料样本的任务语义特征对所述语料样本进行分类处理,得到所述语料样本分别属于不同类别的概率,并将最大概率所对应的类别确定为所述语料样本的预测类别。
8.根据权利要求6所述的方法,其特征在于,所述基于任务模型学习率确定所述语言任务模型损失函数取得最小值时所述任务模型的参数变化值,并基于所述参数变化值更新所述任务模型的参数,包括:
确定所述语言任务模型的输出层的各个神经元的输出梯度项以及所述任...
【专利技术属性】
技术研发人员:邱耀,张金超,周杰,牛成,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。