预训练模型获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30095912 阅读:29 留言:0更新日期:2021-09-18 08:59
本公开提供了预训练模型获取方法、装置、电子设备及存储介质,涉及自然语言处理及深度学习等人工智能领域,其中的方法可包括:在利用训练语句对预训练模型进行训练的过程中,针对其中的自注意力模块,定义句法信息对应的学习目标;根据所定义的学习目标进行预训练模型的训练。应用本公开所述方案,可提升预训练模型的性能,并可减少对于计算资源的消耗等。并可减少对于计算资源的消耗等。并可减少对于计算资源的消耗等。

【技术实现步骤摘要】
预训练模型获取方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,特别涉及自然语言处理及深度学习等领域的预训练模型获取方法、装置、电子设备及存储介质。

技术介绍

[0002]基于大规模无结构文本数据训练得到的预训练模型,为下游任务带来了很大的效果提升。
[0003]目前,一些研究尝试使预训练模型学习到句法信息,以便在下游任务上进一步提升效果。比如,采用句法语言模型,预训练过程直接预测输出整颗句法树,但种方式需要耗费巨大的计算资源。

技术实现思路

[0004]本公开提供了预训练模型获取方法、装置、电子设备及存储介质。
[0005]一种预训练模型获取方法,包括:
[0006]在利用训练语句对预训练模型进行训练的过程中,针对其中的自注意力模块,加入句法信息对应的学习目标;
[0007]根据所述学习目标进行所述预训练模型的训练。
[0008]一种预训练模型获取装置,包括:第一训练模块以及第二训练模块;
[0009]所述第一训练模块,用于在利用训练语句对预训练模型进行训练本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种预训练模型获取方法,包括:在利用训练语句对预训练模型进行训练的过程中,针对其中的自注意力模块,加入句法信息对应的学习目标;根据所述学习目标进行所述预训练模型的训练。2.根据权利要求1所述的方法,其中,所述学习目标包括以下之一或全部:第一学习目标,第二学习目标。3.根据权利要求2所述的方法,其中,所述第一学习目标包括:针对所述训练语句中的任一词x,要求所述词x对应的第一权重大于第二权重;所述第一权重为在所述训练语句对应的依存树中与所述词x通过直接路径关联的任一词y与所述词x之间的注意力权重,所述第二权重为在所述依存树中与所述词x通过弱路径关联或无路径关联的任一词z与所述词x之间的注意力权重。4.根据权利要求3所述的方法,其中,所述通过直接路径关联包括:与所述词x在同一路径上,且位于所述词x的下游,与所述词x通过一条边直接相连,或者,与所述词x在同一路径上,且与所述词x通过一条边直接相连;所述通过弱路径关联包括:与所述词x在同一路径上,且位于所述词x的下游,与所述词x通过至少两条边间接相连,或者,与所述词x在同一路径上,且与所述词x通过至少两条边间接相连;所述无路径关联包括:与所述词x不在同一路径上。5.根据权利要求2所述的方法,其中,所述第二学习目标包括:对于所述训练语句对应的依存树中的任一子树,要求所述子树中的任一核心词对应的第一相似度大于第二相似度,且,要求所述子树对应的第三相似度大于第四相似度;所述核心词为所述子树中的非叶子节点对应的词;所述第一相似度为所述核心词与所述子树内的任一词的注意力分布之间的相似度,所述第二相似度为所述核心词与所述子树外的任一词的注意力分布之间的相似度,所述第三相似度为所述子树中位于左右两个边界处的叶子节点对应的词的注意力分布之间的相似度,所述第四相似度为所述子树内的任一词与所述子树外的任一词的注意力分布之间的相似度。6.根据权利要求1

5中任一项所述的方法,还包括:根据所述学习目标以及所述预训练模型的原有学习目标,进行所述预训练模型的训练。7.一种预训练模型获取装置,包括:第一训练模块以及第二训练模块;所述第一训练模块,用于在利用训练语句对预训练模型进行训练的过程中,针对其中的自注意力模块,加入句法信息对应的学习目标;所述第二训练模块,用于根据所述学习目标进行所述预训练模型的训练。8.根据权利要求7所述的装置,其中,所述学习目标包括以下之一或全部:第一学习目标,第二学习目标。9.根据...

【专利技术属性】
技术研发人员:王丽杰张帅肖欣延常月李婷婷
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1