预训练语言模型的训练方法、装置、设备和介质制造方法及图纸

技术编号:37307572 阅读:20 留言:0更新日期:2023-04-21 22:51
本公开提供了一种预训练语言模型的训练方法、装置、设备和介质,涉及人工智能领域,具体涉及自然语言处理、深度学习技术。该方法包括:获取面向第一语言的第一预训练语言模型;以及利用第一语言的训练任务和不同于第一语言的第二语言的训练任务共同对第一预训练语言模型进行训练,以得到面向第二语言的第二预训练语言模型。训练语言模型。训练语言模型。

【技术实现步骤摘要】
预训练语言模型的训练方法、装置、设备和介质


[0001]本公开涉及人工智能领域,具体涉及自然语言处理、深度学习技术,特别涉及一种预训练语言模型的训练方法、预训练语言模型的训练装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]近年来随着自然语言处理技术的不断发展,基于Transformer架构的预训练语言模型已逐渐成为了经典的框架。为了进一步追求通用人工智能的发展,大规模预训练模型开始受到研究者们的关注,在自然语言处理领域,涌现了如ERNIE 3.0、GPT

3、智源、OPT等一批优化的大规模预训练语言模型,不断刷新着预训练语言模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的训练方法,包括:获取面向第一语言的第一预训练语言模型;以及利用所述第一语言的训练任务和不同于所述第一语言的第二语言的训练任务共同对所述第一预训练语言模型进行训练,以得到面向所述第二语言的第二预训练语言模型。2.根据权利要求1所述的方法,其中,利用所述第一语言的训练任务和不同于所述第一语言的第二语言的训练任务共同对所述第一预训练语言模型进行训练包括:响应于确定预设中止条件未满足,基于热气(warm up)策略设置的学习率利用所述第一语言的训练任务和所述第二语言的训练任务共同对所述第一预训练语言模型进行至少一轮训练,以得到第一中间模型;以及至少利用所述第二语言的训练任务对所述第一中间模型进行训练,以得到所述第二预训练语言模型。3.根据权利要求1所述的方法,其中,利用所述第一语言的训练任务和不同于所述第一语言的第二语言的训练任务共同对所述第一预训练语言模型进行训练包括:响应于确定预设中止条件未满足,以不大于第一预设值的学习率利用所述第一语言的训练任务和所述第二语言的训练任务共同对所述第一预训练语言模型进行至少一轮训练,以得到第二中间模型;以及至少利用所述第二语言的训练任务对所述第二中间模型进行训练,以得到所述第二预训练语言模型。4.根据权利要求3所述的方法,其中,所述预设中止条件包括以下多项中的至少一者:当前训练轮次的训练步数达到第二预设值;以及当前训练轮次后得到的模型针对所述第二语言的训练任务的损失值小于第三预设值。5.根据权利要求1所述的方法,其中,利用所述第一语言的训练任务和所述第二语言的训练任务共同对所述第一预训练语言模型进行多轮训练,并且在所述多轮训练中逐步增加所述第二语言的训练任务与所述第一语言的训练任务的比值。6.根据权利要求5所述的方法,其中,针对所述多轮训练中的每一训练轮次,用于该训练轮次的所述第二语言的训练任务与所述第一语言的训练任务的比值是基于预设基础比值、该训练轮次的训练步数、总训练步数、以及预设增长速度确定的。7.根据权利要求1所述的方法,其中,所述第一语言的训练任务和所述第二语言的训练任务均为预训练任务。8.一种预训练语言模型的训练装置,包括:获取单元,被配置为获取面向第一语言的第一预训练语言模型;以及训练单元,被配置为利用所述第一语言的训练任务和不同于所述第一语言的第二语言的训练任务共同对所述第一预训练语言模型进行训练,以得到面向所述第二语言的第二预训练语言模型。9.根...

【专利技术属性】
技术研发人员:丁思宇赵晏彬王硕寰孙宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1