【技术实现步骤摘要】
预训练语言模型的训练方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,具体涉及自然语言处理和深度学习领域,尤其涉及一种预训练语言模型的训练方法、装置、电子设备及存储介质。
技术介绍
[0002]预训练模型可以在大规模的未标记语料上进行预训练,并能够学习通用的语言表示。这些表示可以用于其他任务,避免从头开始训练新模型,从而可以提高各项子任务模型训练的效率。近年来,使用预训练语言模型在多项NLP(Natural Language Processing,自然语言处理)任务上都获得了不错的提升。
[0003]目前,预训练语言模型大多使用通用场景下的语料训练得到的。但是地图是一种特别的领域,通用语料库构成的训练集与地图上的NLP任务并不直接相关,所以现有的预训练语言模型在应用到地图领域时,存在一定程度上的领域适应性问题,比如实际业务场景中部分需求理解歧义、业务模型调优效率低等问题。
技术实现思路
[0004]本公开提供了一种预训练语言模型的训练方法、装置、电子设备及存储介质。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种预训练语言模型的训练方法,包括:获取预训练样本;所述预训练样本中包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及所述预训练语料中的实体及实体类型的标注信息;将所述预训练样本之中至少部分实体进行掩码;根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习。2.根据权利要求1所述的方法,其中,所述根据经过掩码后的预训练样本,对预训练语言模型进行地理实体学习,包括:将所述经过掩码后的预训练样本输入至预训练语言模型,得到实体预测数据;其中,所述实体预测数据是所述预训练语言模型根据所述经过掩码后的预训练样本的上下文,及所述实体类型对被掩码实体的预测结果;根据所述实体预测数据与所述被掩码实体,对所述预训练语言模型进行地理实体学习。3.根据权利要求1所述的方法,其中,所述获取预训练样本,包括:根据地图检索日志和poi数据库,获取多个地图检索关键词和每个所述地图检索关键词的目标poi信息;针对每个所述地图检索关键词,将所述地图检索关键词与所述地图检索关键词的目标poi信息进行拼接,得到预训练语料;对所述预训练语料中的实体及实体类型进行识别,得到所述预训练语料中的实体与实体类型的标注信息,并将所述预训练语料和所述标注信息作为预训练样本。4.根据权利要求3所述的方法,其中,所述将所述预训练语料和所述标注信息作为预训练样本,包括:根据所述标注信息对所述预训练语料进行序列化处理,并将序列化处理结果作为预训练样本。5.根据权利要求1所述的方法,还包括:将所述预训练样本中的第一类实体进行字替换处理,得到处理后的预训练样本;其中,所述字替换处理包括形近字的替换,和/或,拼音相似的字的替换;根据所述处理后的预训练样本,对经过所述地理实体学习的预训练语言模型进行地理纠错学习。6.根据权利要求5所述的方法,还包括:根据地图检索日志,获取相关性训练样本;根据所述相关性训练样本,对经过所述地理纠错学习的预训练语言模型进行相关性学习。7.根据权利要求1至4中任一项所述的方法,还包括:根据地图检索日志,获取相关性训练样本;根据所述相关性训练样本,对经过所述地理实体学习的预训练语言模型进行相关性学习。8.一种预训练语言模型的训练装置,包括:第一获取模块,用于获取预训练样本;所述预训练样本中包括基于地图检索关键词与目标兴趣点poi信息的预训练语料,以及所述预训练语料中的实体及实体类型的标注信息;
掩码模块,用于将所述预训练样本之中至少部分实体进行掩码;第一训练模块,用于根据经过掩码后的预训练样本,对预训练语言...
【专利技术属性】
技术研发人员:卓安,黄际洲,王晓敏,鲁倪佳,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。