【技术实现步骤摘要】
语言模型的训练方法、装置、电子设备及可读存储介质
涉及计算机
,具体涉及深度学习
和自然语言处理技术,尤其涉及一种语言模型的训练方法、装置、电子设备及可读存储介质。
技术介绍
在中文自然语言处理(NaturalLanguageProcessing,NLP)领域,使用大量的无监督文本进行语言模型自监督的预训练学习(pre-training),接着采用有监督的任务数据对语言模型进行参数精调(fine-tuning),是当前NLP领域中先进的语言模型训练技术。现有技术在语言模型的训练学习中,缺乏对语言模型在单句分类任务上的训练,使得语言模型缺乏单句分类能力,从而限制了语言模型对文本内容的识别效果。
技术实现思路
本申请的多个方面提供一种语言模型的训练方法、装置、电子设备及可读存储介质,用以实现语言模型对整段文本内容的分类,提升语言模型对文本内容的识别效果。根据第一方面,提供了一种语言模型的训练方法,包括:分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;将所述多段文本进行拼接,
【技术保护点】
1.一种语言模型的训练方法,包括:/n分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;/n将所述多段文本进行拼接,得到拼接文本;/n将所述拼接文本输入语言模型,经所述语言模型输出文章数量的预测值;/n基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件。/n
【技术特征摘要】
1.一种语言模型的训练方法,包括:
分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;
将所述多段文本进行拼接,得到拼接文本;
将所述拼接文本输入语言模型,经所述语言模型输出文章数量的预测值;
基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件。
2.根据权利要求1所述的方法,其中,所述分别从多篇文章中的每篇文章中采样一段文本,得到多段文本,包括:
从文章数据库中随时选取所述多篇文章;
随机从所述多篇文章中的每篇文章中采样一段连续的文本,所述一段连续的文本包括至少一个句子。
3.根据权利要求1所述的方法,其中,所述多段文本的字符数不大于预设字符数。
4.根据权利要求1所述的方法,其中,所述将所述多段文本进行拼接,得到拼接文本,包括:
将所述多段文本中的句子顺序打乱,并将顺序打乱后的句子进行拼接,得到拼接文本。
5.根据权利要求1-4中任一项所述的方法,其中,所述语言模型包括知识增强语义表示ERNIE模型;和/或,
所述方法还包括:
将所述多段文本中各句子的句子标识设置为统一预设标识;或者,
将所述拼接文本中各句子的句子标识设置为统一预设标识。
6.根据权利要求1-4中任一项所述的方法,其中,所述满足预设训练完成条件之后,还包括:
利用所述语言模型进行自然语言处理NLP任务,得到处理结果;
根据所述处理结果与所述处理结果对应的标注结果信息之间的差异,对所述语言模型中的参数值进行精调。
7.一种语言模型的训练装置,包括:
采样单元,用于分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;
拼接单元,用于将所述多段文本进行拼接,得到拼接文本;
语言模型,用于接收输入的所述拼接文本...
【专利技术属性】
技术研发人员:朱丹翔,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。