语言模型的训练方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:26172202 阅读:16 留言:0更新日期:2020-10-31 13:48
本申请公开了一种语言模型的训练方法、装置、电子设备及可读存储介质,涉及深度学习技术领域和自然语言处理技术领域。具体实现方案为:获取原始输入文本的切词信息;对所述原始输入文本中的每个字标注切字信息和切词信息,得到输入文本样本;将所述输入文本样本输入语言模型,以对所述语言模型进行训练。由于引入了更大粒度语义信息表示,增强了语言模型对词义信息的学习能力,提升了语言模型的性能,并且不会降低语言模型的通用性,对于下游序列标注任务更加友好。

【技术实现步骤摘要】
语言模型的训练方法、装置、电子设备及可读存储介质
涉及计算机
,具体涉及深度学习
和自然语言处理技术,尤其涉及一种语言模型的训练方法、装置、电子设备及可读存储介质。
技术介绍
在中文自然语言处理(NaturalLanguageProcessing,NLP)领域,使用大量的无监督文本进行语言模型自监督的预训练学习(pre-training),接着采用有监督的任务数据对语言模型进行参数精调(fine-tuning),是当前NLP领域中先进的语言模型训练技术。现有技术在语言模型自监督的预训练学习中,为了不使语言模型的训练效果受到分词器性能的影响,都是基于字粒度进行语言模型的自监督预训练学习,从而使得语言模型很难学出更大语义粒度(例如词)的信息,而词的语义在中文语言表达中非常重要,基于字粒度的学习可能会破坏语言模型对词本身语义的学习,从而影响语言模型的性能。
技术实现思路
本申请的多个方面提供一种语言模型的训练方法、装置、电子设备及可读存储介质,用以增强语言模型对词义信息的学习能力,提升语言模型的性能。>根据第一方面,提供本文档来自技高网...

【技术保护点】
1.一种语言模型的训练方法,包括:/n获取原始输入文本的切词信息;/n对所述原始输入文本中的每个字标注切字信息和切词信息,得到输入文本样本;/n将所述输入文本样本输入语言模型,以对所述语言模型进行训练。/n

【技术特征摘要】
1.一种语言模型的训练方法,包括:
获取原始输入文本的切词信息;
对所述原始输入文本中的每个字标注切字信息和切词信息,得到输入文本样本;
将所述输入文本样本输入语言模型,以对所述语言模型进行训练。


2.根据权利要求1所述的方法,其中,所述获取原始输入文本的切词信息,包括:
对所述原始输入文本进行分词,得到至少一个词;所述至少一个词中的每个词包括至少一个字符;
根据所述至少一个词中的每个字符是否为所在词中的首字符,确定每个字符是否首字符的标记信息;所述原始输入文本的切词信息包括:所述至少一个词中的每个字符是否首字符的标记信息。


3.根据权利要求1所述的方法,其中,所述原始输入文本包括至少一个句子;
所述对所述原始输入文本中的每个字标注切字信息和切词信息,得到输入文本样本,包括:
对所述原始输入文本中的每个字标注切字信息和切词信息,并对所述原始输入文本中的每个句子标注句子标识,得到输入文本样本。


4.根据权利要求1所述的方法,其中,所述语言模型包括知识增强语义表示ERNIE模型。


5.根据权利要求1-4中任一项所述的方法,其中,所述将所述输入文本样本输入语言模型,以对语言模型进行训练之后,还包括:
利用训练好的语言模型进行自然语言处理任务,得到处理结果;
根据所述处理结果与所述处理结果对应的标注结果信息之间的差异,对所述语言模型中的参数值进行精调。


6.根据权利要求5所述的方法,其中,所述利用训练好的语言模型进行自然语言处理任务,包括:
利用训练好的语言模型对待处理文本进行分类;和/或,
利用训练好的语言模型对所述待处理文本与其他文本进行匹配;和/或,
利用训练好的语言模型对所述待处理文本中的内容进行标注;和/或,
利用训练好的语言模型预测所述待处理文本中句子之间的顺序;和/或,
利用训练好的语言模型预测所述待处理文本中句子之间的语义距离;和/或,
利用训练好的语言模型预测所述待处理文本中句子之间的逻辑关系。


7.一种语言模型的训练装置,包括:
获取单元,用于获取原始输入文本的切词信息;
标注单元,用于对所述原始...

【专利技术属性】
技术研发人员:朱丹翔
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1