语言模型的训练方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：26172202 阅读：16 留言：0更新日期：2020-10-31 13:48

本申请公开了一种语言模型的训练方法、装置、电子设备及可读存储介质，涉及深度学习技术领域和自然语言处理技术领域。具体实现方案为：获取原始输入文本的切词信息；对所述原始输入文本中的每个字标注切字信息和切词信息，得到输入文本样本；将所述输入文本样本输入语言模型，以对所述语言模型进行训练。由于引入了更大粒度语义信息表示，增强了语言模型对词义信息的学习能力，提升了语言模型的性能，并且不会降低语言模型的通用性，对于下游序列标注任务更加友好。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型的训练方法、装置、电子设备及可读存储介质
涉及计算机
，具体涉及深度学习
和自然语言处理技术，尤其涉及一种语言模型的训练方法、装置、电子设备及可读存储介质。
技术介绍
在中文自然语言处理(NaturalLanguageProcessing，NLP)领域，使用大量的无监督文本进行语言模型自监督的预训练学习(pre-training)，接着采用有监督的任务数据对语言模型进行参数精调(fine-tuning)，是当前NLP领域中先进的语言模型训练技术。现有技术在语言模型自监督的预训练学习中，为了不使语言模型的训练效果受到分词器性能的影响，都是基于字粒度进行语言模型的自监督预训练学习，从而使得语言模型很难学出更大语义粒度(例如词)的信息，而词的语义在中文语言表达中非常重要，基于字粒度的学习可能会破坏语言模型对词本身语义的学习，从而影响语言模型的性能。
技术实现思路
本申请的多个方面提供一种语言模型的训练方法、装置、电子设备及可读存储介质，用以增强语言模型对词义信息的学习能力，提升语言模型的性能。>根据第一方面，提供本文档来自技高网...

【技术保护点】
1.一种语言模型的训练方法，包括：/n获取原始输入文本的切词信息；/n对所述原始输入文本中的每个字标注切字信息和切词信息，得到输入文本样本；/n将所述输入文本样本输入语言模型，以对所述语言模型进行训练。/n

【技术特征摘要】
1.一种语言模型的训练方法，包括：
获取原始输入文本的切词信息；
对所述原始输入文本中的每个字标注切字信息和切词信息，得到输入文本样本；
将所述输入文本样本输入语言模型，以对所述语言模型进行训练。

2.根据权利要求1所述的方法，其中，所述获取原始输入文本的切词信息，包括：
对所述原始输入文本进行分词，得到至少一个词；所述至少一个词中的每个词包括至少一个字符；
根据所述至少一个词中的每个字符是否为所在词中的首字符，确定每个字符是否首字符的标记信息；所述原始输入文本的切词信息包括：所述至少一个词中的每个字符是否首字符的标记信息。

3.根据权利要求1所述的方法，其中，所述原始输入文本包括至少一个句子；
所述对所述原始输入文本中的每个字标注切字信息和切词信息，得到输入文本样本，包括：
对所述原始输入文本中的每个字标注切字信息和切词信息，并对所述原始输入文本中的每个句子标注句子标识，得到输入文本样本。

4.根据权利要求1所述的方法，其中，所述语言模型包括知识增强语义表示ERNIE模型。

5.根据权利要求1-4中任一项所述的方法，其中，所述将所述输入文本样本输入语言模型，以对语言模型进行训练之后，还包括：
利用训练好的语言模型进行自然语言处理任务，得到处理结果；
根据所述处理结果与所述处理结果对应的标注结果信息之间的差异，对所述语言模型中的参数值进行精调。

6.根据权利要求5所述的方法，其中，所述利用训练好的语言模型进行自然语言处理任务，包括：
利用训练好的语言模型对待处理文本进行分类；和/或，
利用训练好的语言模型对所述待处理文本与其他文本进行匹配；和/或，
利用训练好的语言模型对所述待处理文本中的内容进行标注；和/或，
利用训练好的语言模型预测所述待处理文本中句子之间的顺序；和/或，
利用训练好的语言模型预测所述待处理文本中句子之间的语义距离；和/或，
利用训练好的语言模型预测所述待处理文本中句子之间的逻辑关系。

7.一种语言模型的训练装置，包括：
获取单元，用于获取原始输入文本的切词信息；
标注单元，用于对所述原始...

【专利技术属性】
技术研发人员：朱丹翔，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人