【技术实现步骤摘要】
一种基于预训练语言模型的中文文本关键信息抽取方法
本专利技术涉及一种基于预训练语言模型的中文文本关键信息抽取方法,属于自然语言处理识别
技术介绍
文本关键信息抽取指根据具体业务的需求,对文本中指定的关键数据类型进行识别和抽取。主要包括对命名实体(NamedEntity)的识别和一些特定类型的数字串、字符串的识别。命名实体的识别问题可以使用基于深度学习的序列标注模型较好的解决,但无法同时解决其它数字串、字符串的识别需求。因为,数字串无法携带有效的语义信息,且多种数字串之间会相互干扰。现有效果较为出色的中文命名实体识别方法大都基于循环神经网络(RecurrentNeuralNetwork,RNN)的字标注模型,这种方法首先需要利用自然语言语料无监督地训练得到汉字的分布式表示,得到每个汉字在语义空间中的向量表示。然后,使用循环神经网络(RNN)或其变种长短时记忆网络(LSTM、GRU)等,对文本序列进行建模,抽取字与字、词与词之间的语义及语法特征表示。最后,对循环神经网络得到的特征提取结果,使用条件随机场(CRF)对序列中隐状态之间的转移规则做进一步约束,强化特征转移。训练得到一个基于字符的命名实体识别深度学习模型。但是,基于传统的word2vec方法学得的词表示,将每个单词的上下文信息限制在一个较小的固定大小的窗口内,无法学得全文单词之间的长距离依赖关系,只能将语义关系建模在一个小范围的上下文内。并且,传统的词嵌入(wordembedding)方法,将每个词保存为一条静态向量,即每个词只能占用一 ...
【技术保护点】
1.一种基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,包括如下步骤:/n步骤(1),对基于规则匹配方法进行识别的信息类别,编写相应的规则模板,并为每一个类别设置对应的标签名;/n步骤(2),基于任务文本环境,收集无标记的文本语料;/n步骤(3),对步骤(2)中收集的无标记的文本语料使用规则模板进行抽取,将数字串和字符串使用规则模板抽取出来,之后将文本语料中匹配的数字串、字符串在原文中的位置替换为其对应的类别标签;/n步骤(4),基于步骤(3)处理后的无标记文本语料,基于Transformer网络结构构建预训练语言模型,使用遮掩语言模型任务在收集到的文本语料上进行预训练;并在预训练语言模型网络的输入阶段,通过将文本分词的嵌入表示结合到输入中,在预训练语言模型中引入分词特征;/n步骤(5),基于任务文本环境收集文本语料数据集,构建命名实体识别数据集,采用BIO标注格式对该文本语料数据集中的命名实体类别进行标注,得到命名实体识别数据集;/n步骤(6),使用规则模板匹配,对步骤(5)中带标记的命名实体识别数据集使用规则模板匹配数字串、字符串,并将匹配的数字串在原文中的位置替换为其对 ...
【技术特征摘要】
1.一种基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,包括如下步骤:
步骤(1),对基于规则匹配方法进行识别的信息类别,编写相应的规则模板,并为每一个类别设置对应的标签名;
步骤(2),基于任务文本环境,收集无标记的文本语料;
步骤(3),对步骤(2)中收集的无标记的文本语料使用规则模板进行抽取,将数字串和字符串使用规则模板抽取出来,之后将文本语料中匹配的数字串、字符串在原文中的位置替换为其对应的类别标签;
步骤(4),基于步骤(3)处理后的无标记文本语料,基于Transformer网络结构构建预训练语言模型,使用遮掩语言模型任务在收集到的文本语料上进行预训练;并在预训练语言模型网络的输入阶段,通过将文本分词的嵌入表示结合到输入中,在预训练语言模型中引入分词特征;
步骤(5),基于任务文本环境收集文本语料数据集,构建命名实体识别数据集,采用BIO标注格式对该文本语料数据集中的命名实体类别进行标注,得到命名实体识别数据集;
步骤(6),使用规则模板匹配,对步骤(5)中带标记的命名实体识别数据集使用规则模板匹配数字串、字符串,并将匹配的数字串在原文中的位置替换为其对应的类别标签;
步骤(7),针对步骤(4)中得到的预训练语言模型,使用步骤(5)标注的命名实体识别数据集对其进行微调;
步骤(8),使用微调后的预训练语言模型对待预测文本数据进行识别抽取。
2.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述步骤(7)中的微调为:在已有的预训练语言模型参数上添加参数,然后基于命名实体识别数据集,使用小学习率对所有的参数进行训练,从而将预训练语言模型迁移到命名实体识别任务上去。
3.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述步骤(5)中收集的数据集,数据集规模为几千至几万条,并对其中的命名实体进行标注,该数据集是用作命名实体识别的训练数据。
4.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,遮掩语言模型为:随机遮掩住句子中的一部分字,然后通过该部分字的上下文表征进行预测被遮掩位置上的字;预训练文本语料中的每条文本数据,会有15%的字会被随机选中;在被选中的字中,有80%会被遮掩,即将需遮掩字替换为一个特殊标记[MASK];有10%会被随机替换为一个任意字符;剩余10%不进行任何操作;完成文本语料的遮掩之后,得到处理完成的预训练语言模型的训练数据。
5.根据权利要求4所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,对于处理好的预训练语言模型的训练数据,首先基于训练数据中的词频建立字符表,便于对训练数据进行处理,并按字符表的顺序对字符表里的字符编号;同时,字符表中也包含规则匹配类别的标签。
6.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述基于Transformer网络结构构建预训练语言模型,即构建基于Transformer网络结构的双向深度语言模型,整个网络由12个连续相同的网络层组成,每一层中有2个子层,分别是:多头注意力层...
【专利技术属性】
技术研发人员:俞扬,詹德川,周志华,李龙宇,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。