当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于预训练语言模型的中文文本关键信息抽取方法技术

技术编号:24996903 阅读:36 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开了一种基于预训练语言模型的中文文本关键信息抽取方法,具体步骤如下:(1)将待抽取的关键信息进行分类,易于归纳组成规则的信息类别,使用正则匹配的方法抽取。(2)对命名实体使用序列标注模型抽取。(3)序列标注模型采用对预训练语言模型微调的方法进行构建,首先使用大规模无标记文本语料学习得到预训练语言模型,并在预训练阶段引入词边界特征。(4)将使用规则匹配的数据内容替换为其对应的规则模板标签,以完成规则匹配与深度网络的融合。(5)根据有标记的训练数据,在预训练语言模型上进行微调,将其迁移到命名实体的序列标注任务上。本发明专利技术可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类。

【技术实现步骤摘要】
一种基于预训练语言模型的中文文本关键信息抽取方法
本专利技术涉及一种基于预训练语言模型的中文文本关键信息抽取方法,属于自然语言处理识别

技术介绍
文本关键信息抽取指根据具体业务的需求,对文本中指定的关键数据类型进行识别和抽取。主要包括对命名实体(NamedEntity)的识别和一些特定类型的数字串、字符串的识别。命名实体的识别问题可以使用基于深度学习的序列标注模型较好的解决,但无法同时解决其它数字串、字符串的识别需求。因为,数字串无法携带有效的语义信息,且多种数字串之间会相互干扰。现有效果较为出色的中文命名实体识别方法大都基于循环神经网络(RecurrentNeuralNetwork,RNN)的字标注模型,这种方法首先需要利用自然语言语料无监督地训练得到汉字的分布式表示,得到每个汉字在语义空间中的向量表示。然后,使用循环神经网络(RNN)或其变种长短时记忆网络(LSTM、GRU)等,对文本序列进行建模,抽取字与字、词与词之间的语义及语法特征表示。最后,对循环神经网络得到的特征提取结果,使用条件随机场(CRF)对序列中隐状态之间的转移规则做进一步约束,强化特征转移。训练得到一个基于字符的命名实体识别深度学习模型。但是,基于传统的word2vec方法学得的词表示,将每个单词的上下文信息限制在一个较小的固定大小的窗口内,无法学得全文单词之间的长距离依赖关系,只能将语义关系建模在一个小范围的上下文内。并且,传统的词嵌入(wordembedding)方法,将每个词保存为一条静态向量,即每个词只能占用一个语义空间中的位置,此时不同上下文的信息都会被编码到同一个参数空间中,导致传统词嵌入无法解决多义词问题。因为多义词的现象在实际应用场景中十分常见,必须动态地根据上下文环境的变化,给出不同的语义表示。例如:一名叫做武汉市的男子给儿子取名为武昌。显然在这里的语境中,“武汉市”与“武昌”不再是地名实体,而变为了人名实体。而且,基于字符的中文命名实体识别模型,完全摒弃了中文词边界特征,命名实体的边界一般也是词边界。完全基于字符的模型,丧失了中文词边界内蕴含的语义信息。不利于中文文本的语义表示,进而影响命名实体识别的准确率。
技术实现思路
专利技术目的:针对传统方法中无法解决一词多义以及词边界信息缺失等问题,本专利技术提出了一种基于预训练语言模型的关键信息抽取方法。基于现有序列标注方法进行的改进优化,更好地获得对中文文本的语义表示,以此强化深度学习模型的表达能力,进而更好地为中文命名实体识别任务服务。本专利技术深度融合规则匹配与深度模型,可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类,取得很好的识别效果。在内部数据集上的F1值超过传统基于BiLSTM-CRF的命名实体识别方法2个多百分点。技术方案:一种基于预训练语言模型的中文文本关键信息抽取方法,包括如下步骤:步骤(1):将待抽取的中文文本关键信息分类进行识别,对命名实体类别使用深度学习模型进行识别;对可以归纳组成规则的信息类别(如数字串和字符串),使用正则匹配的方法识别。对基于规则匹配方法进行识别的信息类别,归纳出其内部组成结构,编写相应的规则模板,并为每一个类别设置对应的标签名;步骤(2):基于任务文本环境,收集大规模无标记的文本语料;步骤(3):对步骤(2)中收集的无标记的文本语料使用规则模板进行抽取,将数字串和字符串等内容先使用规则模板抽取出来,之后并将文本语料中匹配的数字串、字符串在原文中的位置替换为其对应的类别标签;步骤(4):基于步骤(3)处理后的无标记文本语料,基于Transformer网络结构构建预训练语言模型,使用遮掩语言模型任务在收集到的文本语料上进行预训练。并在预训练语言模型网络的输入阶段,通过将文本分词的嵌入表示结合到输入中,在预训练语言模型中引入分词特征;步骤(5):基于任务文本环境收集文本语料数据集,构建命名实体识别数据集,采用BIO标注格式对该文本语料数据集中的命名实体类别进行标注,得到命名实体识别数据集;步骤(6):类似于步骤(3)使用规则模板匹配,对步骤(5)中带标记的命名实体识别数据集使用规则模板匹配数字串、字符串,并将匹配的数字串在原文中的位置替换为其对应的类别标签;步骤(7):针对步骤(4)中得到的预训练语言模型,使用步骤(5)标注的命名实体识别数据集对其进行微调。微调即意为:在已有的预训练语言模型参数上添加参数(如:添加一层全连接网络),然后基于命名实体识别数据集,使用小学习率对所有的参数(包括预训练语言模型参数)进行训练,从而将预训练语言模型迁移到命名实体识别任务上去;进一步的,所述步骤(2)和步骤(5)中,都收集相关数据集,但功用完全不同。步骤(2)中收集的数据集规模较大,可以达到百万甚至千万条数据的规模,但这些数据无需标记,主要用于语言模型能够从大规模语言文本中抽取到深层次的文本语义特征,由此构建预训练语言模型;而步骤(5)中收集的数据集,无需太大规模几千至几万条即可,并需要对其中的命名实体进行标注,该数据集是用作命名实体识别的训练数据,预训练语言模型在该数据集上进行微调,即可迁移到命名实体识别任务上去。有益效果:与现有技术相比,本专利技术提供的基于预训练语言模型的中文文本关键信息抽取方法,具有如下优点:(1)规则匹配与深度网络两个模块进行深度融合,可以将规则模板的特征传递给预训练语言模型,使之产生语义更加丰富的上下文表示,辅助对于命名实体更好地识别。(2)深度双向预训练语言模型,能够无监督地从文本语料中抽取出深层语义特征。且根据中文命名实体识别任务,对预训练过程加以改进,引入词边界特征作为输入的一个维度,丰富了上下文语义特征。(3)使用基于Transformer的网络结构进行遮掩语言模型的训练,可以对全文进行注意力操作,不再仅仅依赖于固定大小窗口的上下文信息,而可以学习到文本关于全局上下文的表征。预训练语言模型得到的是基于上下文的动态词表征,即对于同一个词的不同上下文环境,模型会给出其在参数空间中的不同表示,很好地解决了一词多义的问题。不同于循环神经网络,基于Transformer的网络结构完全基于张量的前向操作,可以完美地契合GPU的并行计算。附图说明图1是Transformer的网络结构图;图2是本专利技术采用的预训练语言模型结构示意图;图3是基于预训练语言模型的文本关键信息抽取关键步骤工作流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本专利技术主要针对复杂场景下的文本关键信息抽取,呈现了一种基于预训练语言模型的方法。该方法将待抽取的信息类别分为两个模块:一是使用规则匹配模块;二是基于深度学习模型的命名实体识别模块。该方法能够深度融合正则匹配特征与深度语言模型本文档来自技高网
...

【技术保护点】
1.一种基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,包括如下步骤:/n步骤(1),对基于规则匹配方法进行识别的信息类别,编写相应的规则模板,并为每一个类别设置对应的标签名;/n步骤(2),基于任务文本环境,收集无标记的文本语料;/n步骤(3),对步骤(2)中收集的无标记的文本语料使用规则模板进行抽取,将数字串和字符串使用规则模板抽取出来,之后将文本语料中匹配的数字串、字符串在原文中的位置替换为其对应的类别标签;/n步骤(4),基于步骤(3)处理后的无标记文本语料,基于Transformer网络结构构建预训练语言模型,使用遮掩语言模型任务在收集到的文本语料上进行预训练;并在预训练语言模型网络的输入阶段,通过将文本分词的嵌入表示结合到输入中,在预训练语言模型中引入分词特征;/n步骤(5),基于任务文本环境收集文本语料数据集,构建命名实体识别数据集,采用BIO标注格式对该文本语料数据集中的命名实体类别进行标注,得到命名实体识别数据集;/n步骤(6),使用规则模板匹配,对步骤(5)中带标记的命名实体识别数据集使用规则模板匹配数字串、字符串,并将匹配的数字串在原文中的位置替换为其对应的类别标签;/n步骤(7),针对步骤(4)中得到的预训练语言模型,使用步骤(5)标注的命名实体识别数据集对其进行微调;/n步骤(8),使用微调后的预训练语言模型对待预测文本数据进行识别抽取。/n...

【技术特征摘要】
1.一种基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,包括如下步骤:
步骤(1),对基于规则匹配方法进行识别的信息类别,编写相应的规则模板,并为每一个类别设置对应的标签名;
步骤(2),基于任务文本环境,收集无标记的文本语料;
步骤(3),对步骤(2)中收集的无标记的文本语料使用规则模板进行抽取,将数字串和字符串使用规则模板抽取出来,之后将文本语料中匹配的数字串、字符串在原文中的位置替换为其对应的类别标签;
步骤(4),基于步骤(3)处理后的无标记文本语料,基于Transformer网络结构构建预训练语言模型,使用遮掩语言模型任务在收集到的文本语料上进行预训练;并在预训练语言模型网络的输入阶段,通过将文本分词的嵌入表示结合到输入中,在预训练语言模型中引入分词特征;
步骤(5),基于任务文本环境收集文本语料数据集,构建命名实体识别数据集,采用BIO标注格式对该文本语料数据集中的命名实体类别进行标注,得到命名实体识别数据集;
步骤(6),使用规则模板匹配,对步骤(5)中带标记的命名实体识别数据集使用规则模板匹配数字串、字符串,并将匹配的数字串在原文中的位置替换为其对应的类别标签;
步骤(7),针对步骤(4)中得到的预训练语言模型,使用步骤(5)标注的命名实体识别数据集对其进行微调;
步骤(8),使用微调后的预训练语言模型对待预测文本数据进行识别抽取。


2.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述步骤(7)中的微调为:在已有的预训练语言模型参数上添加参数,然后基于命名实体识别数据集,使用小学习率对所有的参数进行训练,从而将预训练语言模型迁移到命名实体识别任务上去。


3.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述步骤(5)中收集的数据集,数据集规模为几千至几万条,并对其中的命名实体进行标注,该数据集是用作命名实体识别的训练数据。


4.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,遮掩语言模型为:随机遮掩住句子中的一部分字,然后通过该部分字的上下文表征进行预测被遮掩位置上的字;预训练文本语料中的每条文本数据,会有15%的字会被随机选中;在被选中的字中,有80%会被遮掩,即将需遮掩字替换为一个特殊标记[MASK];有10%会被随机替换为一个任意字符;剩余10%不进行任何操作;完成文本语料的遮掩之后,得到处理完成的预训练语言模型的训练数据。


5.根据权利要求4所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,对于处理好的预训练语言模型的训练数据,首先基于训练数据中的词频建立字符表,便于对训练数据进行处理,并按字符表的顺序对字符表里的字符编号;同时,字符表中也包含规则匹配类别的标签。


6.根据权利要求1所述的基于预训练语言模型的中文文本关键信息抽取方法,其特征在于,所述基于Transformer网络结构构建预训练语言模型,即构建基于Transformer网络结构的双向深度语言模型,整个网络由12个连续相同的网络层组成,每一层中有2个子层,分别是:多头注意力层...

【专利技术属性】
技术研发人员:俞扬詹德川周志华李龙宇
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1