一种统一的中文信息抽取方法技术

技术编号:39042331 阅读:27 留言:0更新日期:2023-10-10 11:55
本发明专利技术提出了一种统一的中文信息抽取方法,包括以下步骤:S1、针对三大任务设计了一套prompt模板将三大任务进行统一表征,达到仅使用一个模型就可以完成中文信息抽取三大任务的效果;S2、使用MacBert预训练语言模型获取对应的prompt文本表征;S3、使用K

【技术实现步骤摘要】
一种统一的中文信息抽取方法


[0001]本专利技术涉及自然语言处理领域,尤其是涉及命名实体识别、关系抽取、事件抽取、预训练语言模型、prompt技术等。

技术介绍

[0002]信息抽取的三大任务是命名实体识别、关系抽取、事件抽取。命名实体识别是指识别文本中具有特定意义的实体,包括人名、地名、机构名、专有名词等;关系抽取是指识别文本中实体之间的关系;事件抽取是指识别文本中的事件信息并以结构化的形式呈现出来。信息抽取技术被广泛应用于知识图谱的构建、机器阅读理解、智能问答和信息检索系统中,具有重要的研究和应用价值。
[0003]信息抽取的三大任务不是相互独立的关系,而是相互依存、彼此依赖的关系。命名实体识别是关系抽取、事件抽取的基础,关系抽取是事件抽取的基础。同时,关系抽取、事件抽取对命名实体识别任务有帮助,事件抽取对关系抽取任务有帮助。以句子“今天天气好好,我们一起去北京路逛街吧。”为例,通过命名实体识别识别出“北京路”是一个地名类型的命名实体,会帮助在事件抽取任务中找事件相关的地名因素。仅使用一个模型完成中文信息抽取三大任务可以使模型很好地学习到各大任务的交互知识,提高模型性能。相比于使用三个模型,仅使用一个模型完成中文信息抽取任务也可以大大减少模型参数,降低部署成本。
[0004]但是仅使用一个模型完成中文信息抽取任务不是一件简单的事情。命名实体识别任务的输出通常是标签,比如地名标签、人名标签。关系抽取任务的输出通常是关系三元组,即(主体,关系类型,客体)。而事件抽取任务的输出通常是结构体,说明事件触发词、事件发生地址、事件发生时间等等因素。并且这三种任务的侧重点有所不同,仅使用一组模型参数可能不能在各个任务上都达到一个比较好的结果。故目前关于仅使用一个模型完成中文信息抽取任务的研究相对较少,更多的是关于命名实体识别任务单独的研究、关于关系抽取任务单独的研究、关于事件抽取任务单独的研究。本专利技术主要研究如何为中文信息抽取任务的各个子任务设置不同的范式,使其可以仅使用一个模型完成中文信息抽取三大任务,并在各个子任务上有良好的表现。
[0005]现有技术中,在仅使用一个模型完成中文信息抽取三大任务的研究问题上,不同方案关注的主要都在如何使用一套方法统一表征多种任务,以及采用什么范式、什么架构构建模型进行训练。
[0006]文献(Unified Structure Generation for Un iversal Information Extraction, yaojie2017,liuqing2020, hongyu, xianpei,sunle ,@iscas.ac.cn)提出了一种统一的信息抽取方式。其针对如何使用一套方法统一表征多种任务的问题,在模型输出部分提出了Structural Extraction Language,在模型输入部分提出了Structural Schema Instructor。Structural Extraction Language把所有信息抽取任务都抽象出生成SPOTNAME、ASSONAME、INFOSPAN三种。SPOTNAME:表示原文片段所属的实体类型;
ASSONAME:表示不同片段之间的关联关系;INFOSPAN:表示对应spotting和associating所在原文中的信息。例如“person”为SPOTNAME,“word for”为ASSONAME,“Steve”和“Apple”均为INFOSPAN。Structural Schema Instructor告诉模型现在要抽的任务是什么。例如“[spot] person [asso]work for”,相当于告诉模型,现在要抽实体person,以及与该实体有关的关系work for。把其跟原文拼接,作为模型的输入。针对以及采用什么范式、什么架构构建模型进行训练的问题,该模型采用的是文本生成的范式。其优点是自由度高,能自然表达复杂知识;任务迁移自然,能在不同的信息抽取任务中共享知识。但Seq2Seq架构速度慢,自由度高的文本生成范式必然会带来文本生成出错、偏差离谱的风险,甚至可能生成乱七八糟,让人无法理解的文本。
[0007]文献(Unified BERT for Few

shot Natural Language Understanding Junyu Lu12*,Ping Yang', Ruyi Gan',Jing Yang',Jiaxing Zhang1 1International Digital Economy Academy2South China University of Technology)提出了另一种信息抽取方式。其针对如何使用一套方法统一表征多种任务的问题,在输入部分,提出使用“[CLS](Task)[SEP](Prior)[SEP](文本)”来进行文本输入。对于命名实体识别任务,Prior就是实体类别。对于关系抽取,Prior就是一个包含主体、关系类型、客体的triple,比如{PER, Originator, ORG}。对于事件抽取,Prior代表a combination of event type and argument role,比如{enterprise establishing, time} and {attack, victim}。对于模型输出部分,都是图表形式。对于命名实体识别任务。以寻找文本T中的LOC类型的命名实体为例,生成LOC表格M中M
ij
为1,那说明T[i:j]处的片段是LOC类型的命名实体。对于关系抽取任务。可以视为实体识别和关系分类的耦合。针对{PER, Originator, ORG}关系,先使用一个表格识别出文本中的PER类型的命名实体,再使用一个表格识别出文本上的ORG类型的命名实体,在第三张表格中将前两张表格置1处置1,通过Originator识别出哪两个实体满足这种关系。对于事件抽取任务和关系抽取任务类似。该方法看似将几大信息抽取任务都统一表征起来,其针对不同的任务,模型输出采用的流程是不一致的,输出的表格是不一致的。对于命名实体识别任务,输出的是各大不同命名实体类型的表格;对于关系抽取任务,输出的是命名实体类型和关系类型的表格;对于事件抽取任务,输出的是Trigger表格以及命名实体类型表格。从根本上来说没有做到参数共享,输出一致的效果,而且也做不到学习到各大任务的交互知识的效果。

技术实现思路

[0008]本专利技术旨在为中文信息抽取任务的各个子任务设计一套能将其统一表征起来的方式将其进行统一表征,并设计合适的网络结构,使其可以仅使用一个模型完成中文信息抽取三大任务,并在各个子任务上有良好的表现。仅使用一个模型完成中文信息抽取任务不仅可以使模型很好地学习到各大任务的交互知识,提高模型性能。 还可以大大减少模型参数,降低部署成本相比于三个模型分开而言。
[0009]本专利技术至少通过如下技术方案之一实现。
[0010]一种统一的中文信息抽取方法,包括以下步骤:S1、使用pro本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种统一的中文信息抽取方法,其特征在于,包括以下步骤:S1、使用prompt模板将三大任务进行统一表征;S2、使用基于transformer架构的MacBert预训练语言模型获取对应的prompt文本表征;S3、使用K

GlobalPointer模型获取文本对应的表格;S4、使用表格解析法解析表格得到相应的信息。2.根据权利要求1所述的一种统一的中文信息抽取方法,其特征在于,将关系抽取任务视为命名实体识别任务;在关系抽取任务中,对于关系三元组,首先通过命名实体识别找到文本中关系主体类型的命名实体片段,然后通过该片段以及关系类型(Originator)使用命名实体识别找到另一个实体片段,最后输出关系三元组。3.根据权利要求1所述的一种统一的中文信息抽取方法,其特征在于,将事件抽取任务视为命名实体识别任务;在事件抽取任务中,对于事件类型以及事件的各个角色,首先通过命名实体识别找到文本中事件类型的命名实体片段,然后通过该片段以及事件的各个角色使用命名实体识别找到各个角色对应的实体片段,最后输出事件。4.根据权利要求1所述的的一种统一的中文信息抽取方法,其特征在于,通过命名实体识别任务的prompt模板,将命名实体识别任务表征为统一的命名实体识别任务,具体为:设有文本w1、w2、w3、
……
、wn,n表示文本长度,以及需要提取的实体类型entity_type,对应的prompt模板为找到文章中所有【entity_type】类型的实体,对应输入K

GlobalPointer模型的prompt文本为找到文章中所有【entity_type】类型的实体?文章【w1、w2、w3、
……
、wn】,经过K

GlobalPointer模型处理后输出文本中实体类型为entity_type的实体。5.根据权利要求1所述的的一种统一的中文信息抽取方法,其特征在于,通过针对关系抽取任务的prompt模板,将关系抽取任务表征为统一的命名实体识别任务,具体为:设有文本w1,w2,w3,......,wn,n表示文本长度,以及需要提取的关系类型relation_type,关系类型relation_type包括主体subject_type、谓语predicate、客体object_type,统一的表征包括以下步骤:第一步、对应的prompt模板为找到文章中所有【subject_type】类型的实体,对应输入K

GlobalPointer模型的prompt文本为找到文章中所有【subject_type】类型的实体?文章:【w1,w2,w3,
……
,wn】,经过K

GlobalPointer模型处理后输出文本中实体类型为subject_type的实体e1;第二步、对应的prompt模板为找到文章中所有【e1】的【predicate】,对应的输入K

GlobalPointer模型的prompt文本为找到文章中所有【e1】的【predicate】?文章【w1,w2,w3,......,wn】...

【专利技术属性】
技术研发人员:高英周纪咏蒋成龙甄泓忠
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1