一种基于统一结构生成的通用信息抽取方法及系统技术方案

技术编号:33446108 阅读:116 留言:0更新日期:2022-05-19 00:31
本发明专利技术提出一种基于统一结构生成的通用信息抽取方法及系统,属于自然语言处理技术领域,采用通用的结构化抽取语言表达不同的抽取结构,该结构化语言包含不同的层次,可以表示多种不同结构的信息抽取结果;解码时通过结构化框架抽取引导机制对特定的抽取需求进行建模,帮助模型快速泛化到特定任务;利用不同的任务对统一生成模型进行预训练,并对预训练后的模型进行微调,提高统一生成模型的性能。提高统一生成模型的性能。提高统一生成模型的性能。

【技术实现步骤摘要】
一种基于统一结构生成的通用信息抽取方法及系统


[0001]本专利技术涉及一种基于统一结构生成的通用信息抽取方法及系统,属于自然语言处理


技术介绍

[0002]通用信息抽取(Universal Information Extraction)旨在从非结构化文本中自动抽取结构化信息,该类记录信息包括但不限于文本实体结构、实体之间关系结构和多元情感结构等。以实体关系信息抽取为例,给定句子“In 1997,Steve was excited to become the CEO of Apple.”,一个信息抽取系统应当能够识别一个“就职”事件,该事件的触发词为“become”,论元结构为“Steve”(主体)、“Apple”(客体)和“1997”(事件);三个实体,Apple:公司,Steve:人物,1997:时间;一个关系,“Steve”供职于“Apple”。通用信息抽取是知识图谱构建及自然语言理解中的关键任务。
[0003]具体而言,通用信息抽取的输入是特定的抽取需求和待抽取的文本,输出是结构化的知识结构。例如,如图1所示,抽取需求为人物(Person)和供职关系(Work for),输入文本是“Steve became CEO of Apple in 1997.”,最后的抽取结构为(Person,Steve,Work for,Org,Apple)。不同的抽取需求,通用信息抽取模型应当抽取不同的新结构化知识。
[0004]目前,大多数信息抽取方法主要包括序列标注的方法、文本块分类的方法和阅读理解的方法。但是这些方法通常是面向特定任务设计的,这导致了(1)针对不同信息抽取任务通常采用特定架构、(2)针对不同数据集需要训练多个分离模型和(3)针对不同的场景需要标注多种不同的数据源。这些任务特定的解决方案极大地阻碍了信息抽取系统的快速开发和适配。首先,开发人员为大量不同的信息抽取任务/设置/场景设计并开发特定的架构的工作量大;其次,针对不同数据和任务学习孤立模型严重限制了相关任务和相似场景之间的知识共享;最后,构建专门用于特定信息抽取任务的数据集和知识源既昂贵又耗时。

技术实现思路

[0005]针对上述问题,本专利技术提供了一种基于统一结构生成的通用信息抽取方法及系统,可以对不同的IE任务进行统一建模,通过自适应的方式生成目标结构,并从不同知识源中学习通用的信息抽取能力。
[0006]本专利技术采用的技术方案如下:
[0007]一种基于统一结构生成的通用信息抽取方法,包括以下步骤:
[0008]构建结构抽取模式引导器,该结构抽取模式引导器包含三种类型的文本片段:信息片段的类型名称、关联关系的类型名称和语法符号,该语法符号用于组合信息片段的类型名称、关联关系的类型名称和待抽取文本;
[0009]构建由编码器和解码器组成的统一生成模型,该统一生成模型以待抽取文本与结构抽取模式引导器拼接为输入,通过编码器编码生成向量化表示,再通过解码器预测生成统一的结构化抽取语言表达式,该结构化抽取语言表达式包含信息片段的类型名称、关联
关系的类型名称、信息片段和语法符号,该语法符号用于表示信息片段到信息片段的类型名称或关联关系的类型名称的映射;
[0010]通过结构映射任务、结构语言模型任务和掩码语言模型任务对统一生成模型进行预训练;该结构映射任务使用由标记序列和结构化记录组成的文本结构平行数据,训练模型学习抽取能力和生成结构化抽取语言表达式的能力;该结构语言模型任务使用由结构化记录组成的结构数据集,训练模型学习生成结构化抽取语言表达式的能力;该掩码语言模型任务使用纯文本数据集训练模型保留文本级别语义的能力;
[0011]针对预训练后的统一生成模型,根据预定的抽取数据集,采用交叉熵函数对编码器和解码器的参数进行微调;
[0012]在后续使用时,利用微调后的统一生成模型处理与结构抽取模式引导器拼接的待抽取文本,生成统一的结构化抽取语言表达式,再将该结构化抽取语言表达式转化为抽取后的信息记录。
[0013]进一步地,结构映射任务在进行模型训练时,为文本结构平行数据中的每一个实例构造负模式,该实例中存在的正模式为实例中存在的抽取模式,构造的负模式为实例中不存在的抽取模式,由负模式和正模式组成为训练用的样本;利用该样本训练统一生成模型,调节编码器和解码器的参数。
[0014]进一步地,结构语言模型任务在进行模型训练时,采用自回归形式的交叉熵目标函数进行模型学习,调节解码器的参数。
[0015]进一步地,掩码语言模型任务在进行模型训练时,首先对纯文本进行掩码破坏,然后通过统一生成模型预测可补全的片段,调节编码器和解码器的参数。
[0016]进一步地,采用拒绝识别的机制对预训练后的统一生成模型进行微调,即在训练过程中加入无法抽取的噪声片段,并在解码时过滤无法抽取的噪声片段。
[0017]一种基于统一结构生成的通用信息抽取系统,包括:
[0018]结构抽取模式引导器,包含三种类型的文本片段:信息片段的类型名称、关联关系的类型名称和语法符号,该语法符号用于组合信息片段的类型名称、关联关系的类型名称和待抽取文本;该结构抽取模式引导器用于与待抽取文本拼接,作为统一生成模型的输入;
[0019]统一生成模型,由编码器和解码器组成,该编码器对待抽取文本与结构抽取模式引导器拼接进行编码,生成向量化表示;该解码器对编码器的输出进行预测,生成统一的结构化抽取语言表达式,再转化为抽取后的信息记录;该结构化抽取语言表达式包含信息片段的类型名称、关联关系的类型名称、信息片段和语法符号,该语法符号用于表示信息片段到信息片段的类型名称或关联关系的类型名称的映射;
[0020]其中,通过结构映射任务、结构语言模型任务和掩码语言模型任务对统一生成模型进行预训练;该结构映射任务使用由标记序列和结构化记录组成的文本结构平行数据,训练模型学习抽取能力和生成结构化抽取语言表达式的能力;该结构语言模型任务使用由结构化记录组成的结构数据集,训练模型学习生成结构化抽取语言表达式的能力;该掩码语言模型任务使用纯文本数据集训练模型保留文本级别语义的能力;针对预训练后的统一生成模型,根据预定的抽取数据集,采用交叉熵函数对编码器和解码器的参数进行微调。
[0021]与传统的信息抽取方法相比,本专利技术所提出的文本到结构生成范式将类别标签视为自然语言文本。本专利技术通过统一抽取表达式生成标签和结构,该方法可以有效地从预训
练的语言模型中转移知识;并且在相关任务之间可以轻松共享知识,因为它们的标签具有相似的语义(例如,位置和地点)并共享共同的标签文本关联(例如,不同事件类型的受害者)。
附图说明
[0022]图1为本专利技术实施例提出的一种统一结构生成的通用信息抽取框架图。
具体实施方式
[0023]为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
[0024]本专利技术实施例提出一种统一结构生成的通用信息抽取方法,具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于统一结构生成的通用信息抽取方法,其特征在于,包括以下步骤:构建结构抽取模式引导器,该结构抽取模式引导器包含三种类型的文本片段:信息片段的类型名称、关联关系的类型名称和语法符号,该语法符号用于组合信息片段的类型名称、关联关系的类型名称和待抽取文本;构建由编码器和解码器组成的统一生成模型,该统一生成模型以待抽取文本与结构抽取模式引导器拼接为输入,通过编码器编码生成向量化表示,再通过解码器预测生成统一的结构化抽取语言表达式,该结构化抽取语言表达式包含信息片段的类型名称、关联关系的类型名称、信息片段和语法符号,该语法符号用于表示信息片段到信息片段的类型名称或关联关系的类型名称的映射;通过结构映射任务、结构语言模型任务和掩码语言模型任务对统一生成模型进行预训练;该结构映射任务使用由标记序列和结构化记录组成的文本结构平行数据,训练模型学习抽取能力和生成结构化抽取语言表达式的能力;该结构语言模型任务使用由结构化记录组成的结构数据集,训练模型学习生成结构化抽取语言表达式的能力;该掩码语言模型任务使用纯文本数据集训练模型保留文本级别语义的能力;针对预训练后的统一生成模型,根据预定的抽取数据集,采用交叉熵函数对编码器和解码器的参数进行微调;在后续使用时,利用微调后的统一生成模型处理与结构抽取模式引导器拼接的待抽取文本,生成统一的结构化抽取语言表达式,再将该结构化抽取语言表达式转化为抽取后的信息记录。2.如权利要求1所述的方法,其特征在于,结构映射任务在进行模型训练时,为文本结构平行数据中的每一个实例构造负模式,该实例中存在的正模式为实例中存在的抽取模式,构造的负模式为实例中不存在的抽取模式,由负模式和正模式组成为训练用的样本;利用该样本训练统一生成模型,调节编码器和解码器的参数。3.如权利要求1所述的方法,其特征在于,结构语言模型任务在进行模型训练时,采用自回归形式的交叉熵目标函数进行模型学习,调节解码器的参数。4.如权利要求1所述的方法,其特征在于,掩码语言模型任务在进行模型训练时,首先对纯文本进行掩码破坏,然后通过统一生成模型预测可补全的片段,调节编码器和解码器的参数。5.如权利要求1所述的方法,其特征在于,采用拒绝识别的机制对预训练后的统一生成模型进行微调,即在训练过程中加入无法抽取的噪声片段...

【专利技术属性】
技术研发人员:孙乐陆垚杰韩先培林鸿宇肖欣延戴岱郑佳
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1