一种统一的中文信息抽取方法技术

技术编号：39042331 阅读：27 留言：0更新日期：2023-10-10 11:55

本发明专利技术提出了一种统一的中文信息抽取方法，包括以下步骤：S1、针对三大任务设计了一套prompt模板将三大任务进行统一表征，达到仅使用一个模型就可以完成中文信息抽取三大任务的效果；S2、使用MacBert预训练语言模型获取对应的prompt文本表征；S3、使用K

全部详细技术资料下载

【技术实现步骤摘要】
一种统一的中文信息抽取方法

[0001]本专利技术涉及自然语言处理领域，尤其是涉及命名实体识别、关系抽取、事件抽取、预训练语言模型、prompt技术等。

技术介绍

[0002]信息抽取的三大任务是命名实体识别、关系抽取、事件抽取。命名实体识别是指识别文本中具有特定意义的实体，包括人名、地名、机构名、专有名词等；关系抽取是指识别文本中实体之间的关系；事件抽取是指识别文本中的事件信息并以结构化的形式呈现出来。信息抽取技术被广泛应用于知识图谱的构建、机器阅读理解、智能问答和信息检索系统中，具有重要的研究和应用价值。
[0003]信息抽取的三大任务不是相互独立的关系，而是相互依存、彼此依赖的关系。命名实体识别是关系抽取、事件抽取的基础，关系抽取是事件抽取的基础。同时，关系抽取、事件抽取对命名实体识别任务有帮助，事件抽取对关系抽取任务有帮助。以句子“今天天气好好，我们一起去北京路逛街吧。”为例，通过命名实体识别识别出“北京路”是一个地名类型的命名实体，会帮助在事件抽取任务中找事件相关的地名因素。仅使用一个模型完成中文信息抽取三大任务可以使模型很好地学习到各大任务的交互知识，提高模型性能。相比于使用三个模型，仅使用一个模型完成中文信息抽取任务也可以大大减少模型参数，降低部署成本。
[0004]但是仅使用一个模型完成中文信息抽取任务不是一件简单的事情。命名实体识别任务的输出通常是标签，比如地名标签、人名标签。关系抽取任务的输出通常是关系三元组，即（主体，关系类型，客体）。而事件抽取任务的输出通常是结构体，说明事件触...

【技术保护点】

【技术特征摘要】
1.一种统一的中文信息抽取方法，其特征在于，包括以下步骤：S1、使用prompt模板将三大任务进行统一表征；S2、使用基于transformer架构的MacBert预训练语言模型获取对应的prompt文本表征；S3、使用K
‑
GlobalPointer模型获取文本对应的表格；S4、使用表格解析法解析表格得到相应的信息。2.根据权利要求1所述的一种统一的中文信息抽取方法，其特征在于，将关系抽取任务视为命名实体识别任务；在关系抽取任务中，对于关系三元组，首先通过命名实体识别找到文本中关系主体类型的命名实体片段，然后通过该片段以及关系类型(Originator)使用命名实体识别找到另一个实体片段，最后输出关系三元组。3.根据权利要求1所述的一种统一的中文信息抽取方法，其特征在于，将事件抽取任务视为命名实体识别任务；在事件抽取任务中，对于事件类型以及事件的各个角色，首先通过命名实体识别找到文本中事件类型的命名实体片段，然后通过该片段以及事件的各个角色使用命名实体识别找到各个角色对应的实体片段，最后输出事件。4.根据权利要求1所述的的一种统一的中文信息抽取方法，其特征在于，通过命名实体识别任务的prompt模板，将命名实体识别任务表征为统一的命名实体识别任务，具体为：设有文本w1、w2、w3、
……
、wn，n表示文本长度，以及需要提取的实体类型entity_type，对应的prompt模板为找到文章中所有【entity_type】类型的实体，对应输入K
‑
GlobalPointer模型的prompt文本为找到文章中所有【entity_type】类型的实体？文章【w1、w2、w3、
……
、wn】，经过K
‑
GlobalPointer模型处理后输出文本中实体类型为entity_type的实体。5.根据权利要求1所述的的一种统一的中文信息抽取方法，其特征在于，通过针对关系抽取任务的prompt模板，将关系抽取任务表征为统一的命名实体识别任务，具体为：设有文本w1，w2，w3，......，wn，n表示文本长度，以及需要提取的关系类型relation_type，关系类型relation_type包括主体subject_type、谓语predicate、客体object_type，统一的表征包括以下步骤：第一步、对应的prompt模板为找到文章中所有【subject_type】类型的实体，对应输入K
‑
GlobalPointer模型的prompt文本为找到文章中所有【subject_type】类型的实体？文章：【w1，w2，w3，
……
，wn】，经过K
‑
GlobalPointer模型处理后输出文本中实体类型为subject_type的实体e1；第二步、对应的prompt模板为找到文章中所有【e1】的【predicate】，对应的输入K
‑
GlobalPointer模型的prompt文本为找到文章中所有【e1】的【predicate】？文章【w1，w2，w3，......，wn】...

【专利技术属性】
技术研发人员：高英，周纪咏，蒋成龙，甄泓忠，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人