一种融合实体和关系信息的端到端关系抽取方法以及系统技术方案

技术编号：38602937 阅读：19 留言：0更新日期：2023-08-26 23:36

本发明专利技术公开了一种融合实体和关系信息的端到端关系抽取方法，包括：获取公开数据集CONLL04；对数据集CONLL04中关系类型的映射进行调整，得到主客体实体构成的原始文本T；从原始文本T中获取实体类型和实体主客体信息；构建多元实体关系信息模板P；将得到原始文本T和信息模板P进行句子拼接，将拼接得到的数据作为编码器模型的最终输入；使用编码器模型对输入的数据进行处理编码，得到原始文本向量，实体和关系信息向量，通过全连接层降维、拼接；将得到的特征传入解码器，最后生成预测文本；该方法基于提示学习模板提示技术实现实体和关系信息的融合，在融合信息出现信息冲突、数据和知识缺乏时，能够保证关系抽取任务精确度。能够保证关系抽取任务精确度。能够保证关系抽取任务精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合实体和关系信息的端到端关系抽取方法以及系统

[0001]本专利技术涉及关系抽取
，特别涉及一种融合实体和关系信息的端到端关系抽取方法以及系统。

技术介绍

[0002]信息抽取是自然语言处理中非常重要的一个任务，它可以将大量的文本信息转化为结构化数据，这样就可以被机器读取和分析。例如应用于新闻摘要、问答系统、知识图谱建设等。其中新闻摘要中，信息抽取可以将新闻中的关键信息提取出来，形成简洁明了的摘要；在问答系统中，信息抽取可以将问题中的关键实体和关系提取出来，帮助系统进行问题理解和回答；在知识图谱建设中，信息抽取可以提取文本中的实体和关系，帮助建立知识图谱。
[0003]而关系抽取是一个非常复杂的问题，尽管近年来已经取得了很大的进展，但仍然存在一些不足。一个主要的问题是语义不一致性，关系抽取系统在识别关系时需要考虑语义上的含义，但是由于自然语言表达方式的多样性，同一个关系可能会有不同的表达方式，这使得关系抽取系统难以统一识别。另一个问题是数据标注问题，关系抽取系统需要大量的高质量的数据进行训练，但是由于标注...

【技术保护点】

【技术特征摘要】
1.一种融合实体和关系信息的端到端关系抽取方法，其特征在于：包括以下步骤：步骤S1：获取公开数据集CONLL04，对原始训练数据进行预处理，包括数据清洗、数据标注和数据增强；步骤S2：对数据集CONLL04中关系类型的映射进行调整，从而得到主客体实体构成的原始文本T；步骤S3：从原始文本T中获取实体类型和实体主客体信息；步骤S4：构建多元实体关系信息模板P，所述信息模板P中包含了实体类型信息、实体主客信息以及实体之间的关系信息；步骤S5：将得到原始文本T和信息模板P进行句子拼接，将拼接得到的数据作为编码器模型的最终输入；步骤S6：使用编码器模型对输入的数据进行处理编码，所述编码器将会对数据预处理后的数据进行编码，得到原始文本向量，实体和关系信息向量，通过全连接层降维，然后拼接；步骤S7：随后将得到的特征传入解码器，最后生成预测文本。2.根据权利要求1所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S2中，对于数据集原始关系类型集合R＝{r1，
……
，r
n
}，先将该集合映射符合语言逻辑的同义短语；对于CONLL04数据集，其中有一个关系类型为“Located_In”，将其映射为“is located in”，从而与主客体实体构成文本“Entity
1 is located in Entity
2”，使预训练模型更好的理解。3.根据权利要求2所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S3中，对于原始文本T＝{t1，
…
，e1，
…
，e2，
…
，t
n
}中的实体，获取其实体类型和主客体信息E1‑
type
,E2‑
type
和E1‑
subject
,E2‑
object
。4.根据权利要求3所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S4中，将步骤S1和步骤S2中获得的实体关系信息，按照“主体
‑
关系
‑
客体”的形式，构建信息模板P，“<sub>An hui<loc>is located in<obj>China<loc>”，其中实体“An hui”和“China”的实体类型均为“location”，表示地名；实体“An hui”的主客体信息为“sub”，表示主实体，实体“China”的主客体信息为“obj”；表示客实体；实体之间的关系为“is located in”，是原始关系类型“Located_In”的映射。5.根据权利要求4所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S5中，将得到原始文本T和信息模板P进行拼接，在句首添加[CLS]，句子之间用[SEP]分隔符分开，经过数据预处理以后得到了该条数据的模型最终输入。6.根据权利要求5所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S6中，所述编码器模型采用的是BERT模型；所述BERT模型是一种多层双向Transformer编码器；所述BERT模型进行遮蔽(Mask)预训练工作，通过随机Mask输入词块中的15％，其中的80％会直接用[MASK]符号代替，10％会替代为其他任意的词，最后10％会保留原词；将其传入多层的Transformer中训练预测这些被Mask的词块，得到深度双向语义表示的向量；所述BERT模型核心部分是一个多层双向的Transformer编码结构，不再依赖RNN或者CNN，只需要注意力机制就能够一步到位地获取全局信息。
7.根据权利要求6所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述编码部分主要是基于自注意力的，计算式如下:式中：如果忽略激活函数softmax的话，那么事实上它就是三个n
×
d
k
、d
k
×
m、m
×
d
v
的矩阵相乘，最后的结果就是一个n
×
d
v
...

【专利技术属性】
技术研发人员：刘晓勇，文瀚冬，秦鑫，
申请(专利权)人：广东技术师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人