【技术实现步骤摘要】
一种融合实体和关系信息的端到端关系抽取方法以及系统
[0001]本专利技术涉及关系抽取
,特别涉及一种融合实体和关系信息的端到端关系抽取方法以及系统。
技术介绍
[0002]信息抽取是自然语言处理中非常重要的一个任务,它可以将大量的文本信息转化为结构化数据,这样就可以被机器读取和分析。例如应用于新闻摘要、问答系统、知识图谱建设等。其中新闻摘要中,信息抽取可以将新闻中的关键信息提取出来,形成简洁明了的摘要;在问答系统中,信息抽取可以将问题中的关键实体和关系提取出来,帮助系统进行问题理解和回答;在知识图谱建设中,信息抽取可以提取文本中的实体和关系,帮助建立知识图谱。
[0003]而关系抽取是一个非常复杂的问题,尽管近年来已经取得了很大的进展,但仍然存在一些不足。一个主要的问题是语义不一致性,关系抽取系统在识别关系时需要考虑语义上的含义,但是由于自然语言表达方式的多样性,同一个关系可能会有不同的表达方式,这使得关系抽取系统难以统一识别。另一个问题是数据标注问题,关系抽取系统需要大量的高质量的数据进行训练,但是由于标注 ...
【技术保护点】
【技术特征摘要】
1.一种融合实体和关系信息的端到端关系抽取方法,其特征在于:包括以下步骤:步骤S1:获取公开数据集CONLL04,对原始训练数据进行预处理,包括数据清洗、数据标注和数据增强;步骤S2:对数据集CONLL04中关系类型的映射进行调整,从而得到主客体实体构成的原始文本T;步骤S3:从原始文本T中获取实体类型和实体主客体信息;步骤S4:构建多元实体关系信息模板P,所述信息模板P中包含了实体类型信息、实体主客信息以及实体之间的关系信息;步骤S5:将得到原始文本T和信息模板P进行句子拼接,将拼接得到的数据作为编码器模型的最终输入;步骤S6:使用编码器模型对输入的数据进行处理编码,所述编码器将会对数据预处理后的数据进行编码,得到原始文本向量,实体和关系信息向量,通过全连接层降维,然后拼接;步骤S7:随后将得到的特征传入解码器,最后生成预测文本。2.根据权利要求1所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S2中,对于数据集原始关系类型集合R={r1,
……
,r
n
},先将该集合映射符合语言逻辑的同义短语;对于CONLL04数据集,其中有一个关系类型为“Located_In”,将其映射为“is located in”,从而与主客体实体构成文本“Entity
1 is located in Entity
2”,使预训练模型更好的理解。3.根据权利要求2所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S3中,对于原始文本T={t1,
…
,e1,
…
,e2,
…
,t
n
}中的实体,获取其实体类型和主客体信息E1‑
type
,E2‑
type
和E1‑
subject
,E2‑
object
。4.根据权利要求3所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S4中,将步骤S1和步骤S2中获得的实体关系信息,按照“主体
‑
关系
‑
客体”的形式,构建信息模板P,“<sub>An hui<loc>is located in<obj>China<loc>”,其中实体“An hui”和“China”的实体类型均为“location”,表示地名;实体“An hui”的主客体信息为“sub”,表示主实体,实体“China”的主客体信息为“obj”;表示客实体;实体之间的关系为“is located in”,是原始关系类型“Located_In”的映射。5.根据权利要求4所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S5中,将得到原始文本T和信息模板P进行拼接,在句首添加[CLS],句子之间用[SEP]分隔符分开,经过数据预处理以后得到了该条数据的模型最终输入。6.根据权利要求5所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述步骤S6中,所述编码器模型采用的是BERT模型;所述BERT模型是一种多层双向Transformer编码器;所述BERT模型进行遮蔽(Mask)预训练工作,通过随机Mask输入词块中的15%,其中的80%会直接用[MASK]符号代替,10%会替代为其他任意的词,最后10%会保留原词;将其传入多层的Transformer中训练预测这些被Mask的词块,得到深度双向语义表示的向量;所述BERT模型核心部分是一个多层双向的Transformer编码结构,不再依赖RNN或者CNN,只需要注意力机制就能够一步到位地获取全局信息。
7.根据权利要求6所述的一种融合实体和关系信息的端到端关系抽取方法,其特征在于:所述编码部分主要是基于自注意力的,计算式如下:式中:如果忽略激活函数softmax的话,那么事实上它就是三个n
×
d
k
、d
k
×
m、m
×
d
v
的矩阵相乘,最后的结果就是一个n
×
d
v
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。