当前位置: 首页 > 专利查询>复旦大学专利>正文

文档级关系三元组的抽取方法技术

技术编号:37441391 阅读:22 留言:0更新日期:2023-05-06 09:13
本发明专利技术提供了一种文档级关系三元组的抽取方法,包括:对包含训练数据的文档中的先验知识进行发掘并构建不同种类的先验图结构以表示不同先验知识之间的内在联系;将各个种类的先验图结构与关系预训练模型通过多通道模型融合,利用所述关系预训练模型编码文档以及所述先验图结构中的信息后,针对具体语句自适应计算各个先验图结构的权重;通过权重聚合后的综合信息对所述文档进行实体之间的关系抽取与推理,得到对应的关系三元组。通过权重聚合后的综合信息对文档进行实体之间的关系抽取与推理,有助于提高模型在文档级复杂环境下的相关信息甄别能力,进而提高需要多步推理的关系三元组的抽取性能,从而改善文档级关系三元组抽取的结果。元组抽取的结果。元组抽取的结果。

【技术实现步骤摘要】
文档级关系三元组的抽取方法


[0001]本专利技术涉及文档知识抽取
,尤其涉及一种文档级关系三元组的抽取方法。

技术介绍

[0002]近年来,互联网信息技术高速发展,新闻、社交等网站每天有海量的新数据产生出来。这些数据中包含着各种各样的内容,其中有很多十分有价值的信息,这些信息对人们的生活起着至关重要的作用。为了抽取并有效使用这些有价值的信息,提出了知识图谱的概念。在知识图谱中把海量数据中的人名、地名等专用名词表示为实体,并且将任意两个实体之间的联系表示为关系。这样海量的数据即被表示为实体和关系的三元组(实体1,关系,实体2)。虽然现有的知识图谱已经包含数亿计的数据,但是网络上的信息每天不断增加,知识图谱中的信息也需要随之进行完善。
[0003]为了自动化的对知识图谱进行完善,人们进行了多方面的技术研究,实体关系抽取技术就是其中一种。实体关系抽取主要任务是识别出文档中的实体并确定实体之间存在的语义关系。利用实体关系抽取可以把非结构化的文档转化为结构化的文档,帮助人们更快速便捷的找到所需信息。
[0004]近年来,多数学者的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档级关系三元组的抽取方法,其特征在于,包括:对包含训练数据的文档中的先验知识进行发掘并构建不同种类的先验图结构以表示不同先验知识之间的内在联系,所述先验知识包括自然语言语法特征、语句结构特征、代词指代特征以及直接指示关系的关键词特征;将各个种类的先验图结构与关系预训练模型通过多通道模型融合,利用所述关系预训练模型编码文档以及所述先验图结构中的信息后,针对具体语句自适应计算各个先验图结构的权重;通过权重聚合后的综合信息对所述文档进行实体之间的关系抽取与推理,得到对应的关系三元组。2.如权利要求1所述的文档级关系三元组的抽取方法,其特征在于,所述语句结构特征根据自然语言处理工具Spacy计算得出,所述代词指代特征根据先验规则匹配得到,所述直接指示关系的关键词根据句法树中的最短依存路径得出。3.如权利要求1所述的文档级关系三元组的抽取方法,其特征在于,所述先验图结构构建的步骤具体包括:找到所述文档中所有的实体词、代词以及关系关键词;在图中融入实体节点、代词节点以及关键词节点加强所述先验知识,并针对先验知识种类繁多的情况构建多个不同种类的先验图结构;在所述先验图结构中将来源于同一句话的上述词对应的节点之间构建双向边,在所述代词和被所述代词指代的实体词的节点之间构建双向边以及在同一个所述实体词对应的不同名称的节点之间构建双向边。4.如权利要求1所述的文档级关系三元组的抽取方法,其特征在于,将各个种类的先验图结构与关系预训练模型通过多通道模型融合,利用所述关系预训练模型编码文档以及所述先验图结构中的先验知识后,针对具体语句自适应计算各个先验图结构的权重的步骤具体包括:建立基于神经网络的关系预训练模型;通过所述关系预训练模型对所述先验知识进行预训练并初始化每个关系的表征,得到关系编码器;将所述文档输入所述关系编码器,通过所述关系编码器自适应计算各个先验图结构的权重,得到所述文档编码后的嵌入矩阵。5.如权利要求4所述的文档级关系三元组的抽取方法,其特征在于,在所述关系预训练模型每一轮的训练中,所述关系的表征可以通过梯度下降进行优化。6.如权利要求5所述的文档级关系三元组的抽取方法,其特征在于,通过所述关系预训练模型对所述先验知识进行预训练并初始化每个关系的表征,定义预训练的损失函数如下:其中,是关系的集合,是文档的集合,e
s
和e
o
分别是头实体和尾实体的表征,r
i
是记
录头尾实体之间是否存在关系的二值变量,r
i
为1表示存在关系,r
i
为0表示不存在关系。7.如权利要求4所述的文档级关系三元组的抽取方法,其特征在于,将所述文档输入所述关系编码器,通过所述关系编码器自适应计算各个先验图结构的权重,得到所述文档编码后的嵌入矩阵的步骤具体包括:将所述文档输入所述关系编码器,得到所述文档的初始...

【专利技术属性】
技术研发人员:徐旻洋周向东陈颢天蒋中行
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1