【技术实现步骤摘要】
一种基于关联句选择和关系图推理的文档级关系抽取方法
[0001]本专利技术属于关系抽取领域,具体涉及一种基于关联句选择和关系图推理的文档级关系抽取方法。
技术介绍
[0002]关系抽取是指在文本中判断给定实体之间的关系,如实体关系三元组(北京,位于,中国)中,北京是头实体,中国是尾实体,位于是实体关系。关系抽取可以使用基于规则的方法,如只要文本中出现某些关键词即认为两个实体间存在相应的关系。该方法速度较快,在特定文本中的准确率较高,但是需要对每种文本都专门设计规则,人力成本较高。另一种是基于深度学习的方法,该方法可以结合上下文信息综合判断两个实体间的关系,泛化能力强。
[0003]关系抽取可以分为句子级关系抽取和文档级关系抽取。句子级关系抽取的输入文本一般是较短的句子,并且实体间的逻辑关系相对简单,因此可以较好的判断实体间的关系。但是文档级关系抽取的输入文本是较长的文档,直接使用现有的方法会存在以下问题:
[0004]1、文档中存在大量的冗余信息,实体相对于其他文本是稀疏的,难以抽取出实体间关系,并且会导致计
【技术保护点】
【技术特征摘要】
1.一种基于关联句选择和关系图推理的文档级关系抽取方法,针对文档中待确定关系的头实体和尾实体,其特征在于,所述抽取方法包括如下步骤:获取文档中包含头实体的第一句子集合和包含尾实体的第二句子集合,选择第一句子集合和第二句子集合中在文档内位置相近的若干个句子作为关联句;对关联句中的每个字符进行文本编码,将所有关联句中的实体编码融合,作为关系图模型的实体节点输入,获取实体相关的最短语义依存字符,作为关系图模型的依存节点输入;初始化所有节点间的链路权重;使用图卷积神经网络汇聚邻居节点的特征,从而使所有节点之间的特征相互融合;获取头实体、尾实体对应的两个实体节点的特征,判断头实体和尾实体间的关系。2.根据权利要求1所述的基于关联句选择和关系图推理的文档级关系抽取方法,其特征在于,所述对关联句中的每个字符进行文本编码包括:使用预训练语言模型进行文本编码。3.根据权利要求2所述的基于关联句选择和关系图推理的文档级关系抽取方法,其特征在于,所述获取实体相关的最短语义依存字符包括:使用语义依存分析器获取实体相关的最短语义依存字符。4.根据权利要求3所述的基于关联句选择和关系图推理的文档级关系抽取方法,其特征在于,所述初始化所有节点间的链路权重包括:使用注意力机制和矩阵树定理初始化所有节点间的链路权重。5.根据权利要求4所述的基于关联句选择和关系图推理的文档级关...
【专利技术属性】
技术研发人员:董贇,张希翔,梁仲峰,黄琦,蒙琦,杜春辉,高翔,岳小龙,
申请(专利权)人:广西电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。