一种融合五维特征的高普适性多对多关系三元组抽取方法技术

技术编号:32466506 阅读:15 留言:0更新日期:2022-02-26 09:29
本发明专利技术提供的一种融合五维特征的高普适性多对多关系三元组抽取方法采用TransH关系超平面机制,头实体将在不同依存关系空间中分别投影,尾实体的关系超平面嵌入则为头实体投影与依存关系嵌入的翻译,该设计解决依存关系中存在的多对一关系问题,将语义和句法上独立的分词间的依存特征融入分词的表示中,更为精确且极大地丰富了词向量的表示;本发明专利技术构建的这一套管道式三元组抽取方案,将庞大的词向量预训练模型和高性能底层自然语言处理特征有机结合,增加模型语义理解能力,从而提升模型处理多场景任务的能力,为构建大规模知识图谱奠基。奠基。奠基。

【技术实现步骤摘要】
一种融合五维特征的高普适性多对多关系三元组抽取方法


[0001]本专利技术涉及一种融合多维特征开放场景下三元组抽取方法,涉及自然语言处理


技术介绍

[0002]随着大数据时代的到来,海量的数据充斥着我们的生活,如何从庞杂的数据中筛选出重要信息,高效地利用是重要的研究方向。三元组抽取可以从海量的文本中获取结构化信息,从而描述客观世界中的概念、实体间的复杂关系,提供了一种更好地组织、管理和理解互联网海量信息的能力。同时,从非结构化文本中提取关系三元组是构建大规模知识图的关键,经过数据融合后的三元组将成为智能问答、信息检索、推荐系统等上层人工智能应用的重要数据基础。
[0003]然而在进行限定域三元组抽取时,需要针对三元组中的特定关系类型事先进行定义,但是如果更换抽取场景,关系类型发生变化后,原先的模型几乎抽取不到三元组,这就得重新定义关系类型并标注数据集,而且这个标注过程相当耗时,成本几乎无法接受。因此,设计开放场景下的三元组抽取模型十分必要,该模型无需在新业务场景标注新关系类型和数据,而是可以直接抽取三元组,经过属性归一和实体对齐之后这些三元组将成为知识图谱的核心数据;经过统计和关联分析这些三元组的关系词和实体类型可以用于揭示领域的热点技术、新兴方向和知识体系。此外,由于不需要事先定义关系类型,开放场景中将抽取大量的低频关系,这些低频关系也具有一定的意义,如:图谱问答系统,只要抽取结果是正确的,一个高频的关系和低频关系的回答方式并没有差异,因此只要能保证开放场景下的三元组抽取准确率达到一定水准,相较于限定关系抽取而言则具有不可替代的优势。
[0004]大多数现有的三元组方法用于处理一对一关系问题,不能有效地处理一个句子包含多个相互重叠的关系三元组的场景,在解决同一句子中的多个关系三元组共享相同实体的重叠三元组问题中捉襟见肘。棘手的是,现实场景中大部分实体间都包含多种复杂的关联关系,如果不能解决该问题,那么知识图谱则不完整,图谱中本该关联的实体成为独立的孤岛,直接影响到图谱的预测和推理功能。因此进行多对多关系三元组的抽取研究是知识图谱落地的重要步骤,是知识图谱支撑上层应用的重要保障。

技术实现思路

[0005]本专利技术的目的是:实现多对多关系三元组的抽取。
[0006]为了达到上述目的,本专利技术的技术方案是提供了一种融合五维特征的高普适性多对多关系三元组抽取方法,其特征在于,包括以下步骤:第一步:数据准备准备用于训练实体识别模型的实体识别语料以及用于三元组分类引擎训练的三元组分类语料,其中,取语义角色类型为施事者作为头实体、受事者作为尾实体、施事者及受事者对应的谓词作为关系,同组出现的语义角色构成结构为<头实体,关系,尾实体>的三
元组;第二步:构建用于进行实体抽取的实体识别模型,包括以下步骤:步骤1、生成底层自然语言处理特征对文本进行分句,再使用底层自然语言处理工具HanLP对文本中的每句句子进行分词,生成分词的词性、语义角色、语义依存和句法依存四个维度特征;步骤2、引入Bert预训练词向量基于步骤1中的分词结果,使用基于词颗粒度中文WoBert的预训练模型,为每句句子生成维度为n的分词预训练向量,这样就得到了每句句子的预训练句子向量{y1,y2,

,y
i
,

,y
n
},y
i
为预训练句子向量中的第i个预训练词向量;步骤3、引入依存关系,具体包括以下步骤:步骤301、根据语义和句法依存关系的类别,生成相应类别的语义依存关系超平面、句法依存关系超平面、语义依存关系向量、句法依存关系向量;步骤302、找出每句句子中独立的分词,将该分词作为根节点,为每句句子分别建立语义依存树以及句法依存树,由语义依存树以及句法依存树的所有节点分别组成当前句子的包含有语义依存关系的句子向量{sdp1,sdp2,

,sdp
i
,

,sdp
n
}和包含有句法依存关系的句子向量{sep1,sep2,

,sep
i
,

,sep
n
},其中,sdp
i
为当前句子向量中第i个包含有语义依存关系的词向量,sep
i
为当前句子向量中第i个包含有句法依存关系的词向量;语义依存树以及句法依存树中,除根节点向量为第二步得到对应分词的预训练词向量外,其他节点的向量为依赖节点的预训练词向量在相应关系的语义依存超平面或句法依存关系中的投影和语义依存关系向量或句法依存向量的翻译;步骤4:引入词性和语义角色在基于词颗粒度中文WoBert中随机初始化维度为k
pos
×
n的向量以及维度为k
srl
×
n的向量,其中,k
pos
和k
srl
分别表示词性和语义角色的种类数量,根据每个句子中各个分词的词性和语义角色类型,为每个句子生成表示词性的句子向量{pos1,pos2,

,pos
i
,

,pos
n
}以及表示语义角色的句子向量{srl1,srl2,

,srl
i
,

,srl
n
},其中,pos
i
为当前句子向量中第i个表示词性的词向量,srl
i
为当前句子向量中第i个表示语义角色的词向量;步骤5:使用Lex

Bert V2中的共享位置嵌入的方法,将步骤2、步骤3及步骤4得到的五种维度的词向量进行拼接,获得五维特征词向量;步骤6:实体识别模型基于五维特征词向量进行实体识别,并利用实体识别语料对实体识别模型进行训练,直至模型收敛,并得到模型收敛时的所有类别的语义和句法依存关系的关系超平面以及关系向量;第三步:构建用于判断实体识别模型抽取的实体是否构成三元组的三元组分类引擎:三元组分类引擎使用TextCNN分类网络对包含语义和句法依存特征的实体对进行分类,判断是否构成三元组,其中,三元组分类引擎的输入是三元组间的语义和句法依存关系,输入顺序为头实体<

>关系、尾实体<

>关系、头实体<

>尾实体,其中,x<

>y表示x依赖y的语义和句法依存关系类型集合和y依赖x的语义和句法依存关系类型集合;使用训练实体识别模型得到的所有类别的语义和句法依存关系的关系向量初始化依赖关系并嵌入字典,该字典随着三元组分类引擎所采用的TextCNN分类网络利用三元组分类语料一起训练。
[0007]优选的,步骤302中,若节点x2与节点x1存在某个类别的语义依存关系或句法依存关系,则当前类别的语义依本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合五维特征的高普适性多对多关系三元组抽取方法,其特征在于,包括以下步骤:第一步:数据准备准备用于训练实体识别模型的实体识别语料以及用于三元组分类引擎训练的三元组分类语料,其中,取语义角色类型为施事者作为头实体、受事者作为尾实体、施事者和受事者对应的谓词作为关系,同组出现的语义角色构成结构为<头实体,关系,尾实体>的三元组;第二步:构建用于进行实体抽取的实体识别模型,包括以下步骤:步骤1、生成底层自然语言处理特征对文本进行分句,再使用底层自然语言处理工具HanLP对文本中的每句句子进行分词,生成分词的词性、语义角色、语义依存和句法依存四个维度特征;步骤2、引入Bert预训练词向量基于步骤1中的分词结果,使用基于词颗粒度中文WoBert的预训练模型,为每句句子生成维度为n的分词预训练向量,这样就得到了每句句子的预训练句子向量{y1,y2,

,y
i
,

,y
n
},y
i
为预训练句子向量中的第i个预训练词向量;步骤3、引入依存关系,具体包括以下步骤:步骤301、根据语义和句法依存关系的类别,生成相应类别的语义依存关系超平面、句法依存关系超平面、语义依存关系向量、句法依存关系向量;步骤302、找出每句句子中独立的分词,将该分词作为根节点,为每句句子分别建立语义依存树以及句法依存树,由语义依存树以及句法依存树的所有节点分别组成当前句子的包含有语义依存关系的句子向量{sdp1,sdp2,

,sdp
i
,

,sdp
n
}和包含有句法依存关系的句子向量{sep1,sep2,

,sep
i
,

,sep
n
},其中,sdp
i
为当前句子向量中第i个包含有语义依存关系的词向量,sep
i
为当前句子向量中第i个包含有句法依存关系的词向量;语义依存树以及句法依存树中,除根节点向量为第二步得到对应分词的预训练词向量外,其他节点的向量为依赖节点的预训练词向量在相应关系的语义依存超平面或句法依存关系中的投影和语义依存关系向量或句法依存向量的翻译;步骤4:引入词性和语义角色在基于词颗粒度中文WoBert中随机初始化维度为k
pos
×
n的向量以及维度为k
srl
×
n的向量,其中,k
pos
和k
srl
分别表示词性和语义角色的种类数量,根据每个句子中各个分词的词性和语义角色类型,为每个句子生成表示...

【专利技术属性】
技术研发人员:朱海峰吴晓峰陶玥
申请(专利权)人:南京万得资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1