一种融合五维特征的高普适性多对多关系三元组抽取方法技术

技术编号：32466506 阅读：25 留言：0更新日期：2022-02-26 09:29

本发明专利技术提供的一种融合五维特征的高普适性多对多关系三元组抽取方法采用TransH关系超平面机制，头实体将在不同依存关系空间中分别投影，尾实体的关系超平面嵌入则为头实体投影与依存关系嵌入的翻译，该设计解决依存关系中存在的多对一关系问题，将语义和句法上独立的分词间的依存特征融入分词的表示中，更为精确且极大地丰富了词向量的表示；本发明专利技术构建的这一套管道式三元组抽取方案，将庞大的词向量预训练模型和高性能底层自然语言处理特征有机结合，增加模型语义理解能力，从而提升模型处理多场景任务的能力，为构建大规模知识图谱奠基。奠基。奠基。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合五维特征的高普适性多对多关系三元组抽取方法

[0001]本专利技术涉及一种融合多维特征开放场景下三元组抽取方法，涉及自然语言处理

技术介绍

[0002]随着大数据时代的到来，海量的数据充斥着我们的生活，如何从庞杂的数据中筛选出重要信息，高效地利用是重要的研究方向。三元组抽取可以从海量的文本中获取结构化信息，从而描述客观世界中的概念、实体间的复杂关系，提供了一种更好地组织、管理和理解互联网海量信息的能力。同时，从非结构化文本中提取关系三元组是构建大规模知识图的关键，经过数据融合后的三元组将成为智能问答、信息检索、推荐系统等上层人工智能应用的重要数据基础。
[0003]然而在进行限定域三元组抽取时，需要针对三元组中的特定关系类型事先进行定义，但是如果更换抽取场景，关系类型发生变化后，原先的模型几乎抽取不到三元组，这就得重新定义关系类型并标注数据集，而且这个标注过程相当耗时，成本几乎无法接受。因此，设计开放场景下的三元组抽取模型十分必要，该模型无需在新业务场景标注新关系类型和数据，而是可以直接抽取三元组，...

【技术保护点】

【技术特征摘要】
1.一种融合五维特征的高普适性多对多关系三元组抽取方法，其特征在于，包括以下步骤：第一步：数据准备准备用于训练实体识别模型的实体识别语料以及用于三元组分类引擎训练的三元组分类语料，其中，取语义角色类型为施事者作为头实体、受事者作为尾实体、施事者和受事者对应的谓词作为关系，同组出现的语义角色构成结构为<头实体，关系，尾实体>的三元组；第二步：构建用于进行实体抽取的实体识别模型，包括以下步骤：步骤1、生成底层自然语言处理特征对文本进行分句，再使用底层自然语言处理工具HanLP对文本中的每句句子进行分词，生成分词的词性、语义角色、语义依存和句法依存四个维度特征；步骤2、引入Bert预训练词向量基于步骤1中的分词结果，使用基于词颗粒度中文WoBert的预训练模型，为每句句子生成维度为n的分词预训练向量，这样就得到了每句句子的预训练句子向量{y1,y2,
…
,y
i
,
…
,y
n
}，y
i
为预训练句子向量中的第i个预训练词向量；步骤3、引入依存关系，具体包括以下步骤：步骤301、根据语义和句法依存关系的类别，生成相应类别的语义依存关系超平面、句法依存关系超平面、语义依存关系向量、句法依存关系向量；步骤302、找出每句句子中独立的分词，将该分词作为根节点，为每句句子分别建立语义依存树以及句法依存树，由语义依存树以及句法依存树的所有节点分别组成当前句子的包含有语义依存关系的句子向量{sdp1,sdp2,
…
,sdp
i
,
…
,sdp
n
}和包含有句法依存关系的句子向量{sep1,sep2,
…
,sep
i
,
…
,sep
n
}，其中，sdp
i
为当前句子向量中第i个包含有语义依存关系的词向量，sep
i
为当前句子向量中第i个包含有句法依存关系的词向量；语义依存树以及句法依存树中，除根节点向量为第二步得到对应分词的预训练词向量外，其他节点的向量为依赖节点的预训练词向量在相应关系的语义依存超平面或句法依存关系中的投影和语义依存关系向量或句法依存向量的翻译；步骤4：引入词性和语义角色在基于词颗粒度中文WoBert中随机初始化维度为k
pos
×
n的向量以及维度为k
srl
×
n的向量，其中，k
pos
和k
srl
分别表示词性和语义角色的种类数量，根据每个句子中各个分词的词性和语义角色类型，为每个句子生成表示...

【专利技术属性】
技术研发人员：朱海峰，吴晓峰，陶玥，
申请(专利权)人：南京万得资讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人