【技术实现步骤摘要】
一种融合五维特征的高普适性多对多关系三元组抽取方法
[0001]本专利技术涉及一种融合多维特征开放场景下三元组抽取方法,涉及自然语言处理
技术介绍
[0002]随着大数据时代的到来,海量的数据充斥着我们的生活,如何从庞杂的数据中筛选出重要信息,高效地利用是重要的研究方向。三元组抽取可以从海量的文本中获取结构化信息,从而描述客观世界中的概念、实体间的复杂关系,提供了一种更好地组织、管理和理解互联网海量信息的能力。同时,从非结构化文本中提取关系三元组是构建大规模知识图的关键,经过数据融合后的三元组将成为智能问答、信息检索、推荐系统等上层人工智能应用的重要数据基础。
[0003]然而在进行限定域三元组抽取时,需要针对三元组中的特定关系类型事先进行定义,但是如果更换抽取场景,关系类型发生变化后,原先的模型几乎抽取不到三元组,这就得重新定义关系类型并标注数据集,而且这个标注过程相当耗时,成本几乎无法接受。因此,设计开放场景下的三元组抽取模型十分必要,该模型无需在新业务场景标注新关系类型和数据,而是可以直接抽取三元组,经过属性归一和实体对齐之后这些三元组将成为知识图谱的核心数据;经过统计和关联分析这些三元组的关系词和实体类型可以用于揭示领域的热点技术、新兴方向和知识体系。此外,由于不需要事先定义关系类型,开放场景中将抽取大量的低频关系,这些低频关系也具有一定的意义,如:图谱问答系统,只要抽取结果是正确的,一个高频的关系和低频关系的回答方式并没有差异,因此只要能保证开放场景下的三元组抽取准确率达到一定水准,相较于 ...
【技术保护点】
【技术特征摘要】
1.一种融合五维特征的高普适性多对多关系三元组抽取方法,其特征在于,包括以下步骤:第一步:数据准备准备用于训练实体识别模型的实体识别语料以及用于三元组分类引擎训练的三元组分类语料,其中,取语义角色类型为施事者作为头实体、受事者作为尾实体、施事者和受事者对应的谓词作为关系,同组出现的语义角色构成结构为<头实体,关系,尾实体>的三元组;第二步:构建用于进行实体抽取的实体识别模型,包括以下步骤:步骤1、生成底层自然语言处理特征对文本进行分句,再使用底层自然语言处理工具HanLP对文本中的每句句子进行分词,生成分词的词性、语义角色、语义依存和句法依存四个维度特征;步骤2、引入Bert预训练词向量基于步骤1中的分词结果,使用基于词颗粒度中文WoBert的预训练模型,为每句句子生成维度为n的分词预训练向量,这样就得到了每句句子的预训练句子向量{y1,y2,
…
,y
i
,
…
,y
n
},y
i
为预训练句子向量中的第i个预训练词向量;步骤3、引入依存关系,具体包括以下步骤:步骤301、根据语义和句法依存关系的类别,生成相应类别的语义依存关系超平面、句法依存关系超平面、语义依存关系向量、句法依存关系向量;步骤302、找出每句句子中独立的分词,将该分词作为根节点,为每句句子分别建立语义依存树以及句法依存树,由语义依存树以及句法依存树的所有节点分别组成当前句子的包含有语义依存关系的句子向量{sdp1,sdp2,
…
,sdp
i
,
…
,sdp
n
}和包含有句法依存关系的句子向量{sep1,sep2,
…
,sep
i
,
…
,sep
n
},其中,sdp
i
为当前句子向量中第i个包含有语义依存关系的词向量,sep
i
为当前句子向量中第i个包含有句法依存关系的词向量;语义依存树以及句法依存树中,除根节点向量为第二步得到对应分词的预训练词向量外,其他节点的向量为依赖节点的预训练词向量在相应关系的语义依存超平面或句法依存关系中的投影和语义依存关系向量或句法依存向量的翻译;步骤4:引入词性和语义角色在基于词颗粒度中文WoBert中随机初始化维度为k
pos
×
n的向量以及维度为k
srl
×
n的向量,其中,k
pos
和k
srl
分别表示词性和语义角色的种类数量,根据每个句子中各个分词的词性和语义角色类型,为每个句子生成表示...
【专利技术属性】
技术研发人员:朱海峰,吴晓峰,陶玥,
申请(专利权)人:南京万得资讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。