基于义原编码的层次级远程监督关系抽取方法技术

技术编号:30519900 阅读:34 留言:0更新日期:2021-10-27 23:03
本发明专利技术公开了一种基于义原编码的层次级远程监督关系抽取方法,包括如下步骤:步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;步骤2:词向量编码;步骤3:位置向量编码;步骤4:PCNN特征提取;步骤5:层次级关系注意力机制;步骤6:构建超包级别训练实例;步骤7:训练调优,最终得到关系抽取模型。本发明专利技术利用关系之间的联系来丰富训练数据,通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分,再从关系层次上构建超包,降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能,有效减少对数据的依赖,降低数据质量对最终结果的波动影响,从而提高关系抽取的准确率。提高关系抽取的准确率。

【技术实现步骤摘要】
基于义原编码的层次级远程监督关系抽取方法


[0001]本专利技术属于自然语言处理和人工智能技术,具体的说是一种基于义原编码的缓解长尾关系问题的知识图谱关系抽取方法。

技术介绍

[0002]知识图谱(Knowledge Graph)由Google于2012年首次提出,通过结构化形式将客观世界中的概念、实体结合在一起,将互联网中存在的海量数据信息进行有效的组织、管理并理解,使之更接近人类的认知世界。
[0003]实体关系抽取是知识图谱生成过程中的重要环节,致力于挖掘出文本中实体对之间的语义关系,也是自然语言处理、信息检索等领域的关键任务。传统的基于深度学习技术的有监督关系抽取,需要大量人工标注好的训练数据集,前期工作量较大。为了从繁重的样本标注工作中解放出来,远程监督关系抽取应运而生:通过知识库和自然语言文本的自动对齐生成标记数据。但这种简单的自动对齐机制也带来了一系列的噪声影响,
[0004]Daojian Zeng、Kang Liu、Yubo Chen和Jun Zhao发表了Distant Supervision for Rel本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于义原编码的层次级远程监督关系抽取方法,其特征在于:所述关系抽取方法包括如下步骤:步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;步骤2:词向量编码:基于HowNet人工知识库,为步骤1中的每个句子的每个单词分配义原组合,选择出最符合语境的语义,得到单词的向量表征;步骤3:位置向量编码:根据步骤1中每个句子的每个单词相对实体对的距离训练得到位置向量;步骤4:PCNN特征提取:将步骤2通过义原编码的词向量和步骤3的位置向量拼接在一起得到句子向量,将句子向量输入PCNN,与给定的卷积核W进行卷积操作,然后根据实体对在句子中的位置,将卷积后的结果分成3段,每段取最大值做最大池化;步骤5:层次级关系注意力机制:对于步骤1给定的一组包含相同实体对的句子集,将经过PCNN特征提取后的低维的句子向量在关系层次结构的每一层上都进行注意力计算,最终将不同层次上的向量信息进行拼接形成完整的句子集向量;步骤6:构建超包级别训练实例:得到每个包针对不同关系层级的句子集向量表示后,从关系的角度重新打包,即为每种关系构造一个超包,并将超包设置为训练实例。计算超包中每一组包的注意力权重,得到超包的特征,模型最终在超包级别上进行训练调优;步骤7:关系抽取模型:使用交叉熵目标损失函数J,采用随机梯度下降来最小化损失函数进行训练调优,最终得到关系抽取模型。2.根据权利要求1所述基于义原编码...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1