一种多粒度的实体关系抽取方法技术

技术编号:41536050 阅读:20 留言:0更新日期:2024-06-03 23:14
本发明专利技术属于自然语言处理技术领域,具体涉及一种多粒度的实体关系抽取方法;包括:将预处理好的训练文本输入到句子编码器中进行处理,得到每层的句子隐藏状态向量和两个词的实体隐藏状态向量;构建多种粒度下的实体隐藏状态向量矩阵并根据该矩阵计算得到两个词的实体最终表示;对每层的句子隐藏状态向量进行加权层池化处理,拼接两个词的实体最终表示和池化处理得到的句子序列编码结果,得到句子综合表示;重构标签并对重构后的标签进行编码;根据句子综合表示和重构标签编码进行对比学习;计算三元损失并根据三元损失调整模型参数,得到训练好的模型;本发明专利技术可解决缺乏同时考虑文本全局与局部信息、获得的文本编码结果缺乏迁移学习效果的问题。

【技术实现步骤摘要】

本专利技术属于自然语言处理,具体涉及一种多粒度的实体关系抽取方法


技术介绍

1、知识是人类在实践中客观认识世界的结晶。在信息时代,知识图谱是知识工程的重要分支,它以符号形式结构化的描述了物理世界中的概念及其相互的关系。如何获取结构化信息构建知识图谱,成为了一个重大的挑战,信息抽取作为一种可以自动抽取结构化信息的技术,逐渐引起广泛关注。

2、在自然语言处理领域,关系抽取是信息抽取的基本任务之一,主要是为了正确识别文本中实体与实体之间的关系。关系抽取的意义就是为知识图谱构建、信息检索和问答系统等下游任务提供支撑。关系抽取发展至今,主要存在三种关系抽取方法:全监督关系抽取、半监督关系抽取以及远程监督关系抽取。基于半监督关系抽取方法和基于远程监督的关系抽取方法聚焦在存在大量噪声的弱标记样本上;基于全监督的关系抽取方法又分为两类:基于管道的方法和联合抽取方法。联合学习方法对实体和关系同时进行抽取。基于管道的方法将命名实体识别和关系抽取看作是两个独立的任务,即先搭建模型进行实体识别,然后在实体识别的基础上进行关系抽取,与联合抽取模型相比,基于管道的方法可本文档来自技高网...

【技术保护点】

1.一种多粒度的实体关系抽取方法,其特征在于,包括:获取待识别的文本并对其进行预处理,将预处理后的文本输入到训练好的实体关系抽取模型中,得到实体关系抽取结果;

2.根据权利要求1所述的一种多粒度的实体关系抽取方法,其特征在于,对训练文本进行预处理的过程包括:去除文本中的特殊字符;对文本中句子的首尾添加开始标记和结束标记,对句子中的两个待识别实体前后分别添加特殊标记@和#,得到预处理好的文本。

3.根据权利要求1所述的一种多粒度的实体关系抽取方法,其特征在于,所述步骤S4中,计算实体最终表示的过程包括:

4.根据权利要求3所述的一种多粒度的实体关系抽取方...

【技术特征摘要】

1.一种多粒度的实体关系抽取方法,其特征在于,包括:获取待识别的文本并对其进行预处理,将预处理后的文本输入到训练好的实体关系抽取模型中,得到实体关系抽取结果;

2.根据权利要求1所述的一种多粒度的实体关系抽取方法,其特征在于,对训练文本进行预处理的过程包括:去除文本中的特殊字符;对文本中句子的首尾添加开始标记和结束标记,对句子中的两个待识别实体前后分别添加特殊标记@和#,得到预处理好的文本。

3.根据权利要求1所述的一种多粒度的实体关系抽取方法,其特征在于,所述步骤s4中,计算实体最终表示的过程包括:

4.根据权利要求3所述的一种多粒度的实体关系抽取方法,其特征在于,...

【专利技术属性】
技术研发人员:张清华周镇宇杜泓霏罗南方
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1