当前位置: 首页 > 专利查询>新疆大学专利>正文

一种基于多粒度对比学习的远程监督关系抽取方法技术

技术编号:42763537 阅读:23 留言:0更新日期:2024-09-18 13:49
本发明专利技术提供了一种基于多粒度对比学习的远程监督关系抽取方法,涉及信息抽取技术领域,方法包括:获取数据样本中的句子;将句子分割为单词序列;向单词序列的头部和尾部分别进行标记,得到标记后的句子;利用双向编码器得到初始句子特征;利用正例对编码器得到初始正样本特征;根据图编码器得到关系和实体对的约束特征并将约束特征融合到对应的初始句子特征和初始正样本特征中,得到增强句子特征和增强正样本特征;将增强句子特征融合为包级特征;将包级特征和增强正样本特征输入对比学习关系分类器,对数据样本的关系进行抽取,得到分类关系。本发明专利技术解决了忽略不同层级特征之间的交互导致关系抽取的准确性和效率低及长尾关系抽取能力弱的问题。

【技术实现步骤摘要】

本专利技术涉及信息抽取,特别是涉及一种基于多粒度对比学习的远程监督关系抽取方法


技术介绍

1、关系抽取是自然语言处理中的一项基础任务,也是信息提取的关键子任务。关系抽取的目的是从文本中自动识别实体(如人名、地点、组织等)以及实体间的语义关系,这些关系通常以[头实体、关系、尾实体]的三元组形式或是[主语、谓语、宾语]的结构表示。关系抽取任务获得的语义信息能够为知识图谱构建、信息检索、智能问答系统等提供支持,是推动语义网和人工智能发展的关键技术之一。

2、不过,有监督的关系抽取方法存在明显的瓶颈,这类方法往往依赖大量手工标注的文本数据。但在大数据的时代背景下,人工标注过程不仅耗时耗力,而且成本高昂。此外,随着知识的日益扩展和更新,手工标注的数据集很快就会变得过时,无法满足实时更新的需求。因此,远程监督方法被应用到关系抽取任务中。

3、远程监督是一种将结构化知识库与非结构化语料库进行配对,以自动生成标注数据的方法(例如图1)。远程监督遵循一个基本假设:如果两个实体在知识库中有关系记录,那么任何包含这两个实体的文本都可能表达这种关系。这种本文档来自技高网...

【技术保护点】

1.一种基于多粒度对比学习的远程监督关系抽取方法,其特征在于,应用于远程监督关系抽取模型,所述远程监督关系抽取模型包括:正例对编码器、图编码器和包编码器,所述正例对编码器用于获取初始正样本特征,所述图编码器用于提取约束图中关系和实体对的约束特征并将所述所述约束特征融合到对应的初始句子特征和初始正样本特征中,得到增强句子特征和增强正样本特征,所述包编码器用于将所述增强句子特征融合为包级特征,方法包括:

2.根据权利要求1所述的一种基于多粒度对比学习的远程监督关系抽取方法,其特征在于,所述正例对编码器的构建方法为:

3.根据权利要求1所述的一种基于多粒度对比学习的远程...

【技术特征摘要】

1.一种基于多粒度对比学习的远程监督关系抽取方法,其特征在于,应用于远程监督关系抽取模型,所述远程监督关系抽取模型包括:正例对编码器、图编码器和包编码器,所述正例对编码器用于获取初始正样本特征,所述图编码器用于提取约束图中关系和实体对的约束特征并将所述所述约束特征融合到对应的初始句子特征和初始正样本特征中,得到增强句子特征和...

【专利技术属性】
技术研发人员:刘胜全贾李睿智蹇兆瑞孔博刘源姜少臣
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1