不同标注程度下文档级关系抽取的统一正无标记学习方法技术

技术编号:36163032 阅读:24 留言:0更新日期:2022-12-31 20:11
本发明专利技术公开了一种不同标注程度下文档级关系抽取的统一正无标记学习方法,其特点是将未标注的样本视为混杂着正样本和负样本的结合,使用一种正无标记学习方法,从嘈杂的未标记样本中学习出对应关系的模式,具体包括:正无标记学习、先验转移的正无标记学习和平方排名损失等步骤。本发明专利技术与现有技术相比具有方法简便、易行,可以灵活和方便的嵌入到各种骨架模型当中,只需更改对应的损失函数,适合多种多标签分类且不完全标注的任务,大量节省训练文档级关系抽取模型的所需数据标注成本,只需要标注文档中的部分关系即可训练出一个合理的模型,具有广泛的应用前景。具有广泛的应用前景。具有广泛的应用前景。

【技术实现步骤摘要】
不同标注程度下文档级关系抽取的统一正无标记学习方法


[0001]本专利技术涉及自然语言处理中文档级关系抽取
,尤其是一种不同标注程度下文档级关系抽取的统一正无标记学习方法。

技术介绍

[0002]随着大数据和人工智能时代的来临,互联网上各类信息以爆炸般的速度增长,从海量的数据中获取信息成为一个亟待解决的问题。信息抽取作为自然语言理解的一个重要分支,其主要目标是将嵌入在文本中的无结构信息通过自动提取进而转化为结构化数据,与其相关的技术研究逐渐兴起。关系抽取,作为信息抽取的一个重要的子任务,旨在识别给定文本中两个实体之间的关系。关系抽取作为自然语言理解领域的一项常见的基础任务,在各个方面都有着广泛的应用:例如创建新的结构化知识库并增强现有知识库;构建垂直领域的知识图谱;支持上层的高级应用如文本摘要、自动问答、机器翻译、语义网标注等。关系抽取任务主要集中与从一个句子中抽取实体对间的相互关系,而最近的研究中,从跨越多个句子的实体对之间抽取关系的文档级关系抽取任务得到了越来越多的关注。
[0003]现有技术的文档级关系抽取方法主要集中于完全本文档来自技高网...

【技术保护点】

【技术特征摘要】
1. 一种不同标注程度下文档级关系抽取的统一正无标记学习方法,其特征在于,该方法具体包括以下步骤:步骤一:正无标记学习对多标签文档级关系抽取的每一个关系类别进行先验估计,然后对每一个类别采用二元的正无标记学习方法,将其转化为多标签的正无标记学习;步骤二:先验转移的正无标记学习通过估计的先验和已经标注的数据,得到先验转移后的正无标记学习公式,计算未标记数据的先验分布与总体先验分布之间的偏差;步骤三:平方排名损失采用无类别分数作为自适应阈值,区分无类关系和预定义类关系,使预定义正向标签的排名高于无类标签,而预定义负向标签的排名更低。2.根据权利要求1所述...

【专利技术属性】
技术研发人员:胡文心汪晔杨静刘新新
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1