【技术实现步骤摘要】
不同标注程度下文档级关系抽取的统一正无标记学习方法
[0001]本专利技术涉及自然语言处理中文档级关系抽取
,尤其是一种不同标注程度下文档级关系抽取的统一正无标记学习方法。
技术介绍
[0002]随着大数据和人工智能时代的来临,互联网上各类信息以爆炸般的速度增长,从海量的数据中获取信息成为一个亟待解决的问题。信息抽取作为自然语言理解的一个重要分支,其主要目标是将嵌入在文本中的无结构信息通过自动提取进而转化为结构化数据,与其相关的技术研究逐渐兴起。关系抽取,作为信息抽取的一个重要的子任务,旨在识别给定文本中两个实体之间的关系。关系抽取作为自然语言理解领域的一项常见的基础任务,在各个方面都有着广泛的应用:例如创建新的结构化知识库并增强现有知识库;构建垂直领域的知识图谱;支持上层的高级应用如文本摘要、自动问答、机器翻译、语义网标注等。关系抽取任务主要集中与从一个句子中抽取实体对间的相互关系,而最近的研究中,从跨越多个句子的实体对之间抽取关系的文档级关系抽取任务得到了越来越多的关注。
[0003]现有技术的文档级关系抽 ...
【技术保护点】
【技术特征摘要】
1. 一种不同标注程度下文档级关系抽取的统一正无标记学习方法,其特征在于,该方法具体包括以下步骤:步骤一:正无标记学习对多标签文档级关系抽取的每一个关系类别进行先验估计,然后对每一个类别采用二元的正无标记学习方法,将其转化为多标签的正无标记学习;步骤二:先验转移的正无标记学习通过估计的先验和已经标注的数据,得到先验转移后的正无标记学习公式,计算未标记数据的先验分布与总体先验分布之间的偏差;步骤三:平方排名损失采用无类别分数作为自适应阈值,区分无类关系和预定义类关系,使预定义正向标签的排名高于无类标签,而预定义负向标签的排名更低。2.根据权利要求1所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。