一种基于主动学习的文本关系抽取方法及系统技术方案

技术编号:42559966 阅读:26 留言:0更新日期:2024-08-29 00:30
本发明专利技术提出一种基于主动学习的文本关系抽取方法和系统,包括:从文档库中筛选出所有和知识库中实体对相异的新实体对;使用噪声预测模型筛除所有新实体对中的噪声数据,得到中间实体对,使用关系预测模型对所有中间实体对进行打分,为得分高于阈值的中间实体打标注,形成新关系数据集;合并新关系数据集、重标注数据集和清洁数据集,形成远程监督关系抽取数据集;使用K个具有不同噪声转换矩阵的句子编码器分别拟合句子的向量表示在各标签类型上的噪声分布,以将真实标签的语义表征映射到噪声标签的语义表征空间中,得到句子的预测标签,其中K为标签类型总数;基于训练完成后的K个句子编码器产生的预测结果,得到目标句子中实体对的文本关系。

【技术实现步骤摘要】

本专利技术将被应用于自然语言处理中的关系抽取领域,并特别涉及一种基于主动学习的文本关系抽取方法及系统


技术介绍

1、关系抽取通常作用在实体抽取与实体链接之后。在识别出句子中的关键实体后,还需要抽取两个实体或多个实体之间的语义关系。这种语义关系通常用于表达两个实体之间的联系,并与这两个实体一起组成文本所要表达的主要含义。例如,“xxx创立了a公司”表明了事实(xxx,创立,a公司)。因此,实体语义关系抽取是信息抽取的重要任务之一,将非结构化文本转化为结构化知识,是构建领域本体、知识图谱、开发问答系统、信息检索的基础工作,准确抽取出实体间的语义关系可以丰富语义知识,有利于提升下游任务建模的性能。语义关系通常用于连接两个实体,并与实体一起表达文本的主要含义。关系抽取中以spo结构的三元组来组织世界的知识,即(subject,predication,object),并从非结构化的文本中提取这种知识三元组。一个典型的re范式是给定一个带有两个标记实体的句子,模型需要将句子分类到预定义的关系中。

2、当前主流的做法是利用深度模型从输入的原始文本中自动抽取本文档来自技高网...

【技术保护点】

1.一种基于主动学习的文本关系抽取方法,其特征在于,包括:

2.如权利要求1所述的一种基于主动学习的文本关系抽取方法,其特征在于,该噪声预测模型的训练过程包括:

3.如权利要求1所述的一种基于主动学习的文本关系抽取方法,其特征在于,该句子编码步骤包括:

4.如权利要求1所述的一种基于主动学习的文本关系抽取方法,其特征在于,该关系预测模型的训练过程包括:以该清洁数据集中实体对之间的关系作为训练目标,训练该关系预测模型。

5.一种基于主动学习的文本关系抽取系统,其特征在于,包括:

6.如权利要求1所述的一种基于主动学习的文本关系抽取...

【技术特征摘要】

1.一种基于主动学习的文本关系抽取方法,其特征在于,包括:

2.如权利要求1所述的一种基于主动学习的文本关系抽取方法,其特征在于,该噪声预测模型的训练过程包括:

3.如权利要求1所述的一种基于主动学习的文本关系抽取方法,其特征在于,该句子编码步骤包括:

4.如权利要求1所述的一种基于主动学习的文本关系抽取方法,其特征在于,该关系预测模型的训练过程包括:以该清洁数据集中实体对之间的关系作为训练目标,训练该关系预测模型。

5.一种基于主动学习的文本关系抽取系统,其特征在于,包括:

6.如权利要求1所述的...

【专利技术属性】
技术研发人员:郭嘉丰范意兴洪椿祥闫强程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1