基于对比学习的文档关系抽取方法及其相关设备技术

技术编号:32461866 阅读:15 留言:0更新日期:2022-02-26 08:52
本申请实施例属于人工智能技术领域,涉及一种基于对比学习的文档关系抽取方法及其相关设备,包括基于语料文档集合生成实体集合,基于知识库确定实体集合的非知识库实体;将非知识库实体和知识库实体输入向量生成模型,获得非知识库实体表征向量和知识库实体表征向量;确定非知识库实体的替代实体;判断实体集合中处于同一句子的实体是否存在关系标签,若存在,获取关系标签,生成句子关系正样本集合,若不存在,生成句子关系负样本集合;训练初始特征编码器,获得目标特征编码器;将待分类句子输入目标特征编码器,获得表征向量,将表征向量输入关系分类器,获得关系分类。本申请在减少样本标注的同时,提高关系抽取的准确性。提高关系抽取的准确性。提高关系抽取的准确性。

【技术实现步骤摘要】
基于对比学习的文档关系抽取方法及其相关设备


[0001]本申请涉及人工智能
,尤其涉及基于对比学习的文档关系抽取方法及其相关设备。

技术介绍

[0002]关系抽取是自然语言处理领域的重要分支,其目的在于分析出文本中不同实体之间蕴含的关系,例如“中国的首都是北京”这句话中蕴含的关系有:<X:北京,Y:中国,X是Y的首都>。又例如“王小明的父亲王大明出生在上海”这句话中蕴含的关系更多,有:<X:王大明,Y:王小明,X是Y的父亲>、<X:王大明,Y:上海,X的出生地是Y>。
[0003]目前,关系抽取采用的技术思路主要都属于有监督学习范畴。通过标注训练语料,形成句子

关系标签对,再利用各种机器学习算法,训练分类算法;当模型训练结束后,在推理阶段再输入新句子,识别其蕴含的关系。但这需要花费大量精力对语料进行标注,在很多场景下限制了算法的落地。近年来学者提出了基于弱监督学习识别句子中关系的思路,其主要思想是认为若两个实体内蕴含某种关系,而这两个实体又同时出现在某个句子中,则可以在一定程度认为该句子中蕴含了这种关系。但这种方法抽取的实体

关系对置信度太低,对抽取出的可能关系仍然要花费大量精力去人工筛选。

技术实现思路

[0004]本申请实施例的目的在于提出一种基于对比学习的文档关系抽取方法、装置、计算机设备及存储介质,在减少样本标注的同时,提高关系抽取的准确性。
[0005]为了解决上述技术问题,本申请实施例提供一种基于对比学习的文档关系抽取方法,采用了如下所述的技术方案:
[0006]一种基于对比学习的文档关系抽取方法,包括下述步骤:
[0007]接收语料文档集合,基于所述语料文档集合生成实体集合,并基于预设知识库确定所述实体集合的非知识库实体,其中,所述知识库包括知识库实体;
[0008]将所述非知识库实体和所述知识库实体分别输入至预训练的向量生成模型中,分别获得非知识库实体表征向量和知识库实体表征向量;
[0009]根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体;
[0010]基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签,若存在,则获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合,若不存在,则将对应的句子作为负样本语料,基于所述负样本语料生成句子关系负样本集合;
[0011]基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器;
[0012]接收待分类句子,将待分类句子输入至目标特征编码器,获得输出的表征向量,将
表征向量输入至预训练的关系分类器,获得关系分类。
[0013]进一步的,所述基于所述语料文档集合生成实体集合的步骤包括:
[0014]对所述语料文档集合中的语料文档进行分词操作,获得分词集合;
[0015]对所述分词集合进行实体识别操作,获得所述实体集合。
[0016]进一步的,所述根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体的步骤包括:
[0017]基于所述非知识库实体表征向量和所述知识库实体表征向量计算所述非知识库实体和所述知识库实体的余弦相似度;
[0018]将最大的所述余弦相似度对应的知识库的实体作为所述非知识库实体的替代实体。
[0019]进一步的,所述基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签的步骤包括:
[0020]确定所述实体集合中处于同一句子的任意两个实体是否存在非知识库实体;
[0021]若是,则将所述非知识库实体的替代实体作为节点实体;
[0022]若否,则将所述实体集合中处于同一句子的任意两个实体作为节点实体;
[0023]确定在所述知识库中所述两个节点实体是否具有连接关系;
[0024]若两个节点实体具有连接关系,则存在所述关系标签。
[0025]进一步的,所述获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合的步骤包括:
[0026]确定在所述知识库中两个所述节点实体是否直接相连;
[0027]若是,则将连接两个所述节点实体的实体关系作为所述关系标签;
[0028]若否,则将从所述一个节点实体出发至所述另一个节点实体,所经过的最后一个实体关系作为所述关系标签;
[0029]将所述关系标签放置在对应的所述正样本语料的句尾,并添加预设分割函数,生成所述句子关系正样本集合。
[0030]进一步的,所述基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器的步骤包括:
[0031]所述句子关系正样本集合和所述句子关系负样本集合组成句子关系样本集合,基于预设比例关系,将句子关系样本集合划分为训练集和验证集;
[0032]通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器收敛,获得中间特征编码器;
[0033]通过所述验证集微调所述中间特征编码器,直至所述中间特征编码器收敛,获得所述目标特征编码器。
[0034]进一步的,所述通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器收敛,获得中间特征编码器的步骤包括:
[0035]通过所述训练集训练预设初始特征编码器,直至所述初始特征编码器的损失函数达到预设条件,确定所述初始特征编码器收敛,获得所述中间特征编码器,其中,所述损失函数的计算公式如下:
[0036]其中,所述表示所述初始特征编码器输出的所述句子关系正样本集合的正样本的表征向量,所述表示所述初始特征编码器输出的所述句子关系负样本集合的负样本的表征向量,sim表示计算余弦相似度,r为超参数。
[0037]为了解决上述技术问题,本申请实施例还提供一种基于对比学习的文档关系抽取装置,采用了如下所述的技术方案:
[0038]一种基于对比学习的文档关系抽取装置,包括:
[0039]接收模块,用于接收语料文档集合,基于所述语料文档集合生成实体集合,并基于预设知识库确定所述实体集合的非知识库实体,其中,所述知识库包括知识库实体;
[0040]输入模块,用于将所述非知识库实体和所述知识库实体分别输入至预训练的向量生成模型中,分别获得非知识库实体表征向量和知识库实体表征向量;
[0041]确定模块,用于根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体;
[0042]生成模块,用于基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的文档关系抽取方法,其特征在于,包括下述步骤:接收语料文档集合,基于所述语料文档集合生成实体集合,并基于预设知识库确定所述实体集合的非知识库实体,其中,所述知识库包括知识库实体;将所述非知识库实体和所述知识库实体分别输入至预训练的向量生成模型中,分别获得非知识库实体表征向量和知识库实体表征向量;根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体;基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签,若存在,则获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合,若不存在,则将对应的句子作为负样本语料,基于所述负样本语料生成句子关系负样本集合;基于所述句子关系正样本集合和所述句子关系负样本集合训练预设初始特征编码器,获得目标特征编码器;接收待分类句子,将待分类句子输入至目标特征编码器,获得输出的表征向量,将表征向量输入至预训练的关系分类器,获得关系分类。2.根据权利要求1所述的基于对比学习的文档关系抽取方法,其特征在于,所述基于所述语料文档集合生成实体集合的步骤包括:对所述语料文档集合中的语料文档进行分词操作,获得分词集合;对所述分词集合进行实体识别操作,获得所述实体集合。3.根据权利要求1所述的基于对比学习的文档关系抽取方法,其特征在于,所述根据所述非知识库实体表征向量和所述知识库实体表征向量,从所述知识库中确定所述非知识库实体的替代实体的步骤包括:基于所述非知识库实体表征向量和所述知识库实体表征向量计算所述非知识库实体和所述知识库实体的余弦相似度;将最大的所述余弦相似度对应的知识库的实体作为所述非知识库实体的替代实体。4.根据权利要求1所述的基于对比学习的文档关系抽取方法,其特征在于,所述基于所述知识库和所述替代实体判断所述实体集合中处于同一句子的实体之间是否存在关系标签的步骤包括:确定所述实体集合中处于同一句子的任意两个实体是否存在非知识库实体;若是,则将所述非知识库实体的替代实体作为节点实体;若否,则将所述实体集合中处于同一句子的任意两个实体作为节点实体;确定在所述知识库中所述两个节点实体是否具有连接关系;若两个节点实体具有连接关系,则存在所述关系标签。5.根据权利要求4所述的基于对比学习的文档关系抽取方法,其特征在于,所述获取所述关系标签,并将对应的句子作为正样本语料,基于所述正样本语料和所述关系标签生成句子关系正样本集合的步骤包括:确定在所述知识库中两个所述节点实体是否直接相连;若是,则将连接两个所述节点实体的实体关系作为所述关系标签;若否,则将从所述一个节点实体出发至所述另一个节点实体,所经过的最后一个实体
关系作为所述关系标签;将所述关系标签放置在对应的所述正样本语料的句尾,并添加预设分割函数,生成所述句子关...

【专利技术属性】
技术研发人员:王伟黄勇其于翠翠张黔
申请(专利权)人:润联软件系统深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1