一种实体对齐的主动学习框架方法技术

技术编号:31378313 阅读:43 留言:0更新日期:2021-12-15 11:19
本发明专利技术提出一种实体对齐的主动学习框架方法,从缩小实体对齐的范围出发,考虑生产环境中缺少标签数据的问题,使用多角度的两个学习引擎相互对抗和增强的方式,对模型进行训练,以完成实体对齐任务。该方法主要包括:实体分块、训练集生成、主动学习过程和候选集生成与预测。主动学习过程中包含对实体的不同侧重的模型,可以分别考虑实体的属性和关系。同时对无标签数据的指标难以测量问题,提出使用继续训练这一方式进行补足,从而满足实体对齐模型在不损失性能的同时在无标签数据的情况下的应用。的应用。的应用。

【技术实现步骤摘要】
一种实体对齐的主动学习框架方法


[0001]本专利技术属于知识图谱
,更具体地说,涉及基于主动学习原理的实体对齐方法。

技术介绍

[0002]近年来,知识图谱在越来越多的领域上得以应用,而知识图谱的构建与完善需要多源知识的融入。实体对齐是多源数据融合中的重要过程。当数据来自于不同的知识库体系,需要分辨其描述的是否为同一个实体,将相关信息融合,最终生成目标知识图谱中唯一的实体。这一般会被认为是一个求最相似问题或判断两个实体是否是同一个的二分类问题,实体名称、实体携带的属性以及其拓扑关系信息等,都可以作为有用特征。同时,通过规则或其它方法限制实体数量,缩小匹配的实体范围。
[0003]主动学习是机器学习的子领域,也称为查询学习、最优实验设计。在整个训练过程中有着人工参与的环节,通过查询策略筛选出合适的数据交给人工进行标注。主动学习从未标注样本集中选择部分样本,标注后补充到已标注样本集中来继续训练模型,降低人工标注的代价。通过标注少量的数据使得模型的性能能够与全标签数据训练的模型性能持平设置更优,于是便可以通过主动学习的方式来减少数据标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体对齐的主动学习框架方法,其特征在于,包括如下步骤:S1、实体分块:对输入的实体集先根据实体的相关信息,对实体进行一个粗略的匹配;从所有的实体对中,筛选出潜在匹配的实体对作为候选项;对此设置分块函数,每个分块函数确定一块,块内保存实体对,所述实体对可能在不同的块中同时存在;S2、训练集生成:根据实体分块的结果,从每个块中选择一部分实体对,以及通过随机匹配的方式生成一部分实体对,然后这两部分的实体对共同组成要输入到主动学习过程中的训练集,即无标签数据集;S3、主动学习过程:根据不同的场景,设置不同的学习引擎,即侧重不同的分类器模型;当实体的关系信息缺失或者稀疏时,设置两个基于属性的模型作为学习引擎;当实体的关系或者属性信息都比较完善时,则设置基于属性的模型和基于关系的模型为学习引擎;然后将学习引擎对训练集的预测结果中最为冲突的一些实体对交由专家判断是否加入到标注样本集;根据协同训练的思想,在基于属性的模型和基于关系的模型预测的结果中,将预测一致的实体对直接作为...

【专利技术属性】
技术研发人员:刘宇张鑫赵哲焕刘学壮陈鹏
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1