基于混合教学的半监督实体对齐方法技术

技术编号:40035456 阅读:18 留言:0更新日期:2024-01-16 18:54
本发明专利技术涉及一种基于混合教学的半监督实体对齐方法,包括如下步骤:步骤1:获取实体网络中的实体数据作为学生模型和教师模型的输入数据,从实体数据中选取部分数据进行标记得到标记训练数据;步骤2:教师模型基于若干未标记实体数据生成概率伪标签,学生模型基于标记训练数据和概率伪标签进行端到端的对齐学习;步骤3:优化学生模型的损失函数,在每一轮迭代中更新学生模型,同时教师模型通过学生模型参数的指数移动平均进行参数更新;步骤4:使用学生模型进行实体对齐判断,挖掘出实体数据中的等价实体。整个训练过程中,学生模型和教师模型交替着进行更新,并不断优化,教师模型不断产生高质量伪标签,促进获得更准确的对齐性能。

【技术实现步骤摘要】

本专利技术涉及实体网络数据处理,尤其是一种基于混合教学的半监督实体对齐方法


技术介绍

1、实体是指现实世界中客观存在的并可以相互区分的对象或事物。现实世界中的实体通过结构化的方式组织在一起构成实体网络,例如以用户为主体的社交网络和以三元组形式构成的知识图谱等。基于不同的应用需求或不同的数据源,大量的实体网络被构建出来,例如跨平台社交网络和跨语言知识图谱等。然而,这些网络中的实体信息互补且大量冗余,如何识别不同网络中具有相同指代的实体成为了一项重要的研究内容。实体对齐旨在挖掘并识别坐落于不同网络中等效的实体,其能够实现网络信息的高效整合,并促进基于网络的下游应用,例如事件预测、推荐系统和知识推理与问答等。

2、基于嵌入的实体对齐方法是当前热门解决方案之一,其被广泛的应用并取得了良好的对齐性能。这类方法的通用技术路线是首先将来自不同网络的节点进行编码,然后通过执行配对比较,为每个实体找到最可能的对应副本。然而,这类方法往往需要大量的标注数据即训练数据。然而,由于大规模的手动注释实体映射是非常耗时和费力的,能够提供的训练数据往往是不充分的,这对基于本文档来自技高网...

【技术保护点】

1.基于混合教学的半监督实体对齐方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,学生模型采用基于边界的损失函数,其定义如下所示:

3.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,教师模型生成伪标签矩阵并转换为标签概率分布以实现概率伪标签学习,教师模型的概率伪标签生成过程中采用双向投票策略,双向投票策略具体为:通过对未标记的源实体和目标实体之间的成对相似度来获得相似度矩阵,对于每个方向的相似度矩阵,选取在每行中具有最大预测相似性的实体对作为伪标签。

...

【技术特征摘要】

1.基于混合教学的半监督实体对齐方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,学生模型采用基于边界的损失函数,其定义如下所示:

3.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,教师模型生成伪标签矩阵并转换为标签概率分布以实现概率伪标签学习,教师模型的概率伪标签生成过程中采用双向投票策略,双向投票策略具体为:通过对未标记的源实体和目标实体之间的成对相似度来获得相似度矩阵,对于每个方向的相似度矩阵,选取在每行中具有最大预测相似性的实体对作为伪标签。

4.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,所述教师模型中加入校正模块来调整伪标签学习,基于匹配多样性的校正模块测量可能的伪标签与其他竞争伪标签的偏差程度,偏差越大表示当前该伪标签为错误标签的可能性越大。

5...

【专利技术属性】
技术研发人员:周斌谢锋江荣涂宏魁王晔李爱平宋鑫曾祥赵学臣田磊谭郁松
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1