【技术实现步骤摘要】
本专利技术涉及实体网络数据处理,尤其是一种基于混合教学的半监督实体对齐方法。
技术介绍
1、实体是指现实世界中客观存在的并可以相互区分的对象或事物。现实世界中的实体通过结构化的方式组织在一起构成实体网络,例如以用户为主体的社交网络和以三元组形式构成的知识图谱等。基于不同的应用需求或不同的数据源,大量的实体网络被构建出来,例如跨平台社交网络和跨语言知识图谱等。然而,这些网络中的实体信息互补且大量冗余,如何识别不同网络中具有相同指代的实体成为了一项重要的研究内容。实体对齐旨在挖掘并识别坐落于不同网络中等效的实体,其能够实现网络信息的高效整合,并促进基于网络的下游应用,例如事件预测、推荐系统和知识推理与问答等。
2、基于嵌入的实体对齐方法是当前热门解决方案之一,其被广泛的应用并取得了良好的对齐性能。这类方法的通用技术路线是首先将来自不同网络的节点进行编码,然后通过执行配对比较,为每个实体找到最可能的对应副本。然而,这类方法往往需要大量的标注数据即训练数据。然而,由于大规模的手动注释实体映射是非常耗时和费力的,能够提供的训练数据往往
...【技术保护点】
1.基于混合教学的半监督实体对齐方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,学生模型采用基于边界的损失函数,其定义如下所示:
3.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,教师模型生成伪标签矩阵并转换为标签概率分布以实现概率伪标签学习,教师模型的概率伪标签生成过程中采用双向投票策略,双向投票策略具体为:通过对未标记的源实体和目标实体之间的成对相似度来获得相似度矩阵,对于每个方向的相似度矩阵,选取在每行中具有最大预测相似性的实体对作为伪
...
【技术特征摘要】
1.基于混合教学的半监督实体对齐方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,学生模型采用基于边界的损失函数,其定义如下所示:
3.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,教师模型生成伪标签矩阵并转换为标签概率分布以实现概率伪标签学习,教师模型的概率伪标签生成过程中采用双向投票策略,双向投票策略具体为:通过对未标记的源实体和目标实体之间的成对相似度来获得相似度矩阵,对于每个方向的相似度矩阵,选取在每行中具有最大预测相似性的实体对作为伪标签。
4.根据权利要求1所述的基于混合教学的半监督实体对齐方法,其特征在于:所述步骤2中,所述教师模型中加入校正模块来调整伪标签学习,基于匹配多样性的校正模块测量可能的伪标签与其他竞争伪标签的偏差程度,偏差越大表示当前该伪标签为错误标签的可能性越大。
5...
【专利技术属性】
技术研发人员:周斌,谢锋,江荣,涂宏魁,王晔,李爱平,宋鑫,曾祥,赵学臣,田磊,谭郁松,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。