一种基于语义与结构采样策略的实体对齐方法和装置制造方法及图纸

技术编号:40426510 阅读:28 留言:0更新日期:2024-02-20 22:47
本申请涉及一种基于语义与结构采样策略的实体对齐方法,包括将选择的未标注实体的上一次迭代得到的边界不确定性数值和未标记实体链接的其他实体的上一次迭代的边界不确定性数值迭代计算,得到未标记实体的边界不确定性的数值,根据未标记实体的边界不确定性的数值,选择标注实体标注并更新标记数据集,利用更新后标记数据集实体对齐模型训练,重复上述步骤,直到实体对齐模型满足预设训练结果。本申请优先标注对知识图谱融合更有价值的数据,更新语义表征模型和实体对齐模型,提升采样策略的效果,不断迭代上述过程,在有限的预算下,可以实现更好的实体对齐效果。本申请还涉及一种基于语义与结构采样策略的实体对齐装置、设备和存储介质。

【技术实现步骤摘要】

本申请涉及文本处理,尤其涉及一种基于语义与结构采样策略的实体对齐方法和装置


技术介绍

1、当前,从不同的知识图谱中识别出等效实体进行图谱融合实体对齐是知识图谱融合的关键技术。现有方式一是采用端到端实体匹配的神经网络模型实现实体对齐的模型,但是需要依赖大量种子对齐数据作为训练数据,而这些种子对齐数据的标注成本非常高;现有方式二是专注于具有文字属性的表格数据,其提出相似性度量或深度学习模型来比较文字属性,并生成主动学习的特征向量。然而,知识图谱中的实体与数据库中的实体差别很大,不同的知识图谱通常由异构模式表示。因此,如何能以更少的标注成本且更高效率的生成实体对齐模型是目前亟需解决的技术问题。


技术实现思路

1、为了能以更少的标注成本且更高效率的生成实体对齐模型,本申请提供了一种基于语义与结构采样策略的实体对齐方法和装置。

2、第一方面,本申请提供了一种基于语义与结构采样策略的实体对齐方法,方法包括:

3、提取未标记数据池中的所有未标记实体;

4、将所述未标记实体的上一次迭代得本文档来自技高网...

【技术保护点】

1.一种基于语义与结构采样策略的实体对齐方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值,具体包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述计算所述未标记实体ei和待融合图谱中的各实体em的相似度F...

【技术特征摘要】

1.一种基于语义与结构采样策略的实体对齐方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述未标记实体的上一次迭代得到的边界不确定性数值、所述未标记实体链接的其他实体的上一次迭代的边界不确定性数值,以及控制所述未标记实体的不确定性和所链接的其他实体不确定性的比重值,输入迭代算法进行计算直到满足预设迭代结果,得到所述未标记实体的边界不确定性的数值,具体包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述计算所述未标记实体ei和待融合图谱中的各实体em的相似度f(ei,em),具体包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述未标记实体ei和所述实体em输入语义表征模型得到...

【专利技术属性】
技术研发人员:何可嘉徐会芳邓桃张英强梁攀飞马超
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1