System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法技术_技高网

一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法技术

技术编号:40554397 阅读:11 留言:0更新日期:2024-03-05 19:14
本发明专利技术提出一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法。与已有技术相比,本发明专利技术能提供多维实体相似度判定方法,能够挖掘出常规基于实体语义的方法容易忽略的等价实体。本发明专利技术所述方法能够实现实体之间语义、属性项、关键属性值三个方面的多维相似度计算,根据计算结果确定等价实体,进行实体对齐。可以满足对相似实体的深度挖掘,捕捉更多等价实体,提高实体对齐的准确率。同时减少新实体加入知识图谱的人工成本,提升实体对齐自动化程度。

【技术实现步骤摘要】

本专利技术涉及知识图谱实体对齐,特别是涉及一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法


技术介绍

1、随着遥感卫星和伴随的遥感影像数据越来越多,产生的遥感地理信息数据也成倍增加,而现有的各类遥感数据没有形成有效的联动,信息之间较为孤立。遥感地理信息知识图谱构建的目的就是挖掘遥感地理信息之间的潜在联系,将各类知识关联起来,避免产生信息孤岛,最大化地发挥遥感数据价值。从而支持各类信息联动查看与检索,进一步实现辅助用户进行多源知识联合分析和决策。

2、将从遥感地理信息抽取出的新实体添加进已有的遥感地理信息知识图谱时,需要首先进行实体对齐操作。实体对齐是指将不同数据源或知识图谱中表示相同实体的实例进行匹配和对应的过程。在不同的遥感地理信息数据中,同一实体可能以不同的标识符、属性或描述方式存在,因此实体对齐旨在通过确定抽取出的新实体和已有知识图谱实体之间的对应关系,并将等价实体进行关联。从而使得不同来源和格式的遥感地理信息能够进行集成和融合。通过实体对齐,可以提高遥感地理信息数据的一致性、准确性和可用性,消除多源信息的异构性,从而更有效地支持以遥感地理信息知识图谱为底座的检索分析和联合决策。

3、然而,现有的方法例如levenshtein距离,jaccard相似度等算法更偏重词语本身语义层面的实体对齐,而忽略了遥感地理信息实体在知识图谱中的结构特点及其自身具有的属性信息和关键属性值,导致某些事实上等价实体会因为相似度计算维度单一而被忽略或错误分类。因此,需要一种更加全面合理的实体相似度判定方法来对知识抽取得到的新实体与遥感地理信息知识图谱实体进行实体对齐。


技术实现思路

1、本专利技术目的是为了克服已有实体对齐方法的不足之处,提出了一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法。

2、本专利技术是通过以下技术方案实现的,本专利技术提出一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法,所述方法包括以下步骤:

3、步骤一、对已有的遥感地理信息知识图谱中的实体集合中的每个实体e,其名称、属性项和属性值分别记为en,ep和ev;

4、步骤二、将从其他数据源数据中实体抽取出的未对齐实体记为u,实体u名称记为un,将未对齐实体的属性项记为up,对应的属性值记为uv;

5、步骤三、计算知识图谱已有实体e和待对齐实体u的名称en和un的语义相似度,记为sn;根据业务需求和具体情况选定一个实体名称相似度阈值tn;若sn>tn,则跳过步骤四-步骤七,直接判定为等价实体,并转到步骤八;否则转到步骤四,继续进行实体属性项的判定;

6、步骤四、计算知识图谱已有实体e和待对齐实体u的属性项ep和up的相似度,实体属性项相似度采用覆盖度和冗余度两个指标进行衡量,记为sp;根据业务具体情况选定一个实体属性项相似度阈值tp;若sp>tp,则跳过步骤五-步骤七,直接判定为等价实体,转到步骤八;否则转到步骤五,继续进行实体关键属性值的判定;

7、步骤五、对待对齐的实体u,查看对应的属性项up中是否有关键属性项;若up中不存在关键属性项,则判定为u不与已有知识图谱中任意实体等价,实体对齐结束,转到步骤八;否则将u的关键属性项和关键属性值分别记为ukp,ukv,对应的三元组实体对为<un,ukp,ukv>,转至步骤六;

8、步骤六、对已有知识图谱中存在关键属性项的实体e,将实体e的实体关键属性项和实体关键属性值分别记为ekp,ekv,对应的三元组实体对为<en,ekp,ekv>;

9、步骤七、遍历每个ekp直到找到ekp=ukp,比较属性值ekv和ukv,若ekv=ukv,判定e和u为等价实体,实体对齐结束;否则若遍历结束仍无法找到ekp=ukp或ekv≠ukv,则判定为u不与已有知识图谱中任意实体等价,实体对齐结束,转到步骤八;

10、步骤八、判定e和u为等价实体,实体对齐结束。

11、进一步地,在步骤三中相似度计算的过程中,构建un和en的词义集列表:通过wordnet,找到un和em在词义层次结构中的词义集;一个词有多个词义,因此需要获取un和en的所有词义集。

12、进一步地,在步骤三中相似度计算的过程中,计算最短路径长度:对于每对词义集即un的词义集和en的词义集,计算它们之间的最短路径长度。

13、进一步地,在步骤三中相似度计算的过程中,计算路径相似度sn:路径相似度通过将最长路径长度l减去最短路径长度并除以最长路径长度l来归一化;比较路径相似度sn和实体名称相似度阈值tn,若sn>tn,则判断un和en为等价实体,转到步骤八,否则转到步骤四。

14、进一步地,在步骤四中相似度计算的过程中,确定评价指标:实体属性项相似度采用覆盖度和冗余度两个指标进行衡量;对于两个集合a和b,其覆盖度计算为coverage(a,b)=|a∩b|/|b|,冗余度计算为flexibility(a,b)=|a-b|/|a|,由覆盖度和冗余度的定义,有b,coverage(a,b)∈[0,1],flexibility(a,b)∈[0,1];coverage(a,b)越大,flexibility(a,b)越小,a和b的相似度越高。

15、进一步地,在步骤四中相似度计算的过程中,分别计算ep和up之间的属性项相似度,coverage(ep,up)=|ep∩up|/|up|,其中|ep∩up|表示ep和up的相同属性项的个数,|up|表示up中属性项的总数;flexibility(ep,up)=|ep-up|/|ep|,其中|ep-up|表示仅在ep中出现,而未在up中出现的属性项的个数,|ep|表示ep中属性项的总数。

16、进一步地,在步骤四中相似度计算的过程中,归一化:由于coverage(ep,up)∈[0,1],flexibility(ep,up)∈[0,1],作归一化处理,属性项ep和up的相似度sp=(coverage(ep,up)+(1-flexibility(ep,up)))/2,从而sp∈[0,1];比较sp和tp,若sp>tp,则判断ep和up为等价实体,转到步骤八;否则转到步骤五。

17、本专利技术提出一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法的步骤。

18、本专利技术提出一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现所述一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法的步骤。

19、本专利技术的有益效果:

20、本专利技术提出了一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法,与已有技术相比,本专利技术能提供多维实体相似度判定方法,能够挖掘出常规基于实体语义的方法容易忽略的等价实体。本专利技术所述方法能够实现实体之间语义、本文档来自技高网...

【技术保护点】

1.一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在步骤三中相似度计算的过程中,构建Un和En的词义集列表:通过WordNet,找到Un和En在词义层次结构中的词义集;一个词有多个词义,因此需要获取Un和En的所有词义集。

3.根据权利要求2所述的方法,其特征在于,在步骤三中相似度计算的过程中,计算最短路径长度:对于每对词义集即Un的词义集和En的词义集,计算它们之间的最短路径长度。

4.根据权利要求3所述的方法,其特征在于,在步骤三中相似度计算的过程中,计算路径相似度Sn:路径相似度通过将最长路径长度l减去最短路径长度并除以最长路径长度l来归一化;比较路径相似度Sn和实体名称相似度阈值Tn,若Sn>Tn,则判断Un和En为等价实体,转到步骤八,否则转到步骤四。

5.根据权利要求4所述的方法,其特征在于,在步骤四中相似度计算的过程中,确定评价指标:实体属性项相似度采用覆盖度和冗余度两个指标进行衡量;对于两个集合A和B,其覆盖度计算为Coverage(A,B)=|A∩B|/|B|,冗余度计算为Flexibility(A,B)=|A-B|/|A|,由覆盖度和冗余度的定义,有B,Coverage(A,B)∈[0,1],Flexibility(A,B)∈[0,1];Coverage(A,B)越大,Flexibility(A,B)越小,A和B的相似度越高。

6.根据权利要求5所述的方法,其特征在于,在步骤四中相似度计算的过程中,分别计算Ep和Up之间的属性项相似度,Coverage(Ep,Up)=|Ep∩Up|/|Up|,其中|Ep∩Up|表示Ep和Up的相同属性项的个数,|Up|表示Up中属性项的总数;Flexibility(Ep,Up)=|Ep-Up|/|Ep|,其中|Ep-Up|表示仅在Ep中出现,而未在Up中出现的属性项的个数,|Ep|表示Ep中属性项的总数。

7.根据权利要求6所述的方法,其特征在于,在步骤四中相似度计算的过程中,归一化:由于Coverage(Ep,Up)∈[0,1],Flexibility(Ep,Up)∈[0,1],作归一化处理,属性项Ep和Up的相似度Sp=(Coverage(Ep,Up)+(1-Flexibility(Ep,Up)))/2,从而Sp∈[0,1];比较Sp和Tp,若8p>Tp,则判断Ep和Up为等价实体,转到步骤八;否则转到步骤五。

8.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。

9.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种适用于遥感地理信息知识图谱的多维相似度实体对齐方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在步骤三中相似度计算的过程中,构建un和en的词义集列表:通过wordnet,找到un和en在词义层次结构中的词义集;一个词有多个词义,因此需要获取un和en的所有词义集。

3.根据权利要求2所述的方法,其特征在于,在步骤三中相似度计算的过程中,计算最短路径长度:对于每对词义集即un的词义集和en的词义集,计算它们之间的最短路径长度。

4.根据权利要求3所述的方法,其特征在于,在步骤三中相似度计算的过程中,计算路径相似度sn:路径相似度通过将最长路径长度l减去最短路径长度并除以最长路径长度l来归一化;比较路径相似度sn和实体名称相似度阈值tn,若sn>tn,则判断un和en为等价实体,转到步骤八,否则转到步骤四。

5.根据权利要求4所述的方法,其特征在于,在步骤四中相似度计算的过程中,确定评价指标:实体属性项相似度采用覆盖度和冗余度两个指标进行衡量;对于两个集合a和b,其覆盖度计算为coverage(a,b)=|a∩b|/|b|,冗余度计算为flexibility(a,b)=|a-b|/|a|,由覆盖度和冗余度的定义,有b,coverage(a,b)∈[0,1],flexibility(a,b)∈[0,1];coverage(a,b...

【专利技术属性】
技术研发人员:赵园薇张鹏安源高放孙力壮王晓东隋天凤
申请(专利权)人:长光卫星技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1