一种基于XML文档的元数据模式匹配方法组成比例

技术编号:8453109 阅读:224 留言:0更新日期:2013-03-21 17:39
本发明专利技术公开了一种基于XML文档的元数据模式匹配方法,通过计算两个元数据的语义相似度、属性相似度、实例相似度、结构相似度和关系相似度,根据具体的XML文档来设置权重,最后计算综合相似度,因此在元数据之间的模式匹配时,可使计算结果更精确。

【技术实现步骤摘要】
—种基于XML文档的元数据模式匹配方法
本专利技术关于元数据模式匹配方面,特别涉及XML文档的元数据的语义、属性、实例、结构和关系相似度计算方法,属于数据库

技术介绍
扩展标记语言(extensible Markup Language,XML)是一套定义语义标记的规则, 用户通过它可以创建文档类型定义(Document Type Def inition,简称DTD)的规则集,XML 作为统一的转换语法和交换格式,为开发者和用户提供一种交换元数据信息的标准途径, 从而能够方便、简洁地在基于OMG UML的建模工具和基于OMG MOF的元数据仓储(Metadata Repository)之间交换元数据。而元数据则是关于数据的数据,用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。近年来越来越多的科研院所都开始致力于元数据相关问题的研究,特别是随着语义Web 的发展,元数据理论及其相关技术已逐渐成为计算机领域中重要的研究热点,为了解决网络信息爆炸时代出现的诸多问题,元数据作为一种重要的应对方法和措施,已广泛应用于信息检索、信息集成、信息共享及软件工程等各个应用领域中。语义内容异构是元数据模式集成中必须要面对而且需要重点解决的问题。要在网络环境下消除由这些独立的元数据方案引起的“信息孤岛”,就必须有某种程度的元数据间互操作,用于解决不同元数据所引起的概念和结构的异构问题,这就需要在元数据之上再建立一些机制,来灵活地实现元数据间的互操作。作为解决信息异构、信息集成的主要方法,模式匹配技术设计的是否合理有效就成了影响元数据模式集成效果的关键因素。而现有的工作面临的是一个以丰富元数据模式语义信息为目的、以多源异构元数据模式合并与构建为任务的新问题。目前元数据模式匹配的算法主要有基于正则表达式规则的逻辑结构匹配算法和基于隐马尔可夫模型的XML文档的元数据匹配算法,但基于正则表达式规则的逻辑结构匹配算法主要考虑XML文档的元数据之间的逻辑结构相似性,忽略了元数据语义相似度、实例相似度以及关系相似度等因素,而基于隐马尔科夫模型的元数据匹配算法主要提取XML文档头部的部分元数据信息,忽略了其他元数据的相似关系。本专利在现有的元数据模式匹配算法的基础上,提出了新型的一种元数据模式匹配方法,该方法既考虑了元数据的结构特征,又考虑了元数据之间的语义、属性、实例和关系相似度,同时考虑元数据匹配的不对称性问题,可使计算结果更精确。
技术实现思路
本专利技术所要解决的技术问题是实现更精确的元数据之间的匹配。为解决上述技术问题,本专利技术提供一种基于XML文档的元数据模式匹配方法,其特征在于,包括以下步骤I)计算两个元数据的语义相似度元数据a和元数据b之间的相似度通过字符串的同义词匹配来完成,计算模型如下所示权利要求1.一种基于XML文档的元数据模式匹配方法,其特征在于,包括以下步骤 1)计算两个元数据的语义相似度元数据a和元数据b之间的相似度通过字符串的同义词匹配来完成,计算模型如下所示全文摘要本专利技术公开了一种基于XML文档的元数据模式匹配方法,通过计算两个元数据的语义相似度、属性相似度、实例相似度、结构相似度和关系相似度,根据具体的XML文档来设置权重,最后计算综合相似度,因此在元数据之间的模式匹配时,可使计算结果更精确。文档编号G06F17/30GK102982168SQ201210535449公开日2013年3月20日 申请日期2012年12月12日 优先权日2012年12月12日专利技术者朱晓燕, 何金陵, 潘留兴, 赵鑫 申请人:江苏省电力公司信息通信分公司, 江苏电力信息技术有限公司, 江苏省电力公司, 国家电网公司本文档来自技高网
...

【技术保护点】
一种基于XML文档的元数据模式匹配方法,其特征在于,包括以下步骤:1)计算两个元数据的语义相似度:元数据a和元数据b之间的相似度通过字符串的同义词匹配来完成,计算模型如下所示:lex_sim(m1,m2)=Σi=1sΣj=1tsim(m1i,m2j)m*n式(1)其中其中m1i是元数据m1的第i个关键词,m2j是元数据m2的第j个关键词,s表示元数据m1的关键词个数,t表示元数据m2的关键词个数,sim(m1i,m2j)表示关键词m1i和m2j的相似度,如果m1i和m2j相同或为同义词,则sim(m1i,m2j)=1,否则为0;lex_sim(m1,m2)的取值范围为[0,1],当元数据m1中的所有关键词与元数据m2所有关键词相同或为同义词时,lex_sim(m1,m2)=1,而全部不相同或都不为同义词时lex_sim(m1,m2)=0;2)计算两个元数据的属性相似度:使用公式(2)计算出两个元数据的属性相似度,计算模型如下所示:attr_sim(m1,m2)=|m2∩m2||m1,m2|+D(m1,m2)|m1∩⫬m2|+(1-D(m1,m2))|⫬m1∩m2|式(2)其中|m1∩m2|表示元数据m1和m2的属性集合的交集的个数,表示属于元数据m1但不属于m2的属性集合的个数,而表示属于元数据m2但不属于m1的属性集合的个数,而D(m1,m2)的计算公式如公式(3)所示,D(m1,m2)=dep(m1)dep(m1)+dep(m2)dep(m1)≤dep(m2)1-dep(m1)dep(m1)+dep(m2)dep(m1)≥dep(m2)---(3)其中dep(m1)表示元数据m1在XML文档中所处的层(即深度),同样dep(m2)表示元数据m2在XML文档中所处的深度;3)计算两个元数据的实例相似度:两个元数据的实例相似度的公式用公式 (4)所示,inst_sim(m1,m2)=|instSet(m1)∩instSet(m2)||instSet(m1)∪instSet(m2)|---(4)|instSet(m1)∩instSet(m2)|表示元数据m1和元数据m2实例的交集个数,|instSet(m1)∪instSet(m2)|表示元数据m1和元数据m2实例的并集个数;4)计算两个元数据的结构相似度:计算公式如式(5)所示,stru_sim(m1,m2)=λ*Psim(m1,m2)+(1?λ)Ssim(m1,m2)??????????(5)其中0≤λ≤1,Psim(m1,m2)表示元数据m1的父元数据与m2的父元数据之间的相似度,而Ssim(m1,m2)表示元数据m1的子元数据与m2的子元数据之间的相似度,Psim(m1,m2)和Ssim(m1,m2)计算公式分别如式(6)、(7)所示,Psim(m1,m2)=attr_sim(p1,p2)??????????????(6)Ssim(m1,m2)=Σi=1SΣj=1Tattr_sim(m1Si,m2Sj)---(7)其中p1和p2分别表示元数据m1和m2的父元数据,与分别表示元数据m1和元数据m2的第Si个与第Sj个子元数据,S、T分别表示元数据m1和m2的子元数据的个数,attr_sim的计算如式(2)所示;5)计算两个元数据的关系相似度:关系由于包含多个数据,而每个数据所处的地位不同,假设一个元数据的关系包括以下几种类型:名称、类型、时间和空间,则根据数据的权重计算公式可表示为:rel_sim(m1,m2)=a*name_sim(m1,m2)+b*type_sim(m1,m2)?????????????(8)+c*time_sim(m1,m2)+d*space_sim(m1,m2)其中参数a+b+c+d=1,name_sim(m1,m2)、type_sim(m1,m2)、time_sim(m1,m2)、space_sim(m1,m2)分别表示元数据m1和m2的名称、类型、时间和空间的关系相似度,根据关系数据的不同,采用不同的方式计算各关系数据的相似度,如名称和类型为字符串,使用字符串相似度计算关系数据的类型的相似度;如果元数 据的关系是时间类型的,根据时间关联来计算相似度;如果元数据的关系是空间类型,采用皮尔逊相似度来计算两个关系数据的相似度;6)基于步骤1)到步骤5)的相似度计算,得出两个元数据的综合相似度计算公式,如下所示:...

【技术特征摘要】

【专利技术属性】
技术研发人员:朱晓燕何金陵潘留兴赵鑫
申请(专利权)人:江苏省电力公司信息通信分公司江苏电力信息技术有限公司江苏省电力公司国家电网公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1