一种基于语义的多层次本体匹配的控制方法及系统技术方案

技术编号:7682494 阅读:207 留言:0更新日期:2012-08-16 05:51
本发明专利技术提供了一种新颖的本体语义匹配方法,该方法综合考虑了本体的结构特征和语义特征,从三个方面对待匹配的本体进行测度。首先,对本体1和本体2进行预处理,如分词、归类或删除等操作;然后借助基于语义词典的语义相似度算法分别计算两个本体的元素相似度、基于属性的结构相似度和基于关系的结构相似度;最后加权平均三种相似度,并根据预先设定的阈值给出匹配结果。这种方法具有较强的语义性,因为它考虑了本体中概念的语义特征和本体结构中的语义特征,且在三种相似度计算中都应用了基于语义词典的语义相似性测度方法,因此能很好地挖掘出待匹配本体的语义特征,因此利用此方法进行本体匹配的结果很好。

【技术实现步骤摘要】

本专利技术涉及自然语言处理(NLP)的
,具体说是基于语义字典来对两个本体从三个层次进行语义测度的方法。更具体地,本专利技术涉及一种在信息检索、机器翻译、知识管理系统应用中对两个本体进行基于语义的多层次匹配的控制方法以及相应的控制系统
技术介绍
本体作为语义Web的核心技术,已经得到了广泛的应用。但是由于本体开发自身具有分布式的特点,对于同一个领域,不同用户建立的本体也不相同,所以导致了在一个领域出现了许多不同的本体。这些本体是异构的,它们之间往往不能互相通信,用户之间也不能相互理解。为了更有效地使用和重用本体,以完成信息交换与集成的任务就必须找出不同本体之间的映射关系,即本体匹配技术。本体匹配(Ontology Matching)是解决异构本体之间相互通信,发现不同本体之间实体元素映射关系的关键技术,对于实现基于不同本体的应用之间的交互具有重要意义。随着本体应用需求的增大,本体的数量急剧增加,所以迫切需要一些方法和工具能自动或者半自动地完成大量的本体匹配工作。目前,本体匹配方法分为元素层次(Element-level)和结构层次(Structure-level)两类。元素层次又分为基于语法(Syntactic)的方法和基于外部信息(External)的方法;结构层次分为基于语法的方法、基于语义(Semantics)的方法、基于外部信息的方法。本体匹配主要分为五个步骤本体实例(概念、关系、属性等)提取、相似度计算、语义提取、人工干预、匹配输出。其中相似度计算是核心技术。对于相似度计算可以从自然语言、字符串、本体结构信息、本体推理等多角度进行。实际系统大多是采用多种相似度方法相结合的方法,因为单一标准匹配结果不够精确。多种匹配算法相结合,可以发掘出本体多方面的信息,是匹配结果更加准确。目前提出的本体匹配方法有各自不同的特点,但是通过分析研究这些方法和系统,有如下两点值得改进和关注首先是本体匹配的核心算法,概念相似度计算,如何发掘概念中的语义信息,提出合理的相似度计算模型,能够提高本体匹配的精度;其次如何利用本体自身的语义信息和本体的结构信息,提高匹配的精度。本专利技术的目的至少在于对上述两点进行改进。
技术实现思路
本专利技术提出了一种基于语义字典的本体匹配框架,其中包括针对本体语义特征和结构特征,提出从三个层次来测度两个本体匹配结果,即从元素层次,属性层次和关系层次。针对现有技术中的缺陷,本专利技术的目的是提供一种在信息检索、机器翻译、知识管理系统应用中对两个本体进行的基于语义的多层次匹配的控制方法以及相应的控制系统。根据本专利技术的一个方面,提供一种在信息检索、机器翻译、知识管理系统应用中对对两个本体间的基于语义的多层次匹配控制方法,其用于对至少第一本体与第二本体的语义匹配度进行测量,其包括如下步骤a.计算所述第一本体与第二本体中的所有实体元素对的语义相似度值;b.计算所述第一本体与第二本体中的概念相似度值; c.计算所述第一本体与第二本体的概念关系相似度值;d.对上述三个相似度值,分别赋予不同的权重,将加权后的三个相似度值的合值,作为两概念的相似度值,其中所述三个相似度值的权重之和为I ;e.按上述方法计算出所有实体元素对的相似度值,然后加权后求合值,将计算结果作为所述第一本体与第二本体的相似度值;以及f.将所述第一本体与第二本体的相似度值与预先设定的本体相似度阈值进行比较,并将比较结果作为所述第一本体与第二本体的匹配度。优选地,本专利技术提供的上述控制方法还可以通过如下方式实现首先对第一本体和第二本体进行预处理;然后分别计算两个本体的元素相似度、基于属性的结构相似度和基于关系的结构相似度;最后加权三种相似度后,并根据阈值给出匹配结果。其具体操作步骤如下第一步通过对第一本体和第二本体的解析,提取两个本体中的实体元素,如概念、属性和实例等;对这些实体元素的描述信息进行预处理,如分词、归类或删除等操作;第二步运行元素层次匹配模块即将第一本体中的所有实体元素和第二本体中的所有实体元素进行比较,如果实体元素对名字一样,则返回1,否则计算实体元素对的语义相似度。第三步运行基于属性的匹配模块即针对第一本体和第二本体中各概念,提取各概念的属性列表,计算两个属性列表中各属性间的语义相似度的平均值,作为这两个概念的相似度值。第四步运行基于关系的结构相似度模块针对第一本体和第二本体中的两个概念,分别提取与这两个概念相连的所有关系,以及这些关系所连接的其他概念,利用所提取出的关系和概念计算两个概念关系相似度。第五步第二步,第三步和第四步分别从本体的元素层次、本体的属性层次和本体中关系三方面计算所要匹配的两个本体的相似度,最后,对这三种方法计算的相似度值进行加权后求合值,得出最终两个本体的相似度值。第六步根据预先设定的本体相似度阈值,输出两个本体的匹配结果。根据本专利技术的另一个方面,还提供一种在信息检索、机器翻译、知识管理系统中用于对所使用的本体间进行基于语义的多层次匹配的控制系统,其特征在于,根据上述控制方法实现对两个本体的基于语义多层次匹配。与
技术介绍
相比,本专利技术主要有以下优点(I)语义性强在本体的元素层次相似度计算、本体的属性层次相似度计算和本体的关系相似度计算中,都应用了基于语义词典的语义相似性的测度方法,所以本专利技术在本体匹配过程中体现了较强的语义性。(2)匹配结果好本专利技术所提出的本体匹配方法,分别针对第一本体和第二本体的元素层次,属性层次和关系层次进行语义度量,充分考虑了两个所述本体的结构特征和语义特征,因此其匹配结果好。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明 显图I示出根据本专利技术的一个具体实施方式的,第一本体的样例的示意图;图2示出根据本专利技术的一个具体实施方式的,第二本体的样例的示意图;图3示出根据本专利技术的第一实施例的,一种在语义词典应用中对基于语义的多层次本体匹配的控制方法的流程图;以及图4示出根据本专利技术的第二实施例的,一种在语义词典应用中对基于语义的多层次本体匹配的控制方法的示意图。具体实施例方式图I示出根据本专利技术的一个具体实施方式的,第一本体的样例的示意图。具体地,本领域技术人员理解,在本具体实施方式中,所述第一本体被划分为三个层次,其中第一本体的第一层为“Electronics”,其下属的第二层包括“Personal_computer”以及“Photo_ancLCameras”,该两层的关系为“Is_a”的关系,即所述第二层“Is_a”所述第一层的关系。进一步地,与所述“Personal_computer”对应的所述第三层包括“Microprocessors”以及“Accessories”,其关系为第三层为“Part_of”第二层的关系。类似地,与所述“Photo_and_Cameras”对应的所述第三层包括“Name”、“QUantity”以及“Price”,其关系为第三层为“Attitude_0f”第二层的关系。基于图1,本领域技术人员可以理解所述第一本体的内容,在此不予赘述。类似地,图2示出根据本专利技术的一个具体实施方式的,第二本体的样例的示意图。具体地,本领域技术人员理解,在本具体实施方式中,所述第二本体被划分为三个层次,其中第一本体的第一层为“本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:吕钊梁璐曹艳娇李琴
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利