当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于图的异构本体匹配方法及系统技术方案

技术编号:18940820 阅读:35 留言:0更新日期:2018-09-15 11:07
本发明专利技术公布了一种异构本体的匹配方法及系统,基于关联空间和图的谱半径,通过确定关联空间、建立关联空间上的图、以图的谱半径减小作为标准选择匹配对,获得正确的匹配对;基于图的异构本体的匹配系统包括关联空间模块、构图模块和匹配模块;构图模块具体包括文本相似性计算子模块、结构一致性计算子模块和边权值赋值子模块;从而实现基于关联空间和图的谱半径的异构本体匹配。本发明专利技术技术方案较好地解决了异构本体匹配问题,易实现、精度高、效果好。

A graph based heterogeneous ontology matching method and system

The invention discloses a matching method and system for heterogeneous ontologies. Based on the correlation space and the spectral radius of the graph, the correct matching pairs are obtained by determining the correlation space, establishing the graph in the correlation space, and selecting the matching pairs according to the reduction of the spectral radius of the graph. Module, composition module and matching module; composition module includes text similarity calculation module, structure consistency calculation module and edge weight assignment module, so as to realize heterogeneous ontology matching based on correlation space and spectral radius of graph. The technical scheme of the invention solves the matching problem of heterogeneous ontology better, is easy to realize, has high precision and good effect.

【技术实现步骤摘要】
一种基于图的异构本体匹配方法及系统
本专利技术属于信息处理领域,涉及本体和本体匹配,尤其涉及一种基于图的异构本体匹配的方法和系统。
技术介绍
信息处理领域中的本体可以看作是通用和专用知识的资源集合,本体为诸如信息抽取和自然语言处理等人工智能应用提供了丰富的知识,奠定了扎实的基础。近些年来,本体被越来越多地应用于其它领域,达到了系统整体智能化的目的。本体包括了对一个知识或
的概念性定义,组成部分为实体和实体间的关系。一般来说,本体中的实体有三类,即为类实体、属性实体和个体实体;本体中的关系描述了实体间的相互关系,例如类的上下位关系、类和属性的包含关系、属性和定义域类的包含关系以及属性和值域类的包含关系等。为方便知识共享和信息传播,要求相关领域的不同本体能够进行有效地链接或融合,方便信息使用者在整体上对该领域的知识有准确的掌握。由于不同本体基于的构建准则不同(彼此之间为异构本体),导致相同的概念在不同本体中的命名或描述等往往存在较大的差异。这阻碍了我们对描述同一概念的实体的识别,导致难以进行异构本体的融合操作。例如,对于中文维基百科和百度百科而言,“苹果公司”在两个异构本体中分别对应两个实体,它们的命名和描述存在差异。如果缺乏正确识别这两个本体间表征相同概念实体的工具,本体融合得到的大型本体中将含有表征同一概念的冗余实体。为此,如何自动准确地搭建异构本体间的桥梁,特别是识别异构本体间表征相同概念的实体,成为了解决本体链接或融合问题的关键。在实际的大规模本体系统中,由于实体数量庞大,单纯的手工识别显然是不现实的,对于异构本体自动高效匹配的需求也愈发紧迫。异构本体匹配能够为两个或多个异构本体的实体自动地找到匹配关系,将一个本体中的实体匹配到另一个本体中的实体,输出相应的匹配对。匹配对是异构本体匹配任务的输出,具体地指定了一个本体中的实体到另一个本体中的实体的语义匹配关系,包括:等价关系、包含关系等。如果有了成熟的、精度高的异构本体匹配工具,实际本体系统的链接和融合操作也能得到很好地解决。目前,异构本体匹配的常用方法主要分为两类:文本匹配方法和结构匹配方法。文本匹配方法主要关注于本体中实体附带的文本信息(例如命名、标签、评论等),通过文本的语义对应完成实体间的匹配;结构匹配方法则主要关注本体被视作一个图所具备的结构信息(例如节点之间的连边、节点组成的聚类等),通过结构的相似性找到匹配的实体对。但是,这两种方法在很多情况下并不能精准地识别出匹配对,其不足主要表现在:(一)本体中的实体可能缺失文本信息。对于文本匹配方法而言,一旦实体的文本不全或缺失时,方法的精度会受到较大的负面影响;(二)文本匹配方法需要借助较深层次的语言分析方法。异构本体匹配需识别出异构本体中具有语义匹配关系的实体对,这导致对实体的文本信息需要进行语义分析。根据计算语言学的相关研究,语言分析按照由浅入深的顺序可以粗略地分为词汇分析、句法分析、语义分析、语用分析等阶段。可以看出,文本匹配方法基于的语义分析处于语言分析中较为深层次的阶段。而语义分析的现成方法和工具精度较差,且分析速率也不高,这限制了文本匹配方法的精度;(三)现有的结构匹配方法往往仅使用了本体的局部结构信息,例如:节点拥有的度数、节点的邻居节点拥有的度数、节点所在的聚类等。这些都可以看作是图的局部结构信息的反映。;本体的全局结构信息的缺失导致结构匹配方法的精度受到较大的影响;(四)结构匹配方法难以融合本体中实体的文本信息。结构匹配方法将本体视为一张由节点和边组成的图,这导致实体的文本信息较难自然地引入这个图结构。如果欠缺了本体中实体的文本信息,仅凭借本体的结构信息,异构本体匹配的精度也会受到较大的负面影响。
技术实现思路
为了克服上述现有方法的不足,本专利技术提供一种基于关联空间和图的谱半径的本体匹配方法和系统,综合考虑本体中实体的文本信息和本体的结构信息。具体而言,本专利技术通过建立关联空间上的图,采用基于图的谱半径的匹配方法,在关联空间中选择代表匹配对的节点,来解决匹配问题。本专利技术易实现、精度高、效果好。本专利技术中,关联空间由两个本体间所有有效的匹配对所组成。有效的匹配对指的是满足规定的匹配对,即要求构成一个匹配对的两个实体同为类实体或属性实体。将关联空间中的每个匹配对看作一个节点,节点之间存在边相连,边的权重融合了本体中实体的文本信息和本体的结构信息。识别匹配对的过程就是在由关联空间构成的这样一张无向的、带权重边的图上完成的。具体的匹配过程是在图上找到代表潜在正确的匹配对的节点。正确的匹配对指的是构成这个匹配对的两个实体确实表征了同样的概念。这个问题可以转化为在关联空间构成的图上发现重要节点的问题,进而可以转化为删除图上重要的节点使得图的谱半径尽可能减小的问题。而异构本体匹配的一对一匹配限制可以作为挑选节点所遵循的条件,融合进基于图的谱半径的匹配算法中。本专利技术将本体匹配问题转化为在关联空间中选择重要节点的问题,将文本匹配方法和结构匹配方法分别基于的实体文本信息和本体结构信息融合进了由关联空间构成的无向的、带权重的图中,且通过删除图上重要的节点使得图的谱半径尽可能减小的标准来设计匹配算法。首先,针对给定的两个本体,找出所有有效的匹配对,组成关联空间。接着,将关联空间中的匹配对看作节点,节点之间边的权重采用匹配对间的结构一致性和匹配对的文本相似性进行计算,得到融合了实体文本信息和本体结构信息的图。最后,在图上通过找到其删除会导致图的谱半径尽可能减小的节点集合,作为选择的匹配对,并将与已选出的匹配对相矛盾的匹配对从选择范围内剔除,使得一对一的匹配限制能够得到满足。关联空间的引入能够将问题的考查范围一开始就限定为所有有效的匹配对构成的空间,而基于关联空间建立的图能够同时反映原来两个本体中的实体文本信息和本体的结构信息。通过将图的谱半径的减小作为对图上节点的重要性的判断,能够借助于图的谱半径携带的图的全局结构信息来更好地识别正确的匹配对,且提出的匹配算法能够满足异构本体匹配的一对一匹配限制。本专利技术适用于如下的异构本体匹配情形:(1)两个本体间的匹配;(2)只允许形成实体间一对一的匹配(一对一的匹配限制);(3)只允许相同类型的实体间的匹配,例如类实体与类实体的匹配、属性实体与属性实体的匹配;(4)语义匹配关系是等价关系。本专利技术提供的技术方案是:一种基于关联空间和图的谱半径的异构本体匹配方法,包括确定关联空间的阶段、建立关联空间上的图的阶段和以图的谱半径减小作为标准选择匹配对的阶段。具体来说,本专利技术的技术方案包括如下步骤:1)在确定关联空间的阶段,针对给定的两个本体,找出所有有效的匹配对,组成关联空间;本专利技术中,本体是通用和专用知识的资源集合,包括对一个知识或
的概念性定义、组成部分为实体和实体间的关系。本体中的实体包括三类,分别为类实体、属性实体和个体实体;本体中的关系描述了实体间的相互关系。例如,可将中文维基百科知识库、百度百科知识库看作本体。本体的链接或融合能够将数个小型本体聚合为一个大型本体,方便信息的集中存储和使用。具体地,针对给定的两个本体,抽取出所有的类实体和属性实体,并统计实体各自的数量,进而找出组成关联空间的所有有效的匹配对(组成一个匹配对的两个实体同为类实体或属性本文档来自技高网
...

【技术保护点】
1.一种异构本体的匹配方法,所述本体为通用或专用知识的资源集合,包括本体实体和本体实体关系;本体实体的类型分别为类实体、属性实体和个体实体;本体实体关系描述本体实体间的相互关系;所述异构本体的匹配方法基于关联空间和图的谱半径,通过确定关联空间、建立关联空间上的图、以图的谱半径减小作为标准选择匹配对,获得正确的匹配对,从而实现异构本体匹配;包括如下步骤:1)生成关联空间:针对给定的两个本体O1和O2,抽取出两个本体中所有的实体,找出两个本体中所有有效的匹配对,所有有效的匹配对组成关联空间;所述有效的匹配对是指组成一个匹配对的两个实体的类型相同;2)建立关联空间上的图:将关联空间中的每个有效的匹配对作为图上的一个节点,节点之间存在边相连;根据本体中实体的文本信息和本体的结构信息赋予边的权重值,节点间连边的权重值为匹配对实体的文本相似性和匹配对的结构一致性的函数;由此建立无向的、带权重边的图,即为关联空间上的图;3)以图的谱半径减小作为标准选择匹配对:采用基于图的谱半径的匹配方法,通过在关联空间中选择代表匹配对的节点,得到正确的匹配对;执行如下操作:31)从关联空间上的图中选择重要节点,作为潜在正确的匹配对;所述选择重要节点通过从关联空间上的图中删除节点导致的图的谱半径的减小量来识别,找到在关联空间上建立的图中其删除将会导致图的谱半径尽可能减小的节点集合,作为重要节点集合;所述图的谱半径指图的邻接矩阵的最大特征值;32)所述选择得到的重要节点集合满足一对一的匹配限制;所述一对一的匹配限制指在匹配对的实体空间上的函数是单射函数;具体地,所述选择包括多轮,每一轮从关联空间上的图中选择一个节点作为重要节点,代表潜在正确的匹配对;且将与已选出的匹配对相矛盾的匹配对从选择范围内剔除,即下一轮选择的节点与上一轮选择的节点不相矛盾;直到识别出所有重要节点;具体地,设定e1和e2分别代表本体O1和O2中的实体,则e1或e2在O2或O1中至多有一个匹配成功的实体;33)输出匹配对m,表示为如式1的一个四元组:m=...

【技术特征摘要】
1.一种异构本体的匹配方法,所述本体为通用或专用知识的资源集合,包括本体实体和本体实体关系;本体实体的类型分别为类实体、属性实体和个体实体;本体实体关系描述本体实体间的相互关系;所述异构本体的匹配方法基于关联空间和图的谱半径,通过确定关联空间、建立关联空间上的图、以图的谱半径减小作为标准选择匹配对,获得正确的匹配对,从而实现异构本体匹配;包括如下步骤:1)生成关联空间:针对给定的两个本体O1和O2,抽取出两个本体中所有的实体,找出两个本体中所有有效的匹配对,所有有效的匹配对组成关联空间;所述有效的匹配对是指组成一个匹配对的两个实体的类型相同;2)建立关联空间上的图:将关联空间中的每个有效的匹配对作为图上的一个节点,节点之间存在边相连;根据本体中实体的文本信息和本体的结构信息赋予边的权重值,节点间连边的权重值为匹配对实体的文本相似性和匹配对的结构一致性的函数;由此建立无向的、带权重边的图,即为关联空间上的图;3)以图的谱半径减小作为标准选择匹配对:采用基于图的谱半径的匹配方法,通过在关联空间中选择代表匹配对的节点,得到正确的匹配对;执行如下操作:31)从关联空间上的图中选择重要节点,作为潜在正确的匹配对;所述选择重要节点通过从关联空间上的图中删除节点导致的图的谱半径的减小量来识别,找到在关联空间上建立的图中其删除将会导致图的谱半径尽可能减小的节点集合,作为重要节点集合;所述图的谱半径指图的邻接矩阵的最大特征值;32)所述选择得到的重要节点集合满足一对一的匹配限制;所述一对一的匹配限制指在匹配对的实体空间上的函数是单射函数;具体地,所述选择包括多轮,每一轮从关联空间上的图中选择一个节点作为重要节点,代表潜在正确的匹配对;且将与已选出的匹配对相矛盾的匹配对从选择范围内剔除,即下一轮选择的节点与上一轮选择的节点不相矛盾;直到识别出所有重要节点;具体地,设定e1和e2分别代表本体O1和O2中的实体,则e1或e2在O2或O1中至多有一个匹配成功的实体;33)输出匹配对m,表示为如式1的一个四元组:m=<e1,e2,r,v>(式1)其中,e1和e2代表本体O1和O2中匹配的实体;r是e1和e2之间的语义匹配关系;v∈[0,1]是匹配对m的置信度,表示将每一个匹配对确认为潜在正确匹配对的程度。2.如权利要求1所述的异构本体的匹配方法,其特征是,步骤1)生成关联空间,具体是:抽取出两个本体中所有的类实体和属性实体,统计类实体和属性实体各自的数量;设定本体O1和O2中,类实体的数量分别为c1和c2,属性实体的数量分别为p1和p2,则O1和O2间所有有效的匹配对的数量为c1×c2+p1×p2。3.如权利要求1所述的异构本体的匹配方法,其特征是,本体的结构信息包括多种层级结构,分别为类实体-子类实体、类实体-属性实体、属性实体-定义域类实体、属性实体-值域类实体、共享同一父类实体的两个子类实体、属于同一个类实体的两个属性实体。4.如权利要求1所述的异构本体的匹配方法,其特征是,步骤2)建立关联空间上的图,根据本体中实体的文本信息和本体的结构信息赋予边的权重值;计算边的权重包括如下步骤:21)通过向量化方法计算关联空间中构成每一个有效的匹配对的两个实体的文本相似性;具体包括:211)将每个实体的文本表示为一个向量;212)计算两个向量之间的余弦相似度,作为文本相似性的度量;22)根据匹配对间的结构一致性赋予图上的边的权重,权重值体现本体的结构信息;所述的匹配对间的结构一致性指构成两个匹配对的两组实体具有相同的本体结构;具体地,给定两个匹配对m1=<e11,e12,r1,v1>和m2=<e21,e22,r2,v2>,假设在O1中的实体e11和e21分别代表类实体和子类实体,在O2中的实体e12和e22也分别代表类实体和子类实体,则m1和m2具有结构一...

【专利技术属性】
技术研发人员:王柯翔穗志方
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1