基于机器学习的本体匹配方法和系统技术方案

技术编号:14120789 阅读:43 留言:0更新日期:2016-12-08 13:53
本发明专利技术提出基于机器学习的本体匹配方法和系统,所述方法包括:对需要进行匹配的两个本体进行预处理,获得相关信息;在所述相关信息的基础上计算多个维度的相似度,作为分类器预测样本的多维度特征,以此形成预测集;使用上述相同的方法来获取训练集;使用所述训练集来训练分类器;以及使用训练完毕的所述分类器,对所述预测集进行匹配判断。所述系统包括预测集生成模块、训练集生成模块和分类器,其中,所述预测集生产模块用于对待匹配的本体进行预处理,并且生成预测集;所述训练集生成模块用于对标准数据集进行预处理,并且生成训练集;以及所述分类器通过所述训练集进行学习,并在学习完毕后对所述预测集进行匹配判断,并且输出匹配结果。

【技术实现步骤摘要】

本专利技术涉及Web语义及自然语言处理领域,更具体地涉及基于机器学习的本体匹配方法和系统
技术介绍
语义Web是Web的扩展,信息的语义在其中被准确地定义,使计算机能够理解数据的语义信息,从而使得其对信息的处理更加智能化。为了实现语义信息共享,各领域纷纷定义了相应的本体。本体虽然是解决领域内知识共享的一种有效手段,但在分布式应用环境中,单个本体无法体现人类对客观世界的不同认识而无法得到一致认同,也就是说需要集成多个本体以支持不同本体之间的共享和交流。然而这些本体建立时没有遵循统一的标准,并且由于本体创建的主观性、分布性和自治性特点导致大量异构本体的产生,阻碍了系统间的知识共享和数据集成。本体匹配正是解决上述问题的有效途径。目前,国内外已有不少本体匹配系统被开发出来并得到应用,例如Falcon、PRIOR+、GLUE等,这些系统使用了不同的匹配方法来解决本体匹配问题。上述系统存在的缺陷包括所使用的基础匹配器较少,使得该系统能够适用的本体匹配范围相对局限;需要用户手动配置相关的阈值或参数,以优化对匹配策略的选择和融合,对用户的使用经验提出了较高的要求。
技术实现思路
本专利技术提出一种经改进的本体匹配方法和系统,能够扩展至更多的匹配领域或者尽量多地自动或半自动地选择匹配策略(或匹配方法),以降低用户的使用难度。本专利技术提出一种基于机器学习的本体匹配方法,包括:对需要进行匹配的两个本体进行预处理,获得相关信息;在所述相关信息的基础上计算多个维度的相似度,作为分类器预测样本的多维度特征,以此形成预测集;使用上述相同的方法来计算多维度特征,获取训练集;使用所述训练集来训练分类器;以及使用训练完毕的所述分类器,对所述预测集进行匹配判断。在一个优选的实施例中,所述预处理包括但不限于解析所述本体中的类和/或从本体文件中解析所述类的名称、标记、描述、注释、父子类和/或属性信息。在另一个优选的实施例中,所述多个维度的相似度可包括以下各项中的两个或更多个:类名相似度、类名语义相似度、注释相似度、属性数相似度、实例数相似度、父子类数相似度、深度相似度、虚拟文档相似度。进一步地,所述注释相似度的计算方法可包括:(1)对待匹配本体的描述、注释和/或上下文信息进行预处理,获得仅由词汇构成的句子;(2)取两个句子中的较长者为句子A,较短者为句子B;对于所述句子A中的每个词,从所述句子B中找到与所述每个词之间的语义相似度最高的词,并记录相应的语义相似度;(3)累加相应的语义相似度得到总相似度,再除以所述句子A的长度,所得结果即为所述注释相似度。在又一个优选的实施例中,所述语义相似度的计算方法为:其中,(s1,s2)是待计算的词,lso(s1,s2)为词s1、s2的最近公共祖先,depth(lso(s1,s2))为最近公共祖先在WordNet树中的深度,Depth(T)为树深,freq(s)表示单词s出现的频数,len(s1,s2)表示词之间的距离,即s1、s2分别到公共祖先lso(s1,s2)的路径上经过的边数之和。本专利技术还提出一种基于机器学习的本体匹配系统,包括预测集生成模块、训练集生成模块和分类器,其中所述预测集生产模块用于对待匹配的本体进行预处理,并且生成预测集;所述训练集生成模块用于对标准数据集进行预处理,并且生成训练集;以及所述分类器通过所述训练集进行学习,并在学习完毕后对所述预测集进行匹配判断,并且输出匹配结果。在一个优选的实施例中,所述系统还可包括匹配结果提取模块,用于提取所述分类器输出的所述匹配结果,并且优化所述匹配结果。在又一个优选的实施例中,所述预测集生成模块可包括第一预处理模块和第一相似度计算模块,所述训练集生成模块可包括第二预处理模块和第二相似度计算模块;所述第一相似度计算模块将两个本体的类进行笛卡尔乘积得到候选匹配对,并在多个维度上计算各个候选匹配对的相似度。进一步地,所述第一相似度计算模块和所述第二相似度计算模块计算的相似度可包括以下各项中的两个或更多个:类名相似度、类名语义相似度、注释相似度、属性数相似度、实例数相似度、父子类数相似度、深度相似度、虚拟文档相似度。附图说明包括附图是为提供对本公开内容的进一步的理解。附图示出了本公开内容的实施例,并与本说明书一起起到解释本公开内容原理的作用。在结合附图并阅读了下面的对特定的非限制性本公开内容的实施例之后,本公开内容的技术方案及其优点将变得显而易见。其中:图1为根据本专利技术的一个实施例的匹配方法流程图。图2为根据本专利技术的一个实施例的计算相似度矩阵的示意图。图3为根据本专利技术的一个实施例的WordNet子树片段的示意图。图4为根据本专利技术的一个实施例的WordNet语义相似度计算结果片段。图5示出了根据本专利技术的一个实施例的系统结构框图。具体实施方式参考在附图中示出和在以下描述中详述的非限制性实施例,更完整地说明本公开内容的多个技术特征和有利细节。并且,以下描述忽略了对公知的原始材料、处理技术、组件以及设备的描述,以免不必要地混淆本公开内容的技术要点。然而,本领域技术人员能够理解到,在下文中描述本公开内容的实施例时,描述和特定示例仅作为说明而非限制的方式来给出。在任何可能的情况下,在所有附图中将使用相同的标记来表示相同或相似的部分。此外,尽管本公开内容中所使用的术语是从公知公用的术语中选择的,但是本公开内容的说明书中所提及的一些术语可能是公开内容人按他或她的判断来选择的,其详细含义在本文的描述的相关部分中说明。此外,要求不仅仅通过所使用的实际术语,而是还要通过每个术语所蕴含的意义来理解本公开内容。解决和处理本体之间的异构已成为当前基于本体的应用所面临的关键问题,本体匹配正是解决该问题的有效途径。本体匹配包括发现两个本体的元素之间的对应关系,统一实例的不同表示形式等。目的是为了建立异构本体之间的交互规则,最后实现本体对齐、本体集成以及查询问答、数据翻译等应用。假设异构本体O1有m个类,O2有n个类,那么两个类集合的笛卡尔乘积为m×n个候选匹配对。这些候选匹配对中,真正匹配的那些被称为“匹配对”,剩下的为“非匹配对”。本体的匹配问题就是区分这m×n个候选匹配对中哪些是匹配的、哪些是不匹配的。这个问题可以视为一个分类问题,即将m×n个候选匹配对分为两类,一类是“匹配对”,另一类是“非匹配对”。机器学习相关领域为分类问题提出了许多模型。利用机器学习来解决分类问题是通过对训练集(Training Set)的迭代学习来训练模型,从而自动化地得到模型的参数,完成对训练集的拟合。当得到模型的参数后,即完成了学习过程。接下来,可以利用模型对预测集(候选匹配对)进行预测,预测的结果有两个,即将预测样本划分到正类或负类中,这样就完成了分类的过程。对于候选匹配对来说,若被分在正类,说明该候选匹配对是匹配的,反之则不匹配。如图1所示,本专利技术提出的一种基于机器学习的本体匹配方法包括:1)对需要进行匹配的两个本体进行预处理,该预处理包括但不限于解析本体中的类和/或从本体文件中解析类的名称、标记、描述、注释、父子类、属性等信息;2)根据步骤1)中获取的相关信息计算多个维度的相似度,并且根据所述多个维度的相似度来形成预测集;3)对于标准数据集,采用与步骤1)、2)相同的方法来获取训练集;4)本文档来自技高网...
基于机器学习的本体匹配方法和系统

【技术保护点】
一种基于机器学习的本体匹配方法,包括:对需要进行匹配的两个本体进行预处理,获得相关信息;在所述相关信息的基础上计算多个维度的相似度,并且根据所述多个维度的相似度来形成预测集;使用上述相同的方法来获取训练集;使用所述训练集来训练分类器;以及使用训练完毕的所述分类器,对所述预测集进行匹配判断。

【技术特征摘要】
1.一种基于机器学习的本体匹配方法,包括:对需要进行匹配的两个本体进行预处理,获得相关信息;在所述相关信息的基础上计算多个维度的相似度,并且根据所述多个维度的相似度来形成预测集;使用上述相同的方法来获取训练集;使用所述训练集来训练分类器;以及使用训练完毕的所述分类器,对所述预测集进行匹配判断。2.如权利要求1所述的方法,其特征在于,所述预处理包括但不限于解析所述本体中的类和/或从本体文件中解析所述类的名称、标记、描述、注释、父子类和/或属性信息。3.如权利要求1所述的方法,其特征在于,所述多个维度的相似度包括以下各项中的两个或更多个:类名相似度、类名语义相似度、注释相似度、属性数相似度、实例数相似度、父子类数相似度、深度相似度、虚拟文档相似度。4.如权利要求3所述的方法,其特征在于,所述注释相似度的计算方法包括:(1)对待匹配本体的描述、注释和/或上下文信息进行预处理,获得仅由词汇构成的句子;(2)取两个句子中的较长者为句子A,较短者为句子B;对于所述句子A中的每个词,从所述句子B中找到与所述每个词之间的语义相似度最高的词,并记录相应的语义相似度;(3)累加相应的语义相似度得到总相似度,再除以所述句子A的长度,所得结果即为所述注释相似度。5.如权利要求3所述的方法,其特征在于,所述语义相似度的计算方法为: sim W o r d N e t ( s 1 , s 2 ) = 2 × d e p t h ( l s o ( s 1 , s 2 ) ) D e p t h ( T ) 2 f r e q ( l s o ( s 1 , s 2 ) ) - f r e q ( s 1 ) - f r e q ( s ...

【专利技术属性】
技术研发人员:花云程漆桂林吴天星高桓
申请(专利权)人:苏州家佳宝妇幼医疗科技有限公司
类型:发明
国别省市:江苏;32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1