【技术实现步骤摘要】
本专利技术涉及Web语义及自然语言处理领域,更具体地涉及基于机器学习的本体匹配方法和系统。
技术介绍
语义Web是Web的扩展,信息的语义在其中被准确地定义,使计算机能够理解数据的语义信息,从而使得其对信息的处理更加智能化。为了实现语义信息共享,各领域纷纷定义了相应的本体。本体虽然是解决领域内知识共享的一种有效手段,但在分布式应用环境中,单个本体无法体现人类对客观世界的不同认识而无法得到一致认同,也就是说需要集成多个本体以支持不同本体之间的共享和交流。然而这些本体建立时没有遵循统一的标准,并且由于本体创建的主观性、分布性和自治性特点导致大量异构本体的产生,阻碍了系统间的知识共享和数据集成。本体匹配正是解决上述问题的有效途径。目前,国内外已有不少本体匹配系统被开发出来并得到应用,例如Falcon、PRIOR+、GLUE等,这些系统使用了不同的匹配方法来解决本体匹配问题。上述系统存在的缺陷包括所使用的基础匹配器较少,使得该系统能够适用的本体匹配范围相对局限;需要用户手动配置相关的阈值或参数,以优化对匹配策略的选择和融合,对用户的使用经验提出了较高的要求。
技术实现思路
本专利技术提出一种经改进的本体匹配方法和系统,能够扩展至更多的匹配领域或者尽量多地自动或半自动地选择匹配策略(或匹配方法),以降低用户的使用难度。本专利技术提出一种基于机器学习的本体匹配方法,包括:对需要进行匹配的两个本体进行预处理,获得相关信息;在所述相关信息的基础上计算多个维度的相似度,作为分类器预测样本的多维度特征,以此形成预测集;使用上述相同的方法来计算多维度特征,获取训练集;使用所述训练 ...
【技术保护点】
一种基于机器学习的本体匹配方法,包括:对需要进行匹配的两个本体进行预处理,获得相关信息;在所述相关信息的基础上计算多个维度的相似度,并且根据所述多个维度的相似度来形成预测集;使用上述相同的方法来获取训练集;使用所述训练集来训练分类器;以及使用训练完毕的所述分类器,对所述预测集进行匹配判断。
【技术特征摘要】
1.一种基于机器学习的本体匹配方法,包括:对需要进行匹配的两个本体进行预处理,获得相关信息;在所述相关信息的基础上计算多个维度的相似度,并且根据所述多个维度的相似度来形成预测集;使用上述相同的方法来获取训练集;使用所述训练集来训练分类器;以及使用训练完毕的所述分类器,对所述预测集进行匹配判断。2.如权利要求1所述的方法,其特征在于,所述预处理包括但不限于解析所述本体中的类和/或从本体文件中解析所述类的名称、标记、描述、注释、父子类和/或属性信息。3.如权利要求1所述的方法,其特征在于,所述多个维度的相似度包括以下各项中的两个或更多个:类名相似度、类名语义相似度、注释相似度、属性数相似度、实例数相似度、父子类数相似度、深度相似度、虚拟文档相似度。4.如权利要求3所述的方法,其特征在于,所述注释相似度的计算方法包括:(1)对待匹配本体的描述、注释和/或上下文信息进行预处理,获得仅由词汇构成的句子;(2)取两个句子中的较长者为句子A,较短者为句子B;对于所述句子A中的每个词,从所述句子B中找到与所述每个词之间的语义相似度最高的词,并记录相应的语义相似度;(3)累加相应的语义相似度得到总相似度,再除以所述句子A的长度,所得结果即为所述注释相似度。5.如权利要求3所述的方法,其特征在于,所述语义相似度的计算方法为: sim W o r d N e t ( s 1 , s 2 ) = 2 × d e p t h ( l s o ( s 1 , s 2 ) ) D e p t h ( T ) 2 f r e q ( l s o ( s 1 , s 2 ) ) - f r e q ( s 1 ) - f r e q ( s ...
【专利技术属性】
技术研发人员:花云程,漆桂林,吴天星,高桓,
申请(专利权)人:苏州家佳宝妇幼医疗科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。