当前位置: 首页 > 专利查询>天津大学专利>正文

大规模语义知识库的动态维护系统技术方案

技术编号:7248559 阅读:163 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种大规模语义知识库的动态维护系统,该系统包括主服务器、分布式数据服务器以及存储采用OWL语言描述的本体知识库,其特征在于,该系统还包括部署于主服务器上的全局知识管理系统和部署于该系统的分布式数据服务器的局部数据管理系统,所述全局知识管理系统和所述局部数据管理系统通过知识总线控制器,以一套标准的知识通信指令进行交互,与现有技术相比,本发明专利技术大规模语义知识库本体的优化,从而减少存储规模,以及优化推理和查询的效率。

【技术实现步骤摘要】

本专利技术涉及网络信息处理技术,特别是涉及一种基于*吐2.0网络的异构语义知识库的动态维护系统。
技术介绍
本专利技术所涉及的有以下几个技术1.语义^feb的知识库语义Web已经发展了十余年时间。知识表示、知识存储和查询、知识推理等语义 Web技术的研究已经有了长足的进步。但是与传统的Web相比,语义Web的知识库规模还相差甚远,能够实际应用的本体知识库凤毛麟角,很难满足语义Web对大规模知识库的需求。究其原因,本体的构建成本、效率,以及本体的管理难题都是制约语义知识库发展的障碍。本体是构成知识库的主体,目前构建本体的途径主要是由领域专家通过手工来制作本体,不但成本高、效率低,而且维护起来非常困难,也有研究人员通过统计分析和自然语言处理的方法对已有的Web页面进行标注或者抽取来获取语义知识,但是语义识别准确率不高,造成了本体质量低下。至今人们尚未找到一种能够持续、高效、优质地构建本体的途径。 然而,自底向上的建设语义Web已经获得越来越多的共识,从简单地关联大量的开放数据集开始,逐渐积累并丰富其语义,从而构建带有语义的Web知识库的工作已经起步并获得了显著的进展。2.分布式本体研究语义Web的发展从一开始就是建立在Web2. 0基础之上的,必将包含海量的语义数据。此外,在语义发展初期,众多的标准和技术形成了大量的异构语义数据源,如何联合异构语义数据源并在海量语义数据中进行查询和推理已经越来越受到科研人员的重视,然而由于大规模的语义Web知识库尚未建立,因此对分布式本体的研究也很难找到着力点。但是,在研究中提出来的一些思想和架构依然可以被借鉴,用来解决分布式本体条件下的难题。3.知识库维护研究语义知识库的维护主要是指对大量异构语义数据源的管理,以使整个语义知识库保持上层语义网应用所需的一致性以及推理和查询的效率。目前围绕知识库不一致性处理方面,已经产生了各个研究领域,如不一致性检测、不一致性推理、不一致性调试等,在提升推理和查询效率上,一方面有对本体推理查询算法的改进,如围绕描述逻辑推理算法 tabular算法的优化,对SPARQL查询机制的优化,另一方面有通过对本体之间数据关系的挖掘,来优化知识库中本体的存储结构,进而提高推理查询的效率,如本体合并、本体分割。针对大规模语义知识库的动态维护的难题,如何将各种本体维护算法结合起来构建一个能够提供不一致性本体处理,并能动态优化知识库中本体存储结构的管理接口是本领域所要解决的问题。
技术实现思路
基于上述现有技术,本专利技术提出一种大规模语义知识库的动态维护系统,结合本体合并算法、本体不一致性处理算法和本体分割算法,将不一致性处理算法与大规模语义知识库进行了整合,从而实现了大规模语义知识库的一致性管理。本专利技术提出了一种大规模语义知识库的动态维护系统,该系统包括主服务器、分布式数据服务器以及存储采用OffL语言描述的本体知识库,其特征在于,该系统还包括部署于主服务器上的全局知识管理系统和部署于该系统的分布式数据服务器的局部数据管理系统,所述全局知识管理系统和所述局部数据管理系统通过知识总线控制器,以一套标准的知识通信指令进行交互,其中局部数据管理系统,用于监听通过总线MULE传送来的指令并根据总线返回的控制流指令返回本体处理数据,实现语义知识库动态维护算法数据的存储与管理,包括本体的合并、分割以及不一致性处理;全局知识管理系统,用于统筹、维护和应用本体知识库,该系统包括局部服务器索引,该索引用来记录位于辅助数据服务器上的局部服务器的标注的信息,然后位于主服务器上负责统筹、维护和应用本体知识库的全局知识管理系统运行核心处理,依据请求查询相应索引信息,并发出多播和广播指令;API解释器,用于将来自上层的功能API的请求,解释成基础的核心查询指令,支持系统运行;全局知识库管理模块,运行于主服务器后台,用于执行本体知识库推理和演化算法,优化知识库结构和存储,实现一致本体视图抽取、本体合并、本体分割、负载均衡,具体算法如下本体合并算法,首先找到两个输入本体之间实体的关联,然后指定一个本体A作为基本体,将另一个本体B导入本体A中,然后在合并本体B中添加关联描述,则得到了所需的合并后的本体结果;本体不一致性处理算法,对每个不一致本体,计算不一致本体的不可满足概念集; 读取每一个不可满足概念的最小不一致子本体从每个不一致子本体中抽取一个三元组, 如果子本体有相交,则抽取相交部分的三元组,组成三元组集合;从原本体中去除这个三元组集合,使得所有不一致本体一致;得到最大一致子本体;本体分割算法,给定一个本体,首先将其转化为图形结构,然后判断其是否全连通,如果全连通则计算最小割集,包括割点与割边;根据割集分割;如果不是全连通,则计算极大连通子图,然后根据子图进行分割。所述局部服务器的标识信息包括如通信地址、本体列表、局部服务器状态信息。所述找到两个输入本体之间实体的关联的步骤,具体包括基于实体字符串距离构造一个距离矩阵,通过字符串距离计算算法,求得每一对实体之间的距离,距离最近的实体即认为是有关联的实体。所述字符串距离计算算法采用ontosim中的符串距离计算算法。所述找到两个输入本体之间实体的关联的步骤,该步骤的具体实现包括以下步骤通过对外部语义工具的调用,找到实体名之间的关联度,关联度最小的即认为是有关联的实体;所述外部语义工具为WordNet或Wikipedia。所述通过总线MULE传送来的指令,该指令文件名必须与ontologyURI —致。与现有技术相比,本专利技术能够通过平台及平台之上的优化算法,实现对大规模语义知识库本体的优化,从而减少存储规模,以及优化推理和查询的效率。附图说明图1为分布式本体管理体系架构图;图2为本体合并算法流程图;图3为本体不一致性处理算法流程图;图4为本体分割算法流程具体实施例方式首先,本专利技术利用了本体合并算法。由于本体数据源之间的异构以及概念的重叠, 找到本体之间结构的关联,减少存储规模从而优化推理和查询的效率就变得可能,该算法主要通过寻找本体的实体之间的距离,从而在合并后的本体中添加实体关系的描述,进而建立本体之间的关联。其次,本专利技术利用了本体不一致性处理算法。现实开放世界中的知识本身存在不完全性以及知识随时间的动态演化性,因此不一致性的出现不可避免。通过本专利技术提出了一种提取最大一致子本体的算法来解决这些问题。在本专利技术中的本体是采用基于描述逻辑的语言——OffL描述的。并且,将这个算法与底层知识库结合了起来,从而实现了分布式环境下全局知识库的一致性管理。以及,本专利技术还利用了本体分割算法的应用。在本体知识库中,有时会出现一些大规模本体,这些本体的出现对知识库推理和查询的效率会有显著的影响,通过将其分割成一些小规模本体就可以极大地提高推理和查询的效率。各个算法的功能如下一、本体合并算法。对任意给定的两个OffL本体,找到他们的实体(类、属性、实例)之间的关联(子类或者等价)。二、本体不一致性处理算法。对任意给定的一个不一致本体,返回一个临时的最大一致子本体。三、本体分割算法。对任意一个规则的OffL本体,返回它的最小割集。算法演示平台综合了以上三种算法,从而可以更加方便地对这些算法进行测试, 此外在这个平台的基础上以及对大规模语义知识库的整体设计上,本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:饶国政贾彪冯志勇
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术