当前位置: 首页 > 专利查询>清华大学专利>正文

一种城市管理本体知识库的构建方法及系统技术方案

技术编号:14662677 阅读:74 留言:0更新日期:2017-02-17 09:57
本发明专利技术提供了一种城市管理本体知识库的构建方法及系统,该方法包括:获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;根据预设策略对各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到对应的第一知识实体集和第二知识实体集;为第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,根据关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。本发明专利技术解决了部门间信息的互通问题,实现自动化的知识抽取和本体知识库构建。

【技术实现步骤摘要】

本专利技术涉及知识工程
,尤其涉及一种城市管理本体知识库的构建方法及系统
技术介绍
随着城市信息化进程的日益加快,人们的生产生活方式发生了翻天覆地的变化。人们对城市服务能力的要求也越来越高,于是智慧城市理念应运而生。尤其在城市管理方面,公众希望政府的施政手段更加人性化,市政部门不再是单纯的城市管理者,更要向城市服务者的身份转变。因此,借助知识工程及相关技术开发一个基于城市管理的本体知识库应用显得尤为重要,因为它可以有效地解决上述那些困扰城市发展的瓶颈问题。所谓本体知识库,即知识工程中结构化、易操作、易利用、全面有组织的知识集群。通常是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理及使用的互相联系的知识片集合。传统的关系型数据库相比,传统数据库只能通过二维表存储一些基本的事实数据,且其不具备表达和处理知识的能力。而知识库不仅蕴含显式表达的事实知识,也包含显式表达的包括常识、经验等在内的领域知识和启发式知识。在某些确定的规则下,知识库能够推导出新的数据项,有专门的推理机制支持带控制的知识检索。目前,人们已经对通用知识库的构建开展了大量的工作,现有本体知识库的实现往往存在如下问题:仅针对某一特定领域来构建知识库;构建知识库所需的数据来源和格式也较为单一,多数是基于互联网数据。而且,现有的研究应用中更是少有关于城市管理领域的知识库构建案例,即使有类似的应用场景,其涉及的领域也往往局限在城市管理体系的某一侧面,如轨道交通系统、医疗卫生系统、基础设施建设系统等。并且这些知识库的数据来源依然以互联网数据为主,这相对于城市管理知识库的需求还存在着缺乏权威性、不具时效性和没有针对性等缺点。可见,当前这些基于知识库的研究应用并没有从根本上解决好城市管理系统所面临的跨体系、多平台、数据源复杂的问题。目前各个行政管理部门普遍购置了属于自己的信息化部门管理系统(简称部门系统或系统),但由于行政领域的差异,不同部门系统所产生的数据信息在结构和语义上都存在较大差异,因此,在知识库的构建过程中存在各部门的数据融合及统一问题。由于城市管理体系过于庞杂,为了保证对城市管理领域描述的完整性,构建知识库的数据来源不可能仅限于某一种特定的数据结构,在知识库的构建过程中存在对各种异构数据的转换及处理问题。相比其他领域知识,城市管理领域的知识数量庞大、信息庞杂,在实现对海量数据的知识库的构建过程中,还存在查询效率低的问题。
技术实现思路
鉴于上述问题,本专利技术提出了一种城市管理本体知识库的构建方法及系统,解决了部门间信息的互通问题,实现自动化的知识抽取和本体知识库构建。根据本专利技术的一个方面,提供了一种城市管理本体知识库的构建方法,该方法包括:获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。其中,在所述根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取之前,所述方法还包括:对所述各部门系统的数据集的数据格式转换为数据文档;根据预设的专家系统对格式转换后的各部门系统的数据集的有效性进行校验,得到有效元数据。其中,所述根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,包括:采用关键词提取方式或预设规则对所述各部门系统的数据集进行知识抽取;采用正则表达式匹配的方式对所述与各部门相关的法律法规文档进行知识抽取。其中,所述方法还包括:当各部门系统的数据集和/或与各部门相关的法律法规文档发生变更时,根据每一知识实体的唯一标识符更新发生变更的数据对应的知识实体。其中,所述根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,包括:提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。其中,所述获取不同的知识实体集中任意两个知识实体的关键字标签的相识度,具体包括:计算不同的知识实体集中任意两个知识实体的关键字标签的编辑距离;计算不同的知识实体集中任意两个知识实体的关键字标签的余弦相识度;根据所述编辑距离和余弦相识度计算不同的知识实体集中任意两个知识实体的关键字标签的相识度sim(x,y),公式如下:其中,x为第一个知识实体的关键字标签的向量表示,y为第二个知识实体的关键字标签的向量表示,cossim(x,y)为x向量和y向量的余弦相似度,levin(x,y)为x向量和y向量的编辑距离。其中,所述获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接,包括:提取每一实例的特征信息,根据所述特征信息从互联网中抓取与所述特征信息相匹配的互联网数据;建立每一实例与对应的互联网数据之间的链接。根据本专利技术的另一个方面,提供了一种城市管理本体知识库的构建系统,该系统包括:数据获取单元,用于获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;知识抽取单元,用于根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;实体链接建立单元,用于为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;网络数据链接建立单元,用于获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。其中,所述知识抽取单元,包括:第一处理模块,用于采用关键词提取方式或预设规则对所述各部门系统的数据集进行知识抽取;第二处理模块,用于采用正则表达式匹配的方式对所述与各部门相关的法律法规文档进行知识抽取。其中,所述实体链接建立单元,包括:提取模块,用于提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;获取模块,用于获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;链接建立模块,用于根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。本专利技术的有益效果为:本专利技术提供的一种城市管理本体知识库的构建方法及系统,以各城市管理部门系统公开的数据集为数据源头,并吸纳了相关领域的法律法规文档和互联网公开数据为构建城市管理本体知识库,通过异构数据的知识抽取,实现自动化的知识抽取和知识库构建。利用语义信息建立知识实体之间的链接,高效准确地得到搜索结果并返回本文档来自技高网
...
一种城市管理本体知识库的构建方法及系统

【技术保护点】
一种城市管理本体知识库的构建方法,其特征在于,所述方法包括:获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。

【技术特征摘要】
1.一种城市管理本体知识库的构建方法,其特征在于,所述方法包括:获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。2.根据权利要求1所述的方法,其特征在于,在所述根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取之前,所述方法还包括:对所述各部门系统的数据集的数据格式转换为数据文档;根据预设的专家系统对格式转换后的各部门系统的数据集的有效性进行校验,得到有效元数据。3.根据权利要求1所述的方法,其特征在于,所述根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,包括:采用关键词提取方式或预设规则对所述各部门系统的数据集进行知识抽取;采用正则表达式匹配的方式对所述与各部门相关的法律法规文
\t档进行知识抽取。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当各部门系统的数据集和/或与各部门相关的法律法规文档发生变更时,根据每一知识实体的唯一标识符更新发生变更的数据对应的知识实体。5.根据权利要求1所述的方法,其特征在于,所述根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,包括:提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。6.根据权利要求5所述的方法,其特征在于,所述获取不同的知识实体集中任意两个知识实体的关键字标签的相识度,具体包括:计算不同的知识实体集中任意两个知识实体的关键字标签的编辑距离;计算不同的知识实体集中任意两个知识实体的关键字标签的余弦相识度;...

【专利技术属性】
技术研发人员:许斌钟东来佟明川
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1