一种基于信息熵的地理空间数据自组织方法技术

技术编号:20866264 阅读:20 留言:0更新日期:2019-04-17 09:18
本发明专利技术的一种基于信息熵的地理空间数据自组织方法,用于实现时空信息云服务平台的地理空间数据的自组织存储;所述方法包括:步骤1)接收搜索条件,根据搜索条件读取地理空间数据;步骤2)根据所述搜索条件构建基于信息熵的最优决策树;步骤3)将地理空间数据按照最优决策树模型进行分类,实现自组织存储和管理。提高了用户搜索地理空间数据的效率;提升了导航和定位的精度;能够满足行业应用广泛,客户群体复杂化、个性化和多元化的搜索需求;有效利用了多机集群分布式处理能力,采用高速存储系统网络与相关服务,实现TB级的海量地理空间数据存储、管理和访问。

【技术实现步骤摘要】
一种基于信息熵的地理空间数据自组织方法
本专利技术涉及大数据挖掘
,具体而言,涉及一种基于信息熵的地理空间数据自组织方法。
技术介绍
信息熵是1948年美国数据家Shannon基于信息论提出的,被用来反映人们对系统内部组态信息的缺乏程度或一个随机事件的不确定性的度量。所述信息熵的计算公式如下:n个可能的信息X1,X2,…,Xn,其发生的概率分别为P1,P2,…,Pn,且函数其中k为比例系数,所述信息熵用来表示信息源输出后每个信息提供的平均信息量,或信源输出前的平均不确定程度。即不确定性越大,则信息量越大,熵越大;若不确定性越小,则信息量越小,熵越小。信息熵不仅可以处理单个事件信息的度量问题,也可处理多维的联合信息、条件信息等复杂信息。信息增益是以某特征划分数据集前后熵的差值,可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合划分效果的好坏,因此应优先使用信息增益最大的属性,这样降低了复杂度,也简化了后续逻辑。地理空间数据具有数据量大、内容多样化、结构复杂和多维化等特征。影响地理空间数据快速检索、导航和定位的因素有很多,从外部看包括数据规模,处理器的运算能力、硬件架构等,从系统内部看,包括数据组织方式,数据IO类库的IO模式,数据检索方法选择等。随着计算机技术和3S技术的迅猛发展,多源异构海量数据和高效的硬件设备处理能力已经是必然结果,因此使用户能够快速的搜索、导航和定位目的数据,成为亟待解决的问题。地理空间数据的组织是一套关于数据集中空间信息如何表达的机制,常用的空间数据的组织方式包括:(1)空间数据分层存储,不同层次表达不同类别的信息;(2)空间对象的描述分为属性要素和空间要素两种形式。其中,空间要素描述空间对象的空间位置及其关系;属性要素描述空间对象的意义及应用要求。(3)空间要素(几何数据)使用特定的矢量图形格式存储于图形文件中,而属性要素可以存放于数据库中,也可以存放在文件中,二者通过索引文件相互对应。由于地理空间数据的行业应用广泛,客户群体复杂,需求个性化、多元化,因此,不变的数据组织方式面对多变的搜索目的,会损失搜索的效率。
技术实现思路
本专利技术的目的在于解决现有技术中由于地理空间数据的行业应用广泛,客户群体复杂,以不变的数据组织方式面对多变的搜索目的,会损失搜索的效率和精度的问题。为实现上述目的,本专利技术提出一种基于信息熵的地理空间数据自组织方法,用于实现时空信息云服务平台的地理空间数据的自组织存储;所述方法包括:步骤1)接收搜索条件,根据搜索条件读取地理空间数据;步骤2)根据所述搜索条件构建基于信息熵的最优决策树;步骤3)将地理空间数据按照最优决策树模型进行分类,实现自组织存储和管理。作为所述方法的一种改进,所述搜索条件的类型个数为n个:第1类搜索条件A1、…、第i类搜索条件Ai…第n类搜索条件An。作为所述方法的一种改进,所述步骤2)具体包括:步骤2-1)以每一类搜索条件为父节点;以当前搜索条件下的分支为子节点;步骤2-2)判断所述父节点的子节点数目是否大于1个;如果子节点个数大于1,执行步骤2-3);否则,执行步骤2-8);步骤2-3)计算当前父节点的信息熵;步骤2-4)计算当前父节点下每个子节点的信息熵;步骤2-5)计算父节点的信息熵与其每个子节点的信息熵的差值,作为搜索条件的信息增益;步骤2-6)将得到的所有的信息增益进行排序;步骤2-7)选择最大的信息增益作为搜索条件的分支属性;将对应的节点作为父节点,执行步骤2-2);步骤2-8)得到最优决策树。作为所述方法的一种改进,所述步骤2-3)具体包括:计算父节点的信息熵Ha:其中:Pi为父节点的各类搜索条件百分比,ai为父节点的第i类搜索条件;a表示父节点的综合搜索条件。作为所述方法的一种改进,所述步骤2-4)具体包括:以所述父节点的每一个分支作为子节点,计算每一个子节点的搜索条件标签的分布,加权平均,求得到子节点的信息熵Hb:式中:Pi'为子节点的各类搜索条件的百分比;bi表示子节点的第i类搜索条件,b表示子节点的综合搜索条件。作为所述方法的一种改进,所述搜索条件信息增益Hg:Hg=Ha-Hb(7)。作为所述方法的一种改进,所述步骤3)具体包括:步骤3-1)根据地理空间数据的元数据信息,确定该地理空间数据的分类;步骤3-2)查找与所述分类相匹配的搜索条件对应的最优决策树,找到该地理空间数据对应的节点进行存储,实现自组织存储和管理。本专利技术的优势在于:1、本专利技术的基于信息熵的地理空间数据自组织方法提高了用户搜索地理空间数据的效率;2、本专利技术的基于信息熵的地理空间数据自组织方法提升了导航和定位的精度;3、本专利技术的基于信息熵的地理空间数据自组织方法能够满足行业应用广泛,客户群体复杂化、个性化和多元化的搜索需求;4、本专利技术的基于信息熵的地理空间数据自组织方法有效利用了多机集群分布式处理能力,采用高速存储系统网络与相关服务,实现TB级的海量地理空间数据存储、管理和访问。附图说明图1为本专利技术基于信息熵的地理空间数据自组织方法的示意图;图2为本专利技术基于信息熵的地理空间数据自组织方法的流程图。具体实施方式本专利技术提出一种基于信息熵的地理空间数据自组织方法,采用信息论中信息熵的思想,构造基于信息熵的最优决策树模型,能够提高地理空间数据搜索的速度和准确度。本专利技术应用于时空信息云服务平台的数据集市中,实现对所管理的海量异构地理空间数据进行自动化多层次聚合分类的功能,是用户手动定义数据分类的一个有力补充。在实际应用中,本专利技术也体现了随着数据的不断更新,数据的组织也不断朝着最优的方向演进,使得用户在多源异构海量数据中导航、定位和识别特定数据时所需的操作大为减少,并且自动化组织的特性也免除了数据目录手动维护的工作,用户可以选择保存个性的搜索条件,便于用户在下次应用时能够基于上次自组织的结果,快速定位到目标数据,进行数据的浏览,导航和下载等。如图1所示,本专利技术采用计算机集群系统作为硬件处理平台,采用高速存储系统网络与相关服务,实现TB级的海量地理空间数据存储、管理和访问,有效利用多机集群分布式处理能力。所述计算机集群系统是一种刀片式服务器系统,它的硬件系统主要包括四大部分:刀片服务器,磁盘阵列,工作站和万兆以太网交换机。所述客户端(工作站)负责管理和分发任务;所述刀片服务器根据接收到的任务,从磁盘阵列取出影像进行处理,然后将结果存入磁盘阵列。信息熵是一个值,利用信息熵这个值对搜索条件的标签进行有效的安排;每个数据在入库的时候都会有元数据信息;通过元数据信息判断具体一个数据属于哪个搜索条件。后台数据通过前端的搜索条件,利用信息熵的方法进行自组织后存储。本专利技术首先在客户端(工作站)根据客户的搜索条件向刀片服务器发出指令,刀片服务器根据接收到的指令,从磁盘阵列中取出数据,根据每一类搜索条件分别计算父节点搜索条件的信息熵,这个信息熵只是简单的求取搜索条件标签的分布,并按照公式求解信息熵。然后再选用所述父节点搜索条件的某一个属性作为分支属性后,需要计算每一个子分支中的搜索条件标签的分布,计算每个子条件的信息熵,加权平均(期望),求得总的信息熵。最后计算前后两个信息熵的差值,即计算信息增益,选择最大的增益属性作为分支属性。一直递归下去,对每一个子条件套用上本文档来自技高网
...

【技术保护点】
1.一种基于信息熵的地理空间数据自组织方法,用于实现时空信息云服务平台的地理空间数据的自组织存储;所述方法包括:步骤1)接收搜索条件,根据搜索条件读取地理空间数据;步骤2)根据所述搜索条件构建基于信息熵的最优决策树;步骤3)将地理空间数据按照最优决策树模型进行分类,实现自组织存储和管理。

【技术特征摘要】
1.一种基于信息熵的地理空间数据自组织方法,用于实现时空信息云服务平台的地理空间数据的自组织存储;所述方法包括:步骤1)接收搜索条件,根据搜索条件读取地理空间数据;步骤2)根据所述搜索条件构建基于信息熵的最优决策树;步骤3)将地理空间数据按照最优决策树模型进行分类,实现自组织存储和管理。2.根据权利要求1所述的基于信息熵的地理空间数据自组织方法,其特征在于,所述搜索条件的类型个数为n个:第1类搜索条件A1、…、第i类搜索条件Ai…第…n类搜索条件An。3.根据权利要求2所述的基于信息熵的地理空间数据自组织方法,其特征在于,所述步骤2)具体包括:步骤2-1)以每一类搜索条件为父节点;以当前搜索条件下的分支为子节点;步骤2-2)判断所述父节点的子节点数目是否大于1个;如果子节点个数大于1,执行步骤2-3);否则,执行步骤2-8);步骤2-3)计算当前父节点的信息熵;步骤2-4)计算当前父节点下每个子节点的信息熵;步骤2-5)计算父节点的信息熵与其每个子节点的信息熵的差值,作为搜索条件的信息增益;步骤2-6)将得到的所有的信息增益进行排序;步骤2-7)选择最大的信息增益作为搜索条件的分支属性;将...

【专利技术属性】
技术研发人员:钱晓明许青云
申请(专利权)人:北京航天泰坦科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1