当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于万维网的层次积分直方图可视查询方法技术

技术编号:19821998 阅读:20 留言:0更新日期:2018-12-19 14:46
本发明专利技术公开了一种层次积分直方图的可视查询方法,包括以下步骤:步骤1:对原始数据集进行配置,包括离散化区间数、过滤数据的条件和需要进行聚合统计的维度;步骤2:以离线预处理方式构建并存储层次划分树,其中数据被层次划分树分割为多个数据子集,每个数据子集的统计特征由积分直方图进行表达;步骤3:将可视化空间均匀离散化成特定的小区域,将小区域的坐标输入步骤2中的层次划分树进行范围查询,所述范围查询是寻找与目标区域有交集的数据子集并用该交集的积分直方图去估计目标区域统计特征的过程,所有小区域都被执行范围查询后得到一个关于统计特征的矩阵;步骤4:对统计特征的矩阵进行视觉元素绑定,进行可视化请求。

【技术实现步骤摘要】
一种基于万维网的层次积分直方图可视查询方法
本专利技术涉及快速可视查询领域,特别涉及一种层次积分直方图的快速查询方法。
技术介绍
在大规模结构化数据的可视分析场景中,人们需要从数据的统计特征中了解和研究数据的分布,通过分布特点总结规律、进行决策。最常见的聚合运算(指从一组值中计算出一个值)一般通过直方图或离散化散点图等进行可视表达。当数据量足够大时,直接遍历数据项计算统计特征的方法将无法满足交互式可视化探索的实时性需求。如何在大规模结构化数据中快速查询得到指定范围的数据,例如交通资源的实时管理调度、金融交易的实时监测等,成为了互联网,交通,航天,商业等领域的热门课题。对于现实中的大规模结构化数据,其维度高,数据项多,数据模态和格式多种多样,数据分布独特。在如此庞大复杂的数据集上执行可视查询操作,会存在无法及时响应甚至耗时太长的问题。许多现有的方法都是在数据库层面进行查询优化,它们为了得到精确的结果,需要在数据集上设置考虑同时构造有利于用户理解的外部表达;另外,一些工作基于近似结果的目标采用了一系列的近似查询策略(近似查询指为了减少查询的响应时间,用近似的策略对数据进行查询),例如基于抽样算法的,基于直方图表达的和基于小波变换的技术。上述近似技术有的使用了固定的预计算模式,局限于特定统计特征,不能应用于多种类型的数据,如动态数据和流数据;有的仅限于低维情况,高维数据集计算所需的内存过大。
技术实现思路
本专利技术提供了一种层次积分直方图的可视查询方法,把搜索时间降低到500毫秒以内,达到交互级别同时显著减少对存储的需求。一种层次积分直方图的可视查询方法,包括以下步骤:步骤1:对原始数据集进行配置,包括离散化区间数、过滤数据的条件和需要进行聚合统计的维度;步骤2:基于步骤1中的配置处理得到的数据,以离线预处理方式构建并存储层次划分树,其中数据被层次划分树分割为多个数据子集,每个数据子集的统计特征由积分直方图进行表达;步骤3:通过步骤1中的配置将可视化空间均匀离散化成特定的小区域,对于每一块小区域,将小区域的坐标输入步骤2中的层次划分树进行范围查询,所述范围查询是寻找与目标区域有交集的数据子集并用该交集的积分直方图去估计目标区域统计特征的过程,所有小区域都被执行范围查询后得到一个关于统计特征的矩阵;步骤4:对步骤3的统计特征的矩阵进行视觉元素绑定,进行可视化请求。本方法把时间损耗转移到预处理阶段,对查询结果进行误差允许范围内的近似计算,与现有方法相比,本查询方法可以显著降低存储成本,并且时间复杂度与数据点的数量无关,可以进行高效的在线可视查询。本专利技术基于用户的配置参数对原始数据集和目标可视空间进行预处理,并通过层次划分算法对数据集进行层次划分,从而实现对不同分布的区域采用不同精度和尺度的表达。对于每一个子区域,用积分直方图去近似该区域的统计特征,在可视查询时,系统利用层次划分树快速有效地遍历查找目标区域集合并返回近似值,从而得到目标区域的近似统计特征。与现有的方法相比,本方法把时间损耗转移到数据预处理阶段,对可能需要可视查询的数据集提前离线预处理,得到对数据集的一种高效近似表达,进而可用于后续的在线可视查询。本方法基于近似再逐渐细化的构想,只需要存储数据被统计后的积分直方图,其它的许多可视查询方法需要存储原始数据,需要较大的时间和空间损耗,同时不能较好地捕捉数据的分布,因此本方法的应用更广。为了提高本专利技术的适用范围和智能化,优选的,步骤4中,还包括交互式地调节可视化的参数,并在可视化过程中得到即时的可视反馈结果。为了进一步提高计算效率,优选的,步骤2中,原始数据集为具有n个维度D={D1,…,Dn}的高维数据集V,每个维度的域分别表示为{[a1,b1],…,[an,bn]}。为了进一步提高计算效率,优选的,步骤2中,数据被层次划分树分割为多个数据子集具体过程为:将整个数据空间进行递归划分,产生一个分层的树结构,数据空间被重构为V’={v′1,…v′i…v′p},其中每一个v′i∈V′对应于树的一个叶节点。为了进一步提高计算效率,优选的,步骤2中,所述积分直方图是求和表的一种扩展,表格中每个网格的值都等于其左上角所有的值的总和,于是每个网格中的值可以由四个值的加减获得。求和表的英文名叫summedareatable,是一张二维的表格。为了进一步提高计算效率,优选的,步骤2中,计算积分直方图的具体过程如下:对于由N1×…Nd网格进行分箱的d维数据集,并通过带有b个分箱数的直方图进行汇总,叶节点的积分直方图定义为:其中,x1,…,xd是d个维度上的分箱的索引,b是直方图中分箱的索引,h(x1,…,xd,·)表示每个网格中值的直方图;数据空间中任何矩形区域的积分直方图可以由以下方式计算:其中xp是矩形区域的角点,p∈{0,1}d。本专利技术的有益效果:本专利技术的层次积分直方图的可视查询方法,实现对不同分布的区域采用不同精度和尺度的表达,得到目标区域的近似统计特征,把时间损耗转移到数据预处理阶段,对可能需要可视查询的数据集提前离线预处理,得到对数据集的一种高效近似表达,基于近似再逐渐细化的构想,只需要存储数据被统计后的积分直方图,降低时间和空间损耗,同时较好地捕捉数据的分布,应用更广。附图说明图1为本专利技术的层次积分直方图的可视查询方法的流程示意图。图2为地图上的POI数据集被层次划分树划分为多个子集后的结果示意图。图3为图2的密集区域放大后的结果示意图。具体实施方式如图1所示,本实施例的层次积分直方图的可视查询方法包括以下步骤:步骤1:对于一个具有n个维度D={D1,…,Dn}的高维数据集V,其每个维度的域分别表示为{[a1,b1],…,[an,bn]},术语分箱是一种用户定义的用于聚合数据空间的比例尺,用户从高维数据集中指定进行分箱、过滤和聚合的维度,如图1中线框a所示。步骤2:基于步骤1中的配置处理得到的数据,系统首先采用R树的空间划分算法,本实施例具体过程中采用了R树的变体R*树,将整个数据空间进行递归划分,从而产生一个分层的树结构,如图1中线框b所示,如图2和图3所示,图3可以看到密集区域被划分为更多的子空间,且划分结果较好。数据空间被重构为V’={v′1,…v′p},其中每一个v′i∈V′对应于R树的一个叶节点。接着在所有的叶节点上计算积分直方图,如图1中线框c所示,它是求和表的一种扩展,求和表的英文名叫summedareatable,是一张二维的表格,表格中每个网格的值都等于其左上角所有的值的总和,于是每个网格中的值可以由四个值的加减获得。与原始求和表在每个网格中存储单个标量值不同,积分直方图汇总了落在每个网格中的数据点的分布,计算叶节点上每个网格范围内的所有数据点的直方图,并类似于通过求和表计算矩形区域值的方式返回查询的结果。对于由N1×…Nd网格进行分箱的d维数据集,并通过带有b个分箱数的直方图进行汇总,叶节点的积分直方图定义为:其中,x1,…,xd是d个维度上的分箱的索引,b是直方图中分箱的索引,h(x1,…,xd,·)表示每个网格中值的直方图,所以数据空间中任何矩形区域的积分直方图可以由以下方式计算:其中xp是矩形区域的角点,p∈{0,1}d。步骤3:用户定义一个查询范围和一个聚合函数A,两者组成一个本文档来自技高网...

【技术保护点】
1.一种层次积分直方图的可视查询方法,其特征在于,包括以下步骤:步骤1:对原始数据集进行配置,包括离散化区间数、过滤数据的条件和需要进行聚合统计的维度;步骤2:基于步骤1中的配置处理得到的数据,以离线预处理方式构建并存储层次划分树,其中数据被层次划分树分割为多个数据子集,每个数据子集的统计特征由积分直方图进行表达;步骤3:通过步骤1中的配置将可视化空间均匀离散化成特定的小区域,对于每一块小区域,将小区域的坐标输入步骤2中的层次划分树进行范围查询,所述范围查询是寻找与目标区域有交集的数据子集并用该交集的积分直方图去估计目标区域统计特征的过程,所有小区域都被执行范围查询后得到一个关于统计特征的矩阵;步骤4:对步骤3的统计特征的矩阵进行视觉元素绑定,进行可视化请求。

【技术特征摘要】
1.一种层次积分直方图的可视查询方法,其特征在于,包括以下步骤:步骤1:对原始数据集进行配置,包括离散化区间数、过滤数据的条件和需要进行聚合统计的维度;步骤2:基于步骤1中的配置处理得到的数据,以离线预处理方式构建并存储层次划分树,其中数据被层次划分树分割为多个数据子集,每个数据子集的统计特征由积分直方图进行表达;步骤3:通过步骤1中的配置将可视化空间均匀离散化成特定的小区域,对于每一块小区域,将小区域的坐标输入步骤2中的层次划分树进行范围查询,所述范围查询是寻找与目标区域有交集的数据子集并用该交集的积分直方图去估计目标区域统计特征的过程,所有小区域都被执行范围查询后得到一个关于统计特征的矩阵;步骤4:对步骤3的统计特征的矩阵进行视觉元素绑定,进行可视化请求。2.如权利要求1所述的层次积分直方图的可视查询方法,其特征在于,步骤4中,还包括交互式地调节可视化的参数,并在可视化过程中得到即时的可视反馈结果。3.如权利要求1所述的层次积分直方图的可视查询方法,其特征在于,步骤2中,原始数据集为具有n个维度D={D1,...,Dn}的高维数据集V,每个维度的域...

【专利技术属性】
技术研发人员:陈为梅鸿辉
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1