The invention belongs to the technical field of relational database, in particular to a method for rapidly selecting important intervals according to a threshold value. The method of the invention comprises: a given data set;
【技术实现步骤摘要】
一种根据阈值快速筛选重要区间的方法
本专利技术属于关系数据库
,具体涉及一种在多维数据集根据阈值快速筛选重要区间的方法。
技术介绍
数据探索是近年来研究较多的领域。当用户对于数据内容缺乏了解时,需要有一个不断尝试并修改查询的过程,才能最终得到想要的结果,数据探索即在这一过程中对用户进行引导,以减小所需的时间与精力开销。传统的数据探索方式都要求冗长的交互过程,但在服务器端本身已经具有所有数据的情况下,可以帮助用户完成大量粗略的工作,给用户提供一个较优的探索起点,但这一操作需要以增加计算资源为代价。多维数据集的容量一般较大,为了节约计算资源,需要更加高效的算法。尤其是对于重要区间的筛选,在查询中十分常见频繁,对其进行优化能够有效提高整个流程的执行效率。
技术实现思路
本专利技术的目的是提出一种从多维数据集中快速筛选出符合给定阈值的重要区间的方法,以协助整体上的数据探索工作。本专利技术提出的根据阈值快速筛选重要区间的方法,包括:给定数据集D中的数据分布于维度A,对于A上任一区间[l,r],可以得到D在其上的相关程度score([l,r])。要解决的问题可以严格描述如下:给定阈值k,找出所有的区间[l,r]满足如下条件:score([l,r])≥k∧score([l-1,r])<k∧score([l,r+1])<k计算方法如下:对于每一个右边界r,计算出符合条件的左边界LBr,以确保score([LBr,r])≥k且score([LBr-1,r])<k。根据上一步计算得到的数组LB,将右边界r从大到小遍历,如果对应的左边界LBr比之前输出过的所 ...
【技术保护点】
一种根据阈值快速筛选重要区间的方法,其特征在于,具体步骤如下:(1.1)给定数据集
【技术特征摘要】
1.一种根据阈值快速筛选重要区间的方法,其特征在于,具体步骤如下:(1.1)给定数据集D中的数据分布于维度A,对于A上任一区间,得到D在其上的相关程度,根据阈值k筛选区间即为找出所有且无法再扩展的区间;(1.2)首先计算数组LB,对于每一个右边界r,确保且;(1.3)根据步骤(1.2)中计算得到的,将右边界从大到小遍历,如果对应的左边界比之前输出过的所有值都小,就将作为结果输出。2.根据权利要求1所述的方法,其特征在于,步骤(1.2)中所述计算LB的一种方法如下:(2.1)将右边界r从小到大遍历来依次计算相应的数值;(2.2)对于当前已经访问过的数据,将其位置和值记录下来成为的格式,说明当前到达左边界且超过阈值所需要的最小的数值为,对于的计算即转化为传统的二分查找问题,从而在时间内完成;(2.3)于步骤(2.2)中的的数组...
【专利技术属性】
技术研发人员:马会心,杨智慧,何震瀛,王晓阳,
申请(专利权)人:复旦大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。