【技术实现步骤摘要】
本专利技术属于海量数据管理领域,特别涉及一种海量数据近似聚集查询中的离群分 治取样方法。
技术介绍
首先对本专利技术的技术术语进行如下解释: 离群点:如果一个数据样本与其他样本之间存在足以引起怀疑的差异,则称其为 离群点; 标准差S:尺寸为N的数据集R,相应元组的值集为{Xl,x2,…,%},标准差S是方 差S2的平方根,S被定义为:【主权项】1. ,其特征在于:包括离群分离步 骤和查询处理步骤,其中: 步骤1,离群分离: 步骤1-1,分离R中的离群值并生成离群值子集R。: 步骤1-1-1,定义输入参数:海量数据集的元组数N;均匀取样率f;离群值比率1,1>0, 且离群点数lN〈〈n',n'是取样集T的样本数,n' =f* (N-IN),ITI=n',1值借助工作负载 信息或历史数据分布信息获取; 步骤1-1-2,将关系R的数据集划分为m个窗口,m=clN,即要求窗口数超过离群点数; 公式中的c为正整数常数,2 <c< 1/1,如果离群值分散或均匀分布,c取下界值,否则取 上界值;步骤1-1-4,对每个窗口i,i从1起算到第m个窗口止均重复以下的计算过程: 步骤1-1-4-1,从第i个窗口中顺序取出w个元组的IC1,…,CN},并定义为⑷/,… ,Cw' },C是查询Q的聚集属性列IC1,…,CJ; 步骤1-1-4-2,如果从最后一个窗口中取出的元组数w'少于w,则直接取w的值为w' ; 步骤1-1-4-3,对每个窗口i中的每个元组j均实施以下的计算过程: 步骤1-1-4-3-1,计算除元组j之外的标准差值E ...
【技术保护点】
一种海量数据近似聚集查询中的离群分治取样方法,其特征在于:包括离群分离步骤和查询处理步骤,其中:步骤1,离群分离:步骤1‑1,分离R中的离群值并生成离群值子集Ro:步骤1‑1‑1,定义输入参数:海量数据集的元组数N;均匀取样率f;离群值比率l,l>0,且离群点数lN<<n',n'是取样集T的样本数,n'=f*(N‑lN),|T|=n',l值借助工作负载信息或历史数据分布信息获取;步骤1‑1‑2,将关系R的数据集划分为m个窗口,m=clN,即要求窗口数超过离群点数;公式中的c为正整数常数,2≤c≤1/l,如果离群值分散或均匀分布,c取下界值,否则取上界值;步骤1‑1‑3,每个窗口的元组数步骤1‑1‑4,对每个窗口i,i从1起算到第m个窗口止均重复以下的计算过程:步骤1‑1‑4‑1,从第i个窗口中顺序取出w个元组的{C1,…,CN},并定义为{C1′,…,Cw′},C是查询Q的聚集属性列{C1,…,CN};步骤1‑1‑4‑2,如果从最后一个窗口中取出的元组数w’少于w,则直接取w的值为w’;步骤1‑1‑4‑3,对每个窗口i中的每个元组j均实施以下的计算过程:步骤1‑1‑4 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:胡文瑜,刘建华,唐郑熠,刘垣,
申请(专利权)人:福建工程学院,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。