【技术实现步骤摘要】
一种面向流式数据的非重复采样方法
本专利技术属于流数据处理领域。具体涉及一种面向流数据的非重复采样技术。
技术介绍
随着大数据时代的到来,在移动通信,金融等领域实时产生了大量的流式数据,这类流式数据呈现典型的大数据特征,即真实、多样、量大、快速、高价值。由于流式数据的数据量巨大、采集速度极快、样式丰富,这使得很多传统的数据分析系统难以进行实时的处理和分析。可见,若能在巨量的流式数据中,采样具有代表性的、数据量相对较小的数据集供上层应用进行分析,而不是原生的巨量流式数据,能够极大的减轻上层应用的处理负担,同时又能保证分析结果的准确性。
技术实现思路
本专利技术目的是解决传统的数据分析系统对于大量的流式数据难以进行实时处理和分析的问题。本专利技术技术方案一种面向流式数据的非重复采样方法,其步骤为:第1、读取流式数据,判断全局组团直径数组的稳定性;设置一个变量来存储全局组团直径数组的稳定性,初始值设置为0(表示不稳定),再进入第2步,之后在第4.1步中重新计算全局组团直径数组的稳定性,若达到稳定,则置为1,同时对于下一轮的数据而言,将直接进入第5步;定义1:流式数据,定义如下:流式数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,流式数据被视为一个随时间延续而无限增长的动态数据集合;第2、存储部分流式数据作为训练数据集,并进行数据清洗,去除不规范数据点;第2.1、对于流式数据,数据会源源不断的到来,选取一个预设固定时间段内 ...
【技术保护点】
1.一种面向流式数据的非重复采样方法,其步骤为:/n第1、读取流式数据,判断全局组团直径数组的稳定性;/n设置一个变量来存储全局组团直径数组的稳定性,初始值设置为0,表示不稳定,再进入第2步,之后在第4.1步中重新计算全局组团直径数组的稳定性,若达到稳定,则置为1,同时对于下一轮的数据而言,将直接进入第5步;/n定义1:流式数据,定义如下:/n流式数据是一组顺序、大量、快速、连续到达的数据序列,流式数据被视为一个随时间延续而无限增长的动态数据集合;/n第2、存储部分流式数据作为训练数据集,并进行数据清洗,去除不规范数据点;/n第2.1、对于流式数据,数据会源源不断的到来,选取一个预设固定时间段内的数据进行存储,作为训练数据集;/n第2.2、清洗训练数据集,去除不规范数据点;/n定义2:不规范数据点,定义如下:/n对于同一个数据集中的任意一个数据点,若存在以下一个或者多个情况,则该数据点为不规范数据点:/n(1)存在缺失属性,也即数据点采集不完整;/n(2)存在错误属性;/n(3)存在重复数据点,也即存在所有属性均一致的数据点,那么除去第一次出现的数据点以外,剩余数据点均为重复数据点;/ ...
【技术特征摘要】
1.一种面向流式数据的非重复采样方法,其步骤为:
第1、读取流式数据,判断全局组团直径数组的稳定性;
设置一个变量来存储全局组团直径数组的稳定性,初始值设置为0,表示不稳定,再进入第2步,之后在第4.1步中重新计算全局组团直径数组的稳定性,若达到稳定,则置为1,同时对于下一轮的数据而言,将直接进入第5步;
定义1:流式数据,定义如下:
流式数据是一组顺序、大量、快速、连续到达的数据序列,流式数据被视为一个随时间延续而无限增长的动态数据集合;
第2、存储部分流式数据作为训练数据集,并进行数据清洗,去除不规范数据点;
第2.1、对于流式数据,数据会源源不断的到来,选取一个预设固定时间段内的数据进行存储,作为训练数据集;
第2.2、清洗训练数据集,去除不规范数据点;
定义2:不规范数据点,定义如下:
对于同一个数据集中的任意一个数据点,若存在以下一个或者多个情况,则该数据点为不规范数据点:
(1)存在缺失属性,也即数据点采集不完整;
(2)存在错误属性;
(3)存在重复数据点,也即存在所有属性均一致的数据点,那么除去第一次出现的数据点以外,剩余数据点均为重复数据点;
第3、基于数据集各维度分离度的特性,学习训练数据集在各维度上的最优组团直径;
定义3:(α,β)-数据集,定义如下:
令S为流式数据,d为S的数据维度,D(.,.)为欧式距离度量方法,α(α1,...,αd)为组团直径数组,β(β1,...,βd)为距离阈值数组,其满足βi>αi,i∈[1,d];那么对于任意S中的数据点u,v有:
要么D(ui,vi)≤αi,要么D(ui,vi)≥βi,αi,i∈[1,d],
则称流式数据S为(α,β)-数据集;
定义4:分离度,定义如下:
令S为(α,β)-数据集,那么在某一个维度i,存在多个符合要求的αi和βi,取其中αi的最小值min(αi),取βi的最大值max(βi),那么在维度i上的分离度为:
max(βi)/min(αi),i∈[1,d];
第4、更新全局组团直径数组;
第4.1、计算全局组团直径数组是否稳定,预先设置一个阈值,判断在训练数据集每一个维度上的组团直径与对应全局组团直径之间的误差是否在阈值范围内,只有当训练数据在所有维度上的最优组团直径与对应全局组团直径的误差都在阈值范围内,这时全局组团直径达到稳定;
第4.2、若全局组团直径数组未达到稳定,则在每一个维度上,将训练数据的最优组团直径与全局组团直径以2∶8权重进行加权平均,得到更新后的全局组团直径数组;
第5、结合局部敏感哈希,对流式数据进行非重复采样,并实时维护接收集合与拒绝集合;
第5.1、使用局部敏感哈...
【专利技术属性】
技术研发人员:温延龙,鲁茸定主,袁晓洁,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。