当前位置: 首页 > 专利查询>南开大学专利>正文

一种面向流式数据的非重复采样方法技术

技术编号:22913935 阅读:23 留言:0更新日期:2019-12-24 21:50
一种面向流式数据的非重复采样方法,包括:判断全局组团直径数组的稳定性;存储部分流式数据作为训练数据集,进行数据清洗,去除冗余、不规范数据点;基于数据集各维度分离度的特性,学习训练数据集在各维度上的最优组团直径;更新全局组团直径数组;结合局部敏感哈希,对流式数据进行非重复采样,并实时维护接收集合与拒绝集合;最后每当查询到来,就可以从接受集合中随机采样出结果集合。本发明专利技术提出的面向流式数据的非重复采样方法,能够根据数据点的空间分布,信息特征准确、高效的采样具有代表性的数据点,能够极大的减少数据量,同时高度保留原始数据的信息,方便上层应用进行快捷、高效的实时分析。

A non repeated sampling method for streaming data

【技术实现步骤摘要】
一种面向流式数据的非重复采样方法
本专利技术属于流数据处理领域。具体涉及一种面向流数据的非重复采样技术。
技术介绍
随着大数据时代的到来,在移动通信,金融等领域实时产生了大量的流式数据,这类流式数据呈现典型的大数据特征,即真实、多样、量大、快速、高价值。由于流式数据的数据量巨大、采集速度极快、样式丰富,这使得很多传统的数据分析系统难以进行实时的处理和分析。可见,若能在巨量的流式数据中,采样具有代表性的、数据量相对较小的数据集供上层应用进行分析,而不是原生的巨量流式数据,能够极大的减轻上层应用的处理负担,同时又能保证分析结果的准确性。
技术实现思路
本专利技术目的是解决传统的数据分析系统对于大量的流式数据难以进行实时处理和分析的问题。本专利技术技术方案一种面向流式数据的非重复采样方法,其步骤为:第1、读取流式数据,判断全局组团直径数组的稳定性;设置一个变量来存储全局组团直径数组的稳定性,初始值设置为0(表示不稳定),再进入第2步,之后在第4.1步中重新计算全局组团直径数组的稳定性,若达到稳定,则置为1,同时对于下一轮的数据而言,将直接进入第5步;定义1:流式数据,定义如下:流式数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,流式数据被视为一个随时间延续而无限增长的动态数据集合;第2、存储部分流式数据作为训练数据集,并进行数据清洗,去除不规范数据点;第2.1、对于流式数据,数据会源源不断的到来,选取一个预设固定时间段内的数据进行存储,作为训练数据集;第2.2、清洗训练数据集,去除不规范数据点;定义2:不规范数据点,定义如下:对于同一个数据集中的任意一个数据点,若存在以下一个或者多个情况,则该数据点为不规范数据点:(4)存在缺失属性,也即数据点采集不完整;(5)存在错误属性;(6)存在重复数据点,也即存在所有属性均一致的数据点,那么除去第一次出现的数据点以外,剩余数据点均为重复数据点;第3、基于数据集各维度分离度的特性,学习训练数据集在各维度上的最优组团直径;定义3:(α,β)-数据集,定义如下:令S为流式数据,d为S的数据维度,D(.,.)为欧式距离度量方法,α(α1,...,αd)为组团直径数组,β(β1,...,βd)为距离阈值数组,其满足βi>αi,i∈[1,d];那么对于任意S中的数据点u,v有:要么D(ui,vi)≤αi,要么D(ui,vi)≥βi,αi,i∈[1,d],则称流式数据S为(α,β)-数据集;定义4:分离度,定义如下:令S为(α,β)-数据集,那么在某一个维度i,存在多个符合要求的αi和βi,取其中αi的最小值min(αi),取βi的最大值max(βi),那么在维度i上的分离度为:max(βi)/min(αi),i∈[1,d];第4、更新全局组团直径数组;第4.1、计算全局组团直径数组是否稳定,预先设置一个阈值,判断在训练数据集每一个维度上的组团直径与对应全局组团直径之间的误差是否在阈值范围内,只有当训练数据在所有维度上的最优组团直径与对应全局组团直径的误差都在阈值范围内,这时全局组团直径达到稳定;第4.2、若全局组团直径数组未达到稳定,则在每一个维度上,将训练数据的最优组团直径与全局组团直径以2∶8权重进行加权平均,得到更新后的全局组团直径数组;第5、结合局部敏感哈希,对流式数据进行非重复采样,并实时维护接收集合与拒绝集合;第5.1、使用局部敏感哈希分配桶id;通过局部敏感哈希将高度相似的数据点映射到相同的桶中,在每一个数据点到来时,为该数据点分配对应的桶id;第5.2、计算该数据点是否为代表点;如果该数据点不是代表点,说明在该数据点到来之前,已经到达与该数据点存在类似的数据点,他们同属一个组团,具有相似的特征值,所以设定先到的数据点作为代表整个组团的代表点,之后到的数据点就可以直接丢弃。如果该数据点是代表点,就表明该数据点是一个全新组团的代表点,就进入第5.3步;定义5:代表点,定义如下:令S为(α,β)-数据集,Srep为当前所有的代表点集合,对于一个来自S的数据点u,如果有:其中,Space(v)代表以v为中心,以αi,i∈[1,d]为第i维直径长度的欧式空间,那么数据点u为S中的一个代表点;第5.3、计算数据点所属的网格是否被采样;在数据点为代表点的前提下,通过查看代表点所属的网格是否被采样,来决定是否采样该代表点,如果该数据点是代表点,并且其所属网格被采样,那么该数据点就被加入接受集合中,否则进入第5.4步;这里采用网格来代替数据点本身进行采样,其优势在于整个采样过程可以在所有数据点还未到达之前,就提前对空间划分网格进行采样,这样最终只需要简单查看代表点是否落在采样到的网格内即可,大幅度提高了采样的效率,同时也不乏随机性和公平性,保证每一个代表点都有相同的概率被采样;定义6:网格:令S为(α,β)-数据集,那么α(α1,...,αd)为S的组团直径数组,那么定义一个网格为在高维欧式空间中以αi/2,i∈[1,d]为第i维直径长度的空间,这些网格对整个完整的欧式空间进行了切割,同时由于各个维度的整体取值范围是有界限的,所以需要切割的欧式空间是有界的,也即是总的网格数是有限的,能够在有限时间内完成;定义7:所属的网格,定义如下:对于数据点u来说,其所属的网格,也即是u所分布在欧式空间上的位置对应被切割到的网格;所以,每一个数据点有且仅有一个所属网格;第5.4、计算数据点周围的网格是否被采样;在数据点为代表点,同时其所属网格没有被采样的前提下,计算该数据点周围的网格是否被采样,如果其周围的网格被采样,那么该数据点就被加入拒绝集合,否则直接丢弃;存在接受集合与拒绝集合,就能够在采样过程中保证每一个代表点都能够被相同的概率采样,同时也保证了一个组团只会产生一个代表点。定义8:周围的网格,定义如下:对于数据点u来说,其周围的网格,代表了以u为中心,各维度直径为αi,i∈[1,d]的空间内,除去u所属网格以外的所有网格;所以,每一个数据点,一般拥有多个周围网格;第6、每当查询到来,就能够从接受集合中随机采样出结果集合。本专利技术的优点和有益效果:本专利技术提出了一种面向流式数据的非重复采样方法,一方面该方法可以从数据量巨大的流式数据中,增量式采样出相对小量的数据集,从而有效的缓解上层应用的处理负担,方便其进行分析处理。另一方面该方法采样出的数据点都具有代表性,使得采样出来的数据集能够极大的保留原生数据的特征和特性,从而保证上层应用的分析的准确性和有效性。本专利技术可以适用在所有流式处理系统中,尤其针对数值类型的数据,可以极大的减少上层应用的处理压力,提高分析效率,同时又能保证分析结果的高准确和高可靠,有效的解决了传统数据分析系统无法处理流式数据的本文档来自技高网...

【技术保护点】
1.一种面向流式数据的非重复采样方法,其步骤为:/n第1、读取流式数据,判断全局组团直径数组的稳定性;/n设置一个变量来存储全局组团直径数组的稳定性,初始值设置为0,表示不稳定,再进入第2步,之后在第4.1步中重新计算全局组团直径数组的稳定性,若达到稳定,则置为1,同时对于下一轮的数据而言,将直接进入第5步;/n定义1:流式数据,定义如下:/n流式数据是一组顺序、大量、快速、连续到达的数据序列,流式数据被视为一个随时间延续而无限增长的动态数据集合;/n第2、存储部分流式数据作为训练数据集,并进行数据清洗,去除不规范数据点;/n第2.1、对于流式数据,数据会源源不断的到来,选取一个预设固定时间段内的数据进行存储,作为训练数据集;/n第2.2、清洗训练数据集,去除不规范数据点;/n定义2:不规范数据点,定义如下:/n对于同一个数据集中的任意一个数据点,若存在以下一个或者多个情况,则该数据点为不规范数据点:/n(1)存在缺失属性,也即数据点采集不完整;/n(2)存在错误属性;/n(3)存在重复数据点,也即存在所有属性均一致的数据点,那么除去第一次出现的数据点以外,剩余数据点均为重复数据点;/n第3、基于数据集各维度分离度的特性,学习训练数据集在各维度上的最优组团直径;/n定义3:(α,β)-数据集,定义如下:/n令S为流式数据,d为S的数据维度,D(.,.)为欧式距离度量方法,α(α...

【技术特征摘要】
1.一种面向流式数据的非重复采样方法,其步骤为:
第1、读取流式数据,判断全局组团直径数组的稳定性;
设置一个变量来存储全局组团直径数组的稳定性,初始值设置为0,表示不稳定,再进入第2步,之后在第4.1步中重新计算全局组团直径数组的稳定性,若达到稳定,则置为1,同时对于下一轮的数据而言,将直接进入第5步;
定义1:流式数据,定义如下:
流式数据是一组顺序、大量、快速、连续到达的数据序列,流式数据被视为一个随时间延续而无限增长的动态数据集合;
第2、存储部分流式数据作为训练数据集,并进行数据清洗,去除不规范数据点;
第2.1、对于流式数据,数据会源源不断的到来,选取一个预设固定时间段内的数据进行存储,作为训练数据集;
第2.2、清洗训练数据集,去除不规范数据点;
定义2:不规范数据点,定义如下:
对于同一个数据集中的任意一个数据点,若存在以下一个或者多个情况,则该数据点为不规范数据点:
(1)存在缺失属性,也即数据点采集不完整;
(2)存在错误属性;
(3)存在重复数据点,也即存在所有属性均一致的数据点,那么除去第一次出现的数据点以外,剩余数据点均为重复数据点;
第3、基于数据集各维度分离度的特性,学习训练数据集在各维度上的最优组团直径;
定义3:(α,β)-数据集,定义如下:
令S为流式数据,d为S的数据维度,D(.,.)为欧式距离度量方法,α(α1,...,αd)为组团直径数组,β(β1,...,βd)为距离阈值数组,其满足βi>αi,i∈[1,d];那么对于任意S中的数据点u,v有:
要么D(ui,vi)≤αi,要么D(ui,vi)≥βi,αi,i∈[1,d],
则称流式数据S为(α,β)-数据集;
定义4:分离度,定义如下:
令S为(α,β)-数据集,那么在某一个维度i,存在多个符合要求的αi和βi,取其中αi的最小值min(αi),取βi的最大值max(βi),那么在维度i上的分离度为:
max(βi)/min(αi),i∈[1,d];
第4、更新全局组团直径数组;
第4.1、计算全局组团直径数组是否稳定,预先设置一个阈值,判断在训练数据集每一个维度上的组团直径与对应全局组团直径之间的误差是否在阈值范围内,只有当训练数据在所有维度上的最优组团直径与对应全局组团直径的误差都在阈值范围内,这时全局组团直径达到稳定;
第4.2、若全局组团直径数组未达到稳定,则在每一个维度上,将训练数据的最优组团直径与全局组团直径以2∶8权重进行加权平均,得到更新后的全局组团直径数组;
第5、结合局部敏感哈希,对流式数据进行非重复采样,并实时维护接收集合与拒绝集合;
第5.1、使用局部敏感哈...

【专利技术属性】
技术研发人员:温延龙鲁茸定主袁晓洁
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1