The present invention provides a scalable sequential feature maintenance method for large-scale stream data based on sliding window, which mainly includes the following four parts: on-line processing system of stream data. The processing system is mainly composed of two parts: on-line processing engine of stream data and summary search module. Stream data summarization method based on fixed length sliding window. A time stamp-based streaming data summarization method for sliding windows. Window aggregation method. The invention can be used to compute the sequence characteristics of data online and in real time, and can answer queries about Rank values and quantiles in a very short time without needing accurate queries.
【技术实现步骤摘要】
基于滑动窗口的可伸缩的大规模流数据顺序特征维持方法
本专利技术涉及一种流数据的摘要存储与在线计算方法。
技术介绍
数据摘要可以使用较小的空间存储规模很大的数据,同时能在极短的时间内响应相关查询。针对数据的顺序特征的摘要也已经涌现了大量的研究成果。Wang,Ldeng等和Greenwald等在他们的文章中针对该问题介绍了目前的一些研究现状。1978年,Munro等提出了一种空间复杂度为的数据摘要的方法。2001年,Greenwald,M.等提出了一种确定性算法(GK算法),该算法使用的空间复杂度为同时该算法的出现提升了由Manku等提出的确定性算法(MRL算法)的空间复杂度。GK算法的空间复杂度被认为是最低的,但Agarwal等在他们的文章中证明了GK算法是不可合并的,即该算法不具有伸缩性和可扩展性。2016年,Karnin,Lang和Liberty三人提出了一种最佳的该问题的解决算法—KLL算法,实现了的空间复杂度。滑动窗口被认为是解决实时性问题的一个重要工具。基于滑动窗口的数据摘要也有着相关的研究。2014年,Lin等是一个将Quantile问题的解决方法应用于 ...
【技术保护点】
1.一种基于滑动窗口的可伸缩的大规模流数据顺序特征维持方法,其特征在于,包括以下步骤:步骤1、流数据在线处理针对每条数据,根据基于固定长度的滑动窗口的流数据摘要方法或基于时间戳的滑动窗口的流数据摘要方法进行处理,进而更新Sketch中存储的数据,包括以下步骤:步骤S101、一条数据到达后,将该数据加入存储Sketch的数据结构体中;步骤S102、选择基于固定长度的滑动窗口的流数据摘要方法或基于时间戳的滑动窗口的流数据摘要方法对数据进行处理;步骤S103、更新多层存储Sketch:Sketch的每一层有一个特殊的存储结构Compactor,若当前层的存储结构Compactor ...
【技术特征摘要】
1.一种基于滑动窗口的可伸缩的大规模流数据顺序特征维持方法,其特征在于,包括以下步骤:步骤1、流数据在线处理针对每条数据,根据基于固定长度的滑动窗口的流数据摘要方法或基于时间戳的滑动窗口的流数据摘要方法进行处理,进而更新Sketch中存储的数据,包括以下步骤:步骤S101、一条数据到达后,将该数据加入存储Sketch的数据结构体中;步骤S102、选择基于固定长度的滑动窗口的流数据摘要方法或基于时间戳的滑动窗口的流数据摘要方法对数据进行处理;步骤S103、更新多层存储Sketch:Sketch的每一层有一个特殊的存储结构Compactor,若当前层的存储结构Compactor满之后,则进行一次压缩操作,一半的数据丢弃,另一半的数据压缩进下一层,根据步骤102选择的结果,利用基于固定长度的滑动窗口的流数据摘要方法更新多层存储Sketch,或利用基于时间戳的滑动窗口的流数据摘要方法更新多层存储Sketch;步骤2、摘要查找根据想要查找Rank值的数字x,通过存储在Sketch中的元素来计算该数字x的Rank值,包括以下步骤:步骤S201、获得想要查找Rank值的数字x;步骤S202、初始化,令当前层数h=0,当前Rank值为0;步骤S203、判断当前层数h是否小于等于Sketch中的总层数H,如果小于,则进入步骤S204,如果当前层数h大于总层数H,进入步骤S207;步骤S204、查找Sketch中当前层数h中所有小于数字x的个数num;步骤S205、根据Sketch中h层中的权值w,更新Rank值R,R=R+num*w;步骤S206、更新当前层数h=h+1,返回步骤S203;步骤S207、返回查询结果,即返回数字x对应的Rank值R。2.如权利要求1所述一种基于滑动窗口的可伸缩的大规模流数据顺序特征维持方法,其特征在于,所述基于固定长度的滑动窗口的流数据摘要方法包括以下步骤:步骤S301、将新到达的数据插入Sketch中的第一层,令当前层h=0;步骤S302、如果当前层h小于Sketch中的总层数H,进入步骤S303,否则,进入步骤S306;步骤S303、如果Sketch中当前层h的触发器触发,进入步骤304,否则进入步骤S306;步骤S304、当前层h执行一次压缩操作,从当前层h所有的数据中找到最老的数,然后将其与它的邻居进行一次压缩,即以50%的概率选择其中的一个插入下一层,另一个则丢弃,插入下一层的时候,按照顺序进行插入;步骤S305、更新当前层h触发器,同时更新h的值,h=h+1,返回步骤S302;步骤S306、更新h的值,h=h+1,返回步骤S302;步骤S307、判断Sketch中H层的触发器是否触发了,如果是,则进入步骤S308,否则,进入步骤S309;步骤S308、从Sketch的H层中选取最老的两个元素丢弃,并更新H层触发器,...
【专利技术属性】
技术研发人员:蒋昌俊,章昭辉,王鹏伟,陈剑,
申请(专利权)人:东华大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。