一种基于滑动窗口的数据去重存储方法、装置及存储介质制造方法及图纸

技术编号:20796963 阅读:39 留言:0更新日期:2019-04-06 10:33
本发明专利技术公开了一种基于滑动窗口的数据去重存储方法、装置及存储介质,方法包括:将存储数据进行切分,得到每个分片数据和最优分片数据个数;对每个分片数据建立查询索引,并建立一可变滑动窗口;检测是否有待写入的新数据,若有则通过所述可变滑动窗口向切分后的每个分片数据发送查询指令,以判断待写入的新数据是否与当前分片数据存在重复,即标记为重复数据;若存在则将所述新数据作丢弃处理;若不存在,则将所述新数据写入至当前分片数据中。本发明专利技术根据出现重复数据的规律从时间和空间维度确定最多分片个数的切分方式,通过调整可变滑动窗口动态对分片数据去重查询,优化查询,以降低整体集群性能开销的同时,提高查询效率,方便用户。

A Method, Device and Storage Media of Data Reduplication Based on Sliding Window

The invention discloses a data de-re-storage method, device and storage medium based on sliding window. The method includes: dividing the stored data to obtain each piece of data and the optimal number of pieces of data; establishing a query index for each piece of data, and establishing a variable sliding window; detecting whether there is new data to be written, and if all, passing through the variable sliding window. Query instructions are sent to each fragmented data to determine whether the new data to be written is duplicated with the current fragmented data, i.e. marked as duplicate data; if it exists, the new data is discarded; if it does not exist, the new data is written into the current fragmented data. According to the rule of duplicate data, the method of dividing the maximum number of fragments is determined from time and space dimension. By adjusting the variable sliding window, the fragmented data can be dynamically re-queried and the query can be optimized to reduce the overall cluster performance overhead, improve the query efficiency and facilitate users.

【技术实现步骤摘要】
一种基于滑动窗口的数据去重存储方法、装置及存储介质
本专利技术涉及数据存储
,具体涉及一种基于滑动窗口的数据去重存储方法、装置及存储介质。
技术介绍
随着科技的发展和人们需求的增加,所要求的存储数据的空间也越来越大,但在实际运用中,存储空间是有限的。而每新加入一个文件数据,需要保证数据存储的唯一性,都会通过建立索引关系对所有文件进行查询是否已存在,然而随着数据量地不断添加,尤其是海量数据的情况,是需要花大量时间进行去重查询,效率低,与此同时,传统查询方式会导致查询所对应的时间开销呈线程增长,使得整体集群的性能开销增大,而且现有的普通的单文件存储已经无法满足现今大数据量存储的性能要求了。因此,现有技术还有待于改进和发展。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于滑动窗口的数据去重存储方法、装置及存储介质,旨在根据出现重复数据的固定规律,通过不断调整可变滑动窗口对最大化分片数据进行多样化方式去重查询,优化查询,提高查询效率,同时降低整体性能开销,方便用户。本专利技术解决上述技术问题所采用的技术方案如下:本专利技术提供了一种基于滑动窗口的数据去重本文档来自技高网...

【技术保护点】
1.一种基于滑动窗口的数据去重存储方法,其特征在于,所述基于滑动窗口的数据去重存储方法包括:获取存储数据记为数据源,并进行切分,得到每个分片数据和最优分片数据个数;对每个分片数据建立查询索引,并建立一可变滑动窗口;检测是否有待写入的新数据,若有则通过所述可变滑动窗口向切分后的每个分片数据发送查询指令,以判断待写入的新数据是否与当前分片数据存在重复,即标记为重复数据;若存在则将所述新数据作丢弃处理,不写入当前分片数据中;若不存在,则将所述新数据写入至当前分片数据中。

【技术特征摘要】
1.一种基于滑动窗口的数据去重存储方法,其特征在于,所述基于滑动窗口的数据去重存储方法包括:获取存储数据记为数据源,并进行切分,得到每个分片数据和最优分片数据个数;对每个分片数据建立查询索引,并建立一可变滑动窗口;检测是否有待写入的新数据,若有则通过所述可变滑动窗口向切分后的每个分片数据发送查询指令,以判断待写入的新数据是否与当前分片数据存在重复,即标记为重复数据;若存在则将所述新数据作丢弃处理,不写入当前分片数据中;若不存在,则将所述新数据写入至当前分片数据中。2.根据权利要求1所述的基于滑动窗口的数据去重存储方法,其特征在于,所述获取存储数据记为数据源,并进行切分,得到每个分片数据和最优分片数据个数具体包括:获取流式的存储数据,记为数据源;选取最优切分方式对所述数据源进行切分,使得切分后的分片数据的个数最多,并标记为最优分片数据个数,同时获取切分后的每个分片数据。3.根据权利要求2所述的基于滑动窗口的数据去重存储方法,其特征在于,所述选取最优切分方式对所述数据源进行切分,使得切分后的分片数据的个数最多,并标记为最优分片数据个数,同时获取切分后的每个分片数据具体包括如下步骤:比较第一切分方式所获取的第一分片数据个数与第二切分方式所获取的第二分片数据个数的大小;当第一切分方式所获取的第一分片数据个数大于第二切分方式所获取的第二分片数据个数时,将所述第一切分方式作为最优切分方式对所述数据源进行切分,并将切分后的分片数据个数标记为最优分片数据个数,同时获取切分后的每个第一分片数据,并分别进行标记;当第二切分方式所获取的第二分片数据个数大于第一切分方式所获取的第一分片数据个数时,将所述第二切分方式作为最优切分方式对所述数据源进行切分,并将切分后的分片数据个数标记为最优分片数据个数,同时获取切分后的每个第二分片数据,并分别进行标记。4.根据权利要求3所述的基于滑动窗口的数据去重存储方法,其特征在于,所述第一切分方式具体包括:获取预先设置的重复数据出现的最大时间范围阈值;根据经验与所述最大时间范围阈值,设定一固定值作为所述第一切分方式切分的个数,即第一分片数据个数;获取所述第一分片数据个数的值。5.根据权利要求3所述的基于滑动窗口的数据去重存储方法,其特征在于,所述第二切分方式具体包括:获取预先设置的重复数据出现的最大时间范围阈值以及所述第二切分方式切分后所有分片数据中所能存储的最大存储容量值;将所述最大存储容量值进行时间转化,得到...

【专利技术属性】
技术研发人员:赵磊
申请(专利权)人:深圳市酷开网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1