数据清理方法、数据清理装置、存储介质及电子设备制造方法及图纸

技术编号:30819987 阅读:15 留言:0更新日期:2021-11-18 11:15
本发明专利技术公开一种数据清理方法、数据清理装置、存储介质及电子设备。该数据清理方法包括:定期从每个项目的原始数据中识别出该项目的待清理数据;接收清理指令;在当前时间到达清理开启时间时,统计出所有项目的原始数据量以及清理范围内的项目的待清理数据量;在清理开启时间到清理结束时间的时期内,每间隔一个核减周期对清理范围内的项目的原始数据量进行核减,每次核减后将所有项目的原始数据量进行重新排行。该数据清理方法中基于待清理数据量对原始数据量进行核减来使得排行榜更加精准,不需要从底层数据库中删除待清理数据,保证了数据整体的稳定性。数据整体的稳定性。数据整体的稳定性。

【技术实现步骤摘要】
数据清理方法、数据清理装置、存储介质及电子设备


[0001]本专利技术总体来说涉及一种数据清理方法、数据清理装置、存储介质及电子设备。

技术介绍

[0002]在网站的运营过程当中,每分每秒都会产生各种各样的明细数据。以电商网站为例,常见的明细数据包括某一品牌的销售额、某一店铺的销售量等等;将同一类型的数据进行统计并按照一定规则由多到少进行即时排名,便产生了实时统计的数据排行榜,如将同属于一个类目下的各品牌的销售量按照当天销售的多少进行实时排名,可称之为某类目下的品牌销量当日实时数据排行榜;一个实时统计的数据排行榜,可通过计算机软件编译以下几个部分进行实现,分别为:底层数据库、数据获取模块、数据统计处理模块、排行实时计算模块、前端展现模块;
[0003]实时统计的数据排行榜对数据的准确性和实时性要求高,但电商场景的数据统计口径复杂且涉及刷单等人为因素的问题,为了确保数据准确和持续实时高效,所以需要在固定的关键时间节点,对无效的数据进行清理。通常的做法,采用从底层数据库中直接分离出无效的数据,然后对重新获取的正确数据的进行统计处理,刷新榜单排名。
[0004]现有技术的缺陷:
[0005]①
现有排行榜的数据清理技术,会造成前端展示的排名或排名对应的数值突然变化,造成查看榜单的用户对排行榜的数据准确性进行质疑;
[0006]②
现有的排行榜数据清理技术,直接从数据库做删除处理,会对整体数据的稳定性造成一定的影响;
[0007]在所述
技术介绍
部分公开的上述信息仅用于加强对本专利技术的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0008]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
[0009]为解决现有技术中直接从数据库做删除处理造成整体数据稳定性差的问题,本专利技术提供一种统计排行榜的数据清理方法,其包括:
[0010]定期从每个项目的原始数据中识别出该项目的待清理数据;
[0011]接收清理指令,所述清理指令包括清理开启时间、清理结束时间和清理范围;
[0012]在当前时间到达清理开启时间时,统计出所有项目的原始数据量以及清理范围内的项目的待清理数据量;
[0013]在清理开启时间到清理结束时间的时期内,每间隔一个核减周期对清理范围内的项目的原始数据量进行核减,每次核减后将所有项目的原始数据量进行重新排行,其中,一个项目在所述时期内被减掉的原始数据量等于该项目的待清理数据量。
[0014]根据本专利技术的一个实施例,在清理开启时间到清理结束时间的时期内,每间隔一个核减周期对清理范围内的项目的原始数据量进行核减,每次核减后将所有项目的原始数据量进行重新排行,其中,一个项目在所述时期内被减掉的原始数据量等于该项目的待清理数据量,包括以下步骤:
[0015]根据清理开启时间、清理结束时间以及核减周期计算出每次核减的时间点;
[0016]根据每个时间点的时刻、清理开启时间以及待清理数据量计算出清理范围的每个项目的原始数据量在每个时间点的核减量;
[0017]当前时间到达任意一时间点时,从清理范围内的每个项目的原始数据量中核减该项目当前所到达的时间点所对应的核减量,每次进行核减后对所有项目的原始数据量进行重新排行以更新排行榜。
[0018]根据本专利技术的一个实施例,清理范围的同一个项目的原始数据量在每个时间点的核减量互不相同。
[0019]根据本专利技术的一个实施例,根据下列算式分别计算出每个时间点应当从每个项目的原始数据量中核减的核减量:
[0020]Q
m
=a
·
Δt2+[2a(t
m-t0)+b]·
Δt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0021]其中,Q
m
为第m个时间点对应的核减量,Δt为核减周期,t0为清理开始时间,t
m
为第m个时间点的时刻,a为小于零的预设数值,A为总的待清理数据量。
[0022]根据本专利技术的一个实施例,a由随机数生成器生成。
[0023]根据本专利技术的一个实施例,当前时间到达任意一时间点时,从清理范围内的每个项目的原始数据量中核减该项目当前所到达的时间点所对应的核减量,每次进行核减后对所有项目的原始数据量进行重新排行以更新排行榜,包括以下步骤:
[0024]核减步骤:当前时间到达一时间点后,从清理范围内的每个项目的原始数据量中核减掉当前所到达的时间点所对应的核减量;
[0025]对所有项目的原始数据量进行排行;
[0026]判断当前时间之后是否还具有未经过的时间点,若具有则进入到核减步骤。
[0027]根据本专利技术的一个实施例,所述数据清理方法应用于电商场景,原始数据为销售记录,原始数据量为销售量,待清理数据为虚假销售记录,待清理数据量为虚假销售量。
[0028]根据本专利技术的一个实施例,包括:
[0029]信息处理模块;
[0030]连接于所述信息处理模块的数据模块,用于定期从每个项目的原始数据中识别出该项目的待清理数据,;
[0031]连接于所述信息处理模块的指令模块,用于向所述信息处理模块发送清理指令,所述清理指令包括清理开启时间、清理结束时间和清理范围;
[0032]其中,所述信息处理模块用于在清理开启时间到清理结束时间的时期内,每间隔一个核减周期对清理范围内的项目的原始数据量进行核减,每次核减后将所有项目的原始数据量进行重新排行,其中,一个项目在所述时期内被减掉的原始数据量等于该项目的待清理数据量。
[0033]本专利技术还提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,
所述计算机程序被处理器执行时实现如上所述的数据清理方法。
[0034]本专利技术还提出了一种电子设备,其特征在于,包括:
[0035]处理器;以及
[0036]存储器,用于存储所述处理器的可执行指令;
[0037]其中,所述处理器配置为经由执行所述可执行指令来执行如上所述的数据清理方法。
[0038]由上述技术方案可知,本专利技术的数据清理方法的优点和积极效果在于:
[0039]该数据清理方法中,基于待清理数据量对原始数据量进行核减来使得排行榜更加精准,不需要从底层数据库中删除待清理数据,保证了数据整体的稳定性。同时,由于排行榜每间隔一个核减周期变化一次,并且排行榜一次次变得更加趋近于真实水平,用户在查看排行榜时,能拥有对排行榜更加安全稳定的感官,提升了用户体验。
附图说明
[0040]通过结合附图考虑以下对本专利技术的优选实施例的详细说明,本专利技术的各种目标、特征和优点将变得更加显而易见。附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种统计排行榜的数据清理方法,其特征在于,包括:定期从每个项目的原始数据中识别出该项目的待清理数据;接收清理指令,所述清理指令包括清理开启时间、清理结束时间和清理范围;在当前时间到达清理开启时间时,统计出所有项目的原始数据量以及清理范围内的项目的待清理数据量;在清理开启时间到清理结束时间的时期内,每间隔一个核减周期对清理范围内的项目的原始数据量进行核减,每次核减后将所有项目的原始数据量进行重新排行,其中,一个项目在所述时期内被减掉的原始数据量等于该项目的待清理数据量。2.如权利要求1所述的数据清理方法,其特征在于,在清理开启时间到清理结束时间的时期内,每间隔一个核减周期对清理范围内的项目的原始数据量进行核减,每次核减后将所有项目的原始数据量进行重新排行,其中,一个项目在所述时期内被减掉的原始数据量等于该项目的待清理数据量,包括以下步骤:根据清理开启时间、清理结束时间以及核减周期计算出每次核减的时间点;根据每个时间点的时刻、清理开启时间以及待清理数据量计算出清理范围的每个项目的原始数据量在每个时间点的核减量;当前时间到达任意一时间点时,从清理范围内的每个项目的原始数据量中核减该项目当前所到达的时间点所对应的核减量,每次进行核减后对所有项目的原始数据量进行重新排行以更新排行榜。3.如权利要求2所述的数据清理方法,其特征在于,清理范围的同一个项目的原始数据量在每个时间点的核减量互不相同。4.如权利要2所述的数据清理方法,其特征在于,根据下列算式分别计算出每个时间点应当从每个项目的原始数据量中核减的核减量:其中,Q
m
为第m个时间点对应的核减量,Δt为核减周期,t0为清理开始时间,t
m
为第m个时间点的时刻,a为小于零的预设数值,A为总的待清理数据量。5.如权利要求4所...

【专利技术属性】
技术研发人员:邱俊傑尹伟郭利伟邢大飞李怡姗
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1