一种电子围栏数据自动去重方法技术

技术编号:19857677 阅读:78 留言:0更新日期:2018-12-22 11:44
本发明专利技术公开了一种电子围栏数据自动去重方法,涉及大数据处理技术领域。本发明专利技术的自动去重算法中,去重任务线程首先读取配置文件获取去重参数;然后根据去重开始时间以及系统当前时间对任务的休眠、取消或执行与否自动进行配置;在去重时对去重处理后的数据进行自动统计与存储;最后通过更新去重开始时间实现任务的智能化无人值守。本发明专利技术通过读取电子围栏设备采集的数据,得到设备编号及手机的国际移动用户识别码两个字段,根据二者的唯一性实现对电子围栏数据准确、高效的去重处理,解决由于大量重复数据存取而引起的系统传输开销大、存储空间利用率低和数据价值密度低的问题,同时实现了数据去重的智能化无人值守,提高了工作效率。

【技术实现步骤摘要】
一种电子围栏数据自动去重方法
本专利技术属于大数据处理
,尤其涉及一种电子围栏数据自动去重方法。
技术介绍
大数据处理技术指利用数据分析手段对采集的结构化、半结构化以及无结构化海量无序数据进行分析以获取隐藏在其中的潜在价值和知识,更好的为政府、企业等机构决策者提供有效的决策支撑。从大数据价值链角度出发,大数据处理技术涵盖了数据生成、数据获取、数据存储和数据分析四个方面所涉及的关键技术。电子围栏系统可以采集特定区域或指定人员的手机数据,通过数据分析,可以掌握往来人群中关键人员的活动轨迹和过往记录,可以了解特殊人群中个体和群体的反常活动,为安防部门提供重要情报支撑,进而对特殊人群实施电子管控。但是,随着采集时间增加,设备将会采集到大量的重复数据,这不仅增加了系统后续传输开销、浪费存储空间,而且还严重降低了数据价值密度,直接导致后续数据分析效率的低下。与此同时,从海量数据中逐条删除重复数据需要消耗大量的人力,这更进一步增加了数据预处理的工作量。
技术实现思路
本专利技术的目的在于避免
技术介绍
中的不足之处而提供一种电子围栏数据自动去重方法。本专利技术以线程任务方式,通过配置文件访问目标数据库,根据指定的任务开始时间与系统当前时间,对任务的休眠、取消或执行与否实现自动判决;根据设定的去重周期与去重时间间隔完成去重任务,并对去重处理后的数据进行自动统计与存储,解决因数据重复而导致的传输开销大、存储空间利用率低以及数据价值密度低下的问题,并实现数据去重的全程自动化以有效提高效率。为解决上述技术问题,本专利技术通过以下技术方案来实现:一种电子围栏数据自动去重方法,包括以下步骤:(1)访问配置文件,读取目标数据库参数、去重开始时间、去重时间间隔、去重周期及存储路径参数;(2)比较去重开始时间与系统当前时间,根据比较结果确定任务处于休眠状态、取消状态或执行状态;若处于休眠状态,执行步骤(3),若处于取消状态,执行步骤(4);若处于执行状态,执行步骤(5);(3)任务休眠设定时间单位后转入步骤(2);(4)取消当次去重任务并根据去重周期更新去重开始时间,转入步骤(2);(5)执行去重任务,并将去重后的数据自动统计并存储至指定文件;(6)根据去重时间间隔更新去重开始时间,并根据时间更新次数判断转入步骤(5)或转入步骤(7);(7)根据去重周期更新去重开始时间并转入步骤(2)。其中,所述的步骤(2)比较去重开始时间与系统当前时间,根据比较结果确定任务处于休眠状态、取消状态或执行状态具体为:若Tstart>Tsystem,则任务处于休眠状态;若Tstart<Tsystem,且目标数据库在[Tstart,Tstart+Tperiod]时间段内没有数据,则任务处于取消状态;若Tstart<Tsystem,且目标数据库在[Tstart,Tstart+Tperiod]时间段内有数据,则任务处于执行状态;其中,Tstart为去重开始时间,Tsystem为系统当前时间,Tperiod为去重周期。其中,所述的步骤(3)中设定时间单位为(Tstart-Tsystem)个时间单位,其中,Tstart为去重开始时间,Tsystem为系统当前时间。其中,所述的步骤(4)取消当次去重任务并根据去重周期更新去重开始时间具体为:根据去重周期更新去重开始时间Tstart=Tstart+Tperiod,其中,Tstart为去重开始Tperiod时间,为去重周期。其中,所述的步骤(5)具体为:访问目标数据库在时间段[Tstart,Tstart+Tinterval]内的数据并进行去重处理;将去重后被删除和保留的数据分别存放在指定文件中;其中,Tstart为去重开始时间,Tinterval为去重时间间隔。其中,所述的步骤(6)具体为:根据去重时间间隔更新去重开始时间Tstart=Tstart+Tinterval,若则转入步骤(7),否则转入步骤(5);其中,Tstart为去重开始时间,Tinterval为去重时间间隔,Tperiod为去重周期,Iter为本步骤中的去重开始时间更新次数。其中,所述的步骤(7)根据去重周期更新去重开始时间具体为:根据去重周期更新去重开始时间,Tstart=Tstart+Tperiod,其中,Tstart为去重开始时间,Tperiod为去重周期。本专利技术相比
技术介绍
的有益效果在于:(1)本专利技术通过配置文件及线程任务方式实现数据去重,使任务部署更加灵活;(2)本专利技术根据去重开始时间及系统当前时间对任务是否休眠、取消及执行与否进行自动判决,全程无需人工干预,具有智能化。(3)本专利技术可以对去重处理后的数据进行统计、归纳与存储,有效实现了数据备份及可视化。(4)本专利技术降低了系统后续传输开销、有效利用了存储空间,提高了数据价值密度。附图说明图1是本专利技术的电子围栏数据自动去重原理示意图;图2是本专利技术的算法流程示意图。具体实施方式下面将结合附图,对本专利技术的技术方案进行清楚、完整的描述。以下实例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术提供了一种电子围栏数据自动去重方法,包括电子围栏数据自动去重的原理示意图,电子围栏数据自动去重的算法流程。图1所示为自动去重算法的原理示意图,包括去重开始时间设置模块,用于设置数据去重的开始时间;时间判断模块,用于对去重开始时间和系统当前时间进行判断,并根据判断结果决定是否休眠、取消或执行当次去重任务;数据去重并存储模块,用于数据去重及存储处理后的数据;更新时间模块,用于更新去重开始时间;休眠模块,用于当去重开始时间大于系统当前时间时休眠去重任务;取消模块,用于当数据库中没有数据时取消当次去重任务;图2所示为电子围栏数据自动去重方法流程,包括以下步骤:(1)数据去重线程任务访问配置文件,获取目标数据库的网络IP地址,端口号,数据库名称,数据集名称,去重开始时间Tstart,去重周期Tperiod,去重时间间隔Tinterval及存储数据的路径;(2)比较Tstart及系统当前时间Tsystem,若Tstart>Tsystem则任务休眠(Tstart-Tsystem)个时间单位后重新执行步骤(2);若Tstart<Tsystem且目标数据库在[Tstart,Tstart+Tperiod]时间段内无数据,则取消当次去重任务,更新Tstart=Tstart+Tperiod并重新执行步骤(2);若Tstart<Tsystem且目标数据库在[Tstart,Tstart+Tperiod]时间段内有数据,则执行步骤(3);(3)根据deviceID和IMSI两个字段,对目标数据库在[Tstart,Tstart+Tinterval]时间段内的数据进行去重,并将去重数据及被保留数据存储在指定文件,同时对去重和被保留数据进行自动统计并将统计结果存储在指定文件;其中,deviceID为设备编号,IMSI为手机的国际移动用户识别码;(4)根据去重时间间隔更新去重开始时间Tstart=Tstart+Tinterval,若更新次数则转入步骤(5),否则转入步骤(3);(5)根据去重周期更新去重开始时间Tstart=Tstart+Tperiod并转入步骤(2)。本文档来自技高网
...

【技术保护点】
1.一种电子围栏数据自动去重方法,其特征在于,包括以下步骤:(1)访问配置文件,读取目标数据库参数、去重开始时间、去重时间间隔、去重周期及存储路径参数;(2)比较去重开始时间与系统当前时间,根据比较结果确定任务处于休眠状态、取消状态或执行状态;若处于休眠状态,则执行步骤(3),若处于取消状态,则执行步骤(4);若处于执行状态,则执行步骤(5);(3)任务休眠设定时间单位后转入步骤(2);(4)取消当次去重任务并根据去重周期更新去重开始时间,转入步骤(2);(5)执行去重任务,并将去重后的数据自动统计并存储至指定文件;(6)根据去重时间间隔更新去重开始时间,并根据时间更新次数判断转入步骤(5)或转入步骤(7);(7)根据去重周期更新去重开始时间并转入步骤(2)。

【技术特征摘要】
1.一种电子围栏数据自动去重方法,其特征在于,包括以下步骤:(1)访问配置文件,读取目标数据库参数、去重开始时间、去重时间间隔、去重周期及存储路径参数;(2)比较去重开始时间与系统当前时间,根据比较结果确定任务处于休眠状态、取消状态或执行状态;若处于休眠状态,则执行步骤(3),若处于取消状态,则执行步骤(4);若处于执行状态,则执行步骤(5);(3)任务休眠设定时间单位后转入步骤(2);(4)取消当次去重任务并根据去重周期更新去重开始时间,转入步骤(2);(5)执行去重任务,并将去重后的数据自动统计并存储至指定文件;(6)根据去重时间间隔更新去重开始时间,并根据时间更新次数判断转入步骤(5)或转入步骤(7);(7)根据去重周期更新去重开始时间并转入步骤(2)。2.根据权利要求1所述的一种电子围栏数据自动去重方法,其特征在于,所述的步骤(2)比较去重开始时间与系统当前时间,根据比较结果确定任务处于休眠状态、取消状态或执行状态具体为:若Tstart>Tsystem,则任务处于休眠状态;若Tstart<Tsystem,且目标数据库在[Tstart,Tstart+Tperiod]时间段内没有数据,则任务处于取消状态;若Tstart<Tsystem,且目标数据库在[Tstart,Tstart+Tperiod]时间段内有数据,则任务处于执行状态;其中,Tstart为去重开始时间,Tsystem为系统当前时间,Tperiod为去重周期。3.根据权利要求1所述的一种电子围栏数据自动去重方法,其特征在于,...

【专利技术属性】
技术研发人员:戎凯旋高杰侯风茂张策刘师范
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1