数据处理方法、数据处理装置和服务器制造方法及图纸

技术编号:20221394 阅读:59 留言:0更新日期:2019-01-28 20:01
本公开涉及一种数据处理方法、数据处理装置和服务器,该方法包括:接收已采集数据,并根据已采集数据的参数值计算已采集数据的数据摘要;在第一数据表中插入所述已采集数据的行键、时间戳和数据摘要;以所述已采集数据的数据摘要作为行键在第二数据表中查询;所述第二数据表中的行键为数据摘要,所述第二数据表包含一个用于存储计数值的计数列和至少一个用于存储已采集数据的参数值的参数列;若在所述第二数据表中查询到所述已采集数据的数据摘要,则将对应的行数据中的所述计数值叠加固定值。由此,对于接收到的相同数据,在第二数据表中不重复存储该数据,仅通过计数值来标记该数据重复的次数,从而可以节省存储空间。

【技术实现步骤摘要】
数据处理方法、数据处理装置和服务器
本公开涉及通信
,尤其涉及一种数据处理方法、数据处理装置和服务器。
技术介绍
HBase(HadoopDatabase,Hadoop数据库)是一种面向列、可伸缩、实时读写的分布式存储数据库,能够实现复杂任务的并行和分布处理,具有很高的处理性能和可靠性。然而,HBase可能存储了大量的重复数据,浪费了大量的存储空间。例如,针对用于进行用户行为分析的大数据分析软件,使用HBase存储AP(AccessPoint,接入点)在每个时刻上报的位置信息。如果AP的位置在一个时间段内没有发生改变,则该AP在该时间段内的每个时刻上报相同的位置信息,这导致HBase表中存储了大量的重复的位置信息。因此,需要对存储在HBase表中的数据进行去重处理,以删除HBase表中的重复数据,从而节省存储空间。
技术实现思路
有鉴于此,本公开提出了一种数据处理方法、数据处理装置和服务器。根据本公开的第一方面,提供了一种数据处理方法,该方法包括:接收已采集数据,并根据所述已采集数据的参数值计算所述已采集数据的数据摘要;在第一数据表中插入所述已采集数据的行键、时间戳和数据摘要;以所本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:接收已采集数据,并根据所述已采集数据的参数值计算所述已采集数据的数据摘要;在第一数据表中插入所述已采集数据的行键、时间戳和数据摘要;以所述已采集数据的数据摘要作为行键在第二数据表中查询;所述第二数据表中的行键为数据摘要,所述第二数据表包含一个用于存储计数值的计数列和至少一个用于存储所述已采集数据的参数值的参数列;若在所述第二数据表中查询到所述已采集数据的数据摘要,则将对应的行数据中的所述计数值叠加固定值。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:接收已采集数据,并根据所述已采集数据的参数值计算所述已采集数据的数据摘要;在第一数据表中插入所述已采集数据的行键、时间戳和数据摘要;以所述已采集数据的数据摘要作为行键在第二数据表中查询;所述第二数据表中的行键为数据摘要,所述第二数据表包含一个用于存储计数值的计数列和至少一个用于存储所述已采集数据的参数值的参数列;若在所述第二数据表中查询到所述已采集数据的数据摘要,则将对应的行数据中的所述计数值叠加固定值。2.根据权利要求1所述的方法,其特征在于,还包括:若在所述第二数据表中未查询到所述已采集数据的数据摘要,则在所述第二数据表中插入一行数据,该行数据的行键为所述已采集数据的数据摘要,该行数据对应的所述计数值为初始值,该行数据的各个参数列中记录对应的所述已采集数据的参数值。3.根据权利要求2所述的方法,其特征在于,还包括:获取待删除数据的行键和时间戳;在所述第一数据表中查询所述待删除数据的行键和时间戳;若在所述第一数据表中查询到所述待删除数据的行键和时间戳,则将对应的第一行数据的数据摘要作为行键在所述第二数据表中查询;若在所述第二数据表中查询到所述第一行数据的数据摘要,则判断对应的第二行数据中的所述计数值是大于所述初始值还是等于所述初始值;若所述第二行数据中的所述计数值大于所述初始值,则将所述第二行数据中的所述计数值减少所述固定值。4.根据权利要求3所述的方法,其特征在于,还包括:若所述第二行数据中的所述计数值等于所述初始值,则在所述第一数据表中删除所述第一行数据,并且在所述第二数据表中删除所述第二行数据。5.根据权利要求2所述的方法,其特征在于,还包括:获取待读取数据的行键和时间戳;在所述第一数据表中查询所述待读取数据的行键和时间戳;若在所述第一数据表中查询到所述待读取数据的行键和时间戳,则以对应的第三行数据的数据摘要作为行键在所述第二数据表中查询;若在所述第二数据表中查询到所述第三行数据的数据摘要,则将对应的第四行数据中的参数列与所述第三行数据中的行键和时间戳确定为所述待读取数据并读取。6.一种数据处理装置,其特征在于,所述装置包括:接收模块,用于接收已采集数据,并根据所述已采集数据的参数值计算所述已采集数据的数据摘要;插入模块,用于在第一数据表中插入所述已采集数据的行键...

【专利技术属性】
技术研发人员:赵英超饶云
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1