数据预处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号:21627599 阅读:65 留言:0更新日期:2019-07-17 10:41
本公开提出一种数据预处理方法、装置和计算机可读存储介质,涉及大数据技术领域。本公开的一种数据预处理方法包括:获取HTTP数据;获取超文本传输协议HTTP数据中的用户代理UserAgent字段信息;获取与UserAgent字段信息相关联的标识,标识的长度小于UserAgent字段信息的长度;用标识替换UserAgent字段信息以减少HTTP数据的空间占用量。通过这样的方法,能够将UserAgent字段替换为长度更短的标识,从而压缩了存储UserAgent字段信息需要的存储空间,降低了大数据存储的负担和数据存储成本。

Data preprocessing method, device and computer readable storage medium

【技术实现步骤摘要】
数据预处理方法、装置和计算机可读存储介质
本公开涉及大数据
,特别是一种数据预处理方法、装置和计算机可读存储介质。
技术介绍
大数据平台在接收到DPI(DeepPacketInspection,深度包检测)数据后,一般会对其进行预处理,包括删除错误话单,校验格式,进行脱敏等操作,之后存储到HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)上。在大数据处理的环境下,大量的DPI数据对存储空间造成了很大压力。目前现网一般通过对Cookie字段的截位或通过线性扩容预处理集群来解决存储空间不足的问题。预处理集群对数据进行解压、解码、合并、脱敏、清洗、格式化等操作,之后再存储在HDFS上。
技术实现思路
专利技术人发现,每个用户的UserAgent一般变化较少,但占用了50~100位的大量空间,空间冗余度大。本公开的一个目的在于减少DPI数据的存储空间,降低数据存储成本。根据本公开的一个方面,提出一种数据预处理方法,包括:获取HTTP(HyperTextTransferProtocol,超文本传输协议)数据;获取HTTP数据中的UserAgent(用户代理)字段信息;获取与UserAgent字段信息相关联的标识,标识的长度小于UserAgent字段信息的长度;用标识替换UserAgent字段信息以减少HTTP数据的空间占用量。可选地,获取与UserAgent字段信息相关联的标识包括:判断匹配数据中是否存在与UserAgent字段信息相关联的标识;若存在与UserAgent字段信息相关联的标识,则提取匹配数据中与UserAgent字段信息相关联的标识;若不存在与UserAgent字段信息相关联的标识,则为UserAgent字段信息分配相关联的唯一的标识,并在匹配数据中记录UserAgent字段信息与标识的关联关系。可选地,为UserAgent字段信息分配相关联的唯一的标识包括:判断已有标识是否达到标识的长度的容量范围;若未达到标识的长度的容量范围,则分配与已有标识等长的唯一标识;若达到标识的长度的容量范围,则按照预定粒度增加标识的长度并为UserAgent字段信息分配标识。可选地,还包括:获取HTTP数据中的Cookie字段的信息;将Cookie字段的信息整理为身份地图Id-Mapping格式以减少HTTP数据的空间占用量。可选地,将Cookie字段的信息整理为Id-Mapping格式包括:解析Cookie字段的信息,判断存储的Cookie信息中是否包括与Cookie字段中相同的用户信息和相同的URL信息;若已包括与Cookie字段中相同的用户信息和URL信息,则新建时间戳更新存储的Cookie信息中相同的用户信息和URL信息;若已包括与Cookie字段中相同的用户信息,不包括相同的URL信息,则根据Cookie字段中的URL信息新建以用户信息为索引存储的URL信息;若不包括与Cookie字段中相同的用户信息,则根据Cookie字段中的URL信息和用户信息新建存储的用户信息和URL信息。可选地,还包括:若无法成功解析Cookie字段的信息,则将Cookie信息存储在Cookie表中。通过这样的方法,能够将UserAgent字段替换为长度更短的标识,从而压缩了存储UserAgent字段信息需要的存储空间,降低了大数据存储的负担和数据存储成本。根据本公开的另一个方面,提出一种数据预处理装置,包括:数据获取单元,被配置为获取HTTP数据;字段信息获取单元,被配置为获取HTTP数据中的UserAgent字段信息;标识获取单元,被配置为获取与UserAgent字段信息相关联的标识,标识的长度小于UserAgent字段信息的长度;替换单元,被配置为用标识替换UserAgent字段信息以减少HTTP数据的空间占用量。可选地,字段信息获取单元包括:判断子单元,被配置为判断匹配数据中是否存在与UserAgent字段信息相关联的标识;标识提取子单元,被配置为若存在与UserAgent字段信息相关联的标识,则提取匹配数据中与UserAgent字段信息相关联的标识;标识分配子单元,被配置为若不存在与UserAgent字段信息相关联的标识,则为UserAgent字段信息分配相关联的唯一的标识,并在匹配数据中记录UserAgent字段信息与标识的关联关系。可选地,标识分配子单元被配置为:判断已有标识是否达到标识的长度的容量范围;若未达到标识的长度的容量范围,则分配与已有标识等长的唯一标识;若达到标识的长度的容量范围,则按照预定粒度增加标识的长度并为UserAgent字段信息分配标识。可选地,字段信息获取单元还被配置为获取HTTP数据中的Cookie字段的信息;数据预处理装置还包括:Cookie信息整理单元,被配置将Cookie字段的信息整理为Id-Mapping格式以减少HTTP数据的空间占用量。可选地,Cookie信息整理单元被配置为:解析Cookie字段的信息,判断存储的Cookie信息中是否包括与Cookie字段中相同的用户信息和相同的URL信息;若已包括与Cookie字段中相同的用户信息和URL信息,则新建时间戳更新存储的Cookie信息中相同的用户信息和URL信息;若已包括与Cookie字段中相同的用户信息,不包括相同的URL信息,则根据Cookie字段中的URL信息新建以用户信息为索引存储的URL信息;若不包括与Cookie字段中相同的用户信息,则根据Cookie字段中的URL信息和用户信息新建存储的用户信息和URL信息。可选地,Cookie信息整理单元还被配置为:若无法成功解析Cookie字段的信息,则将Cookie信息存储在Cookie表中。根据本公开的又一个方面,提出一种数据预处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中任意一种数据预处理方法。这样的装置能够将UserAgent字段替换为长度更短的标识,从而压缩了存储UserAgent字段信息需要的存储空间,降低了大数据存储的负担和数据存储成本。根据本公开的再一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种数据预处理方法。这样的计算机可读存储介质通过执行这样的指令能够将UserAgent字段替换为长度更短的标识,从而压缩了存储UserAgent字段信息需要的存储空间,降低了大数据存储的负担和数据存储成本。附图说明此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:图1为本公开的数据预处理方法的一个实施例的流程图。图2为本公开的数据预处理方法中获取UserAgent相关联的标识的一个实施例的流程图。图3为本公开的数据预处理方法的另一个实施例的流程图。图4为本公开的数据预处理方法中处理Cookie的一个实施例的流程图。图5为本公开的数据预处理装置的一个实施例的示意图。图6为本公开的数据预处理装置的另一个实施例的示意图。图7为本公开的数据预处理装置的又一个实施例的示意图。具体实施方式下面通过附图和实施例,对本公开的技术方案做进本文档来自技高网...

【技术保护点】
1.一种数据预处理方法,包括:获取超文本传输协议HTTP数据;获取所述HTTP数据中的用户代理UserAgent字段信息;获取与所述UserAgent字段信息相关联的标识,所述标识的长度小于所述UserAgent字段信息的长度;用所述标识替换所述UserAgent字段信息以减少所述HTTP数据的空间占用量。

【技术特征摘要】
1.一种数据预处理方法,包括:获取超文本传输协议HTTP数据;获取所述HTTP数据中的用户代理UserAgent字段信息;获取与所述UserAgent字段信息相关联的标识,所述标识的长度小于所述UserAgent字段信息的长度;用所述标识替换所述UserAgent字段信息以减少所述HTTP数据的空间占用量。2.根据权利要求1所述的方法,其中,所述获取与所述UserAgent字段信息相关联的标识包括:判断匹配数据中是否存在与所述UserAgent字段信息相关联的标识;若存在与所述UserAgent字段信息相关联的标识,则提取所述匹配数据中与所述UserAgent字段信息相关联的标识;若不存在与所述UserAgent字段信息相关联的标识,则为所述UserAgent字段信息分配相关联的唯一的标识,并在所述匹配数据中记录所述UserAgent字段信息与标识的关联关系。3.根据权利要求2所述的方法,其中,所述为所述UserAgent字段信息分配相关联的唯一的标识包括:判断已有标识是否达到所述标识的长度的容量范围;若未达到所述标识的长度的容量范围,则分配与已有标识等长的唯一标识;若达到所述标识的长度的容量范围,则按照预定粒度增加所述标识的长度并为UserAgent字段信息分配标识。4.根据权利要求1所述的方法,还包括:获取所述HTTP数据中的Cookie字段的信息;将所述Cookie字段的信息整理为身份地图Id-Mapping格式以减少所述HTTP数据的空间占用量。5.根据权利要求4所述的方法,其中,所述将所述Cookie字段的信息整理为Id-Mapping格式包括:解析所述Cookie字段的信息,判断存储的Cookie信息中是否包括与所述Cookie字段中相同的用户信息和相同的统一资源定位符URL信息;若已包括与所述Cookie字段中相同的用户信息和URL信息,则新建时间戳更新所述存储的Cookie信息中相同的用户信息和URL信息;若已包括与所述Cookie字段中相同的用户信息,不包括相同的所述URL信息,则根据所述Cookie字段中的URL信息新建以用户信息为索引存储的URL信息;若不包括与所述Cookie字段中相同的用户信息,则根据所述Cookie字段中的URL信息和用户信息新建存储的用户信息和URL信息。6.根据权利要求5所述的方法,还包括:若无法成功解析所述Cookie字段的信息,则将所述Cookie信息存储在Cookie表中。7.一种数据预处理装置,包括:数据获取单元,被配置为获取超文本传输协议HTTP数据;字段信息获取单元,被配置为获取所述HTTP数据中的用户代理UserAgent字段信息;标识获取单元,被配置为获取与所述UserAge...

【专利技术属性】
技术研发人员:马怡安陆绪海杨迪王铮
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1