基于分布式处理和DPI数据构建用户网络数据指纹的方法和系统技术方案

技术编号:17541630 阅读:86 留言:0更新日期:2018-03-24 18:40
本发明专利技术公开了一种基于分布式处理框架和DPI数据的构建用户网络数据指纹的方法和系统,以提取出用户移动端上网行为特征及偏好。该系统包括:数据预处理模块:面向网络数据指纹的需求对原始数据进行清洗和去冗余;规则提取模块:选择M个常用手机APP,抓包得到每个APP的域名并正则匹配,将匹配式作为每个APP的识别规则并形成规则文件;用户集提取模块:提取网络数据指纹系统需要统计的用户集;用户行为提取模块:统计每单位时间段内用户对M个APP的访问情况;数据存储模块:将结果分区保存至数据仓库中,创建索引并备份。本发明专利技术通过描述用户移动端上网行为,建立起网络空间和现实生活的对应关系,为分析移动互联网用户行为提供便利,节省空间和时间资源。

Method and system for constructing user network data fingerprint based on distributed processing and DPI data

The invention discloses a method and system for constructing user network data fingerprints based on distributed processing framework and DPI data, so as to extract user behavior and preferences of Internet users. The system includes: data preprocessing module for network data fingerprint demand for original data cleaning and redundancy; rule extraction module: M commonly used mobile phone APP, APP domain and capture every regular match will match as the rules for recognition of each APP, and form the rule extraction module user set file; extraction of network data fingerprint system need statistics user set; user behavior extraction module: user statistics per unit time access to M APP; data storage module: the partition is saved to the data warehouse, create index and backup. The invention establishes the corresponding relationship between the network space and the real life by describing the user's mobile terminal's Internet behavior, providing convenience for analyzing the behavior of the mobile Internet users, and saving space and time resources.

【技术实现步骤摘要】
基于分布式处理和DPI数据构建用户网络数据指纹的方法和系统
本专利技术公开了一种基于分布式处理框架和DPI数据的构建用户网络数据指纹的方法和系统,以提取出用户在移动端上网的行为特征和偏好。
技术介绍
通过对网络访问记录等数据的分析和特征提取,获得有显著标志性和区分度的数据特征和模式规律,并基于此,建立网络人格和行为的研究体系,我们将这种方式称为数据指纹。本专利技术鉴于海量移动互联网数据的背景下,基于分布式框架的处理方式,通过对网络数据指纹的积累和研究,可以建立起网络空间和现实生活的对应关系,较清晰地描述了用户移动端网络访问的行为,为用户移动端网络行为的分析提供了极大的便利,并且节省了大量的存储空间和运行时间的资源。网络数据指纹系统为用户移动端网络行为的分析提供了极大的便利。充分了解用户的上网行为偏好,对于运营商、APP所有者而言,具有极高的经济价值和意义。基于移动互联网用户基数大,运营商数据是准确完整的数据指纹信息的来源两个条件,通过大数据分析和数据挖掘的方法,能够提取出用户的行为,得到用户上网的轨迹和偏好。通过分析用户的上网行为,可以更好地了解用户的上网需求与偏好,进而发现具有竞争本文档来自技高网...
基于分布式处理和DPI数据构建用户网络数据指纹的方法和系统

【技术保护点】
一种基于分布式处理和DPI数据的构建用户网络数据指纹的方法和系统,其特征在于,包括以下步骤:数据预处理模块:面向网络数据指纹的需求对原始数据进行清洗和去冗余;规则提取模块:选择M个常用手机APP,抓包得到每个APP的域名并正则匹配,将匹配式作为每个APP的识别规则并形成流量规则文件;用户集提取模块:提取网络数据指纹系统需要统计的用户集;用户行为提取模块:统计每单位时间段内用户对M个APP的访问情况;数据存储模块:将结果分区保存至数据仓库中,创建索引并备份。

【技术特征摘要】
1.一种基于分布式处理和DPI数据的构建用户网络数据指纹的方法和系统,其特征在于,包括以下步骤:数据预处理模块:面向网络数据指纹的需求对原始数据进行清洗和去冗余;规则提取模块:选择M个常用手机APP,抓包得到每个APP的域名并正则匹配,将匹配式作为每个APP的识别规则并形成流量规则文件;用户集提取模块:提取网络数据指纹系统需要统计的用户集;用户行为提取模块:统计每单位时间段内用户对M个APP的访问情况;数据存储模块:将结果分区保存至数据仓库中,创建索引并备份。2.据权利要求1所述的方法,其特征在于,面向网络数据指纹的需求对原始数据进行清洗和去冗余,包括:删除数据总字段长度不符合要求的DPI记录;删除关键性字段不符合数据类型要求的DPI记录;以及处理每条DPI记录,保留需要做进一步处理的字段。3.根据权利要求1所述的方法,其特征在于,规则提取模块,选择M个常用手机APP,抓包得到每个APP的域名并正则匹配,将匹配式作为每个APP的识别规则并形成流量规则文件,包括:对流量数据全集的统计结果进行排名,并截取前M个APP制成网络数据指纹的APP列表。将M个APP按类别进行编号,编号为APP在流量规则文件中的唯一标识;整理匹配到的域名,形成流量规则文件,并与编号相对应。4.根据权利要求1所述的方法,其特征在于,提取用户集模块,提取网络数据指纹系统需要统计的用户集,包括:统计原始DPI数据中,上网点击数量大于某阈值的用户,制定用户列表;搜集访问某个指定AP...

【专利技术属性】
技术研发人员:禹可吴晓非吴楚婷谭尧文
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1