一种家庭宽带WiFi下手机号码特征自动提取方法技术

技术编号:19151133 阅读:193 留言:0更新日期:2018-10-13 10:32
本发明专利技术公开了一种家庭宽带WiFi下手机号码特征自动提取方法,采用DPI(深度包检测)技术、Hyperscan高速字符串匹配、Hadoop分布式架构、分布式爬虫等技术,可以更加快速准确的识别出固网WiFi下用户手机号码特征。

An automatic feature extraction method for mobile phone numbers under home broadband WiFi

The invention discloses a method for automatically extracting handset number characteristics under home broadband WiFi. By adopting DPI (deep packet detection), Hyperscan high-speed string matching, Hadoop distributed architecture, distributed crawler and other technologies, the handset number characteristics of users under fixed-line WiFi can be identified more quickly and accurately.

【技术实现步骤摘要】
一种家庭宽带WiFi下手机号码特征自动提取方法
本专利技术涉及一种家庭宽带WiFi下手机号码特征自动提取方法,属于深度包解析

技术介绍
目前大多数的特征字发现是采用人工离线的方法进行:即通过人工模拟用户使用特定应用的行为,并进行抓包,通过经验和肉眼比对提取关键特征字,形成针对特定应用的特征字库。离线的人工比对获取特征字的方法工作量大、低效且模拟行为有限,且对人员的要求较高。
技术实现思路
为解决现有技术的不足,本专利技术的目的在于提供一种家庭宽带WiFi下手机号码特征自动提取方法,解决人工比对效率低的问题。为了实现上述目标,本专利技术采用如下的技术方案:一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,包括如下步骤:步骤1)通过深度包检测技术解析数据包,提取相关信息,判断数据包协议类型,清洗程序一次过滤丢弃非HTTP、非RADIUS协议的数据包;对剩下的HTTP数据包进行HTTP应用层报文解析,提取字段内容;步骤2)对报文进行二次过滤,丢弃uri字段中资源类型不符合的数据包;步骤3)利用Hyperscan技术对数据包进行高效快速匹配,发现其中的疑似手机号,并与其他相关信息形成初步分析结果记录,整理成数据清单送入大数据分析模块进行分析;步骤4)通过事先利用Webmagic爬虫框架对终端信息库的爬取,匹配出ua信息;当匹配出非手机型号的终端,判断此11位数字并非真的手机号,此手机号码特征关键字是无效的;步骤5)利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,匹配出手机号码关键字出自于哪种app应用,将同种应用产生出的许多不同host主机名的情况归为同一种应用,将来自未知应用的噪声数据记录剔除出去;步骤6)计算手机号码在同一宽带账号下出现在不同app应用的次数,利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数;通过设置应用阈值和时间阈值,所述应用阈值为出现次数阈值,时间阈值为app应用启动时间阈值,当应用阈值和时间阈值均不满足时,继续累积数据,否则归类进手机号码特征关键字库中;步骤7)采用黑名单的方式进行过滤,过滤黑名单关键字后再检查关键字,验证是否属于手机号码特征黑名单中,如否,则进入下一步,否则再次过滤黑名单关键字;步骤8)输出最终结果,形成手机号码特征结果表,包括手机号码特征关键字和手机号码特征对应app名称。前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤1)中的字段内容包括uri、host、ua、referer、cookie和content。前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤2)中资源类型不符合的数据包为不携带用户相关身份信息的数据包。前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤3)中结果记录的信息包含时间戳、固网宽带账号、疑似手机号、关键字、uri、host、ua、referer、cookie和content。前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤6)中数据库的数据累积的方法为:将宽带账号、手机号码、手机号码特征关键字、app名称这一四元组数据作为唯一标识,累积每天的数据,计算四元组数据出现的天数;通过设置时间阈值过滤具有临时性、时效性的噪声数据;通过设置应用出现次数阈值,超过应用阈值,最终会归类进手机号码特征关键字库中。前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述应用阈值具体内容为:利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数,所述二元组的数据包含手机号码和宽带账号。本专利技术所达到的有益效果:本专利技术相比传统离线人工肉眼识别方法,手机号码特征可以每天定时自动输出,且根据这些手机号码特征提取的手机号准确率可以达到86%以上,提取特征的效率有很大的提高。附图说明图1为DPI数据清洗模块流程图;图2为大数据分析去噪流程图;图3为具体实施工程图;图4为手机号码特征准确率;图5为手机号码特征漏判率;图6为手机号码特征误判率。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。本专利技术采用了DPI(深度包检测)技术对家庭宽带WiFi下的流量进行用户信息感知、采用Hyperscan高速字符串匹配提高提取方法的字符匹配和信息采集速率、采用Hadoop分布式架构和分布式爬虫实现对关键字信息库的清洗和分析。与现有技术相比,本专利技术相比传统离线人工肉眼识别方法,手机号码特征可以每天定时自动输出,且根据这些手机号码特征提取的手机号准确率可以达到86%以上,提取特征的效率有很大的提高。具体内容为:步骤1)通过DPI技术解析数据包,提取相关信息,判断数据包协议类型,清洗程序一次过滤丢弃非HTTP(超文本传输协议)、非RADIUS(远程用户拨号认证服务)协议的数据包,例如,FTP(文件传输协议)、DNS(域名系统)、SMTP(简单邮件传输协议)等数据包。然后对剩下的HTTP数据包进行HTTP应用层报文解析,提取其中uri、host、ua、referer、cookie、content等字段内容;步骤2)对报文进行二次过滤,丢弃uri字段中资源类型不符合的数据包,例如,uri字段中以jpg、gif、png、js、jpeg、css等作为扩展名,用于对图片资源、网页样式进行请求的数据包,因为这些数据包不携带用户相关身份信息,不可能包含用户手机号码,对手机号码关键字的提取是毫无用处的。步骤3)由于手机号码包含一些数字特性,例如,号码前三位代表运营商、号码中间四位代表地域信息等,通过这些手机号码特征可以反向地去提取手机号码所携带的手机号码关键字。利用Hyperscan技术对数据包进行高效快速匹配,发现其中的疑似手机号,并与其他相关信息形成初步分析结果记录,结果记录包含时间戳、固网宽带账号、疑似手机号、关键字、uri、host、ua、referer、cookie、content等信息,整理成一系列数据清单送入大数据分析去噪中心进行进一步的分析。步骤4)在DPI清洗后获得的ua字段信息,代表了手机型号信息。通过事先利用Webmagic爬虫框架对电子商城终端信息的爬取,匹配出ua信息。当匹配出非手机型号的终端,很容易就可以判断此11位数字并非真的手机号,从而此手机号码特征关键字是无效的。步骤5)在DPI清洗后获得的host字段信息,代表了手机号码特征关键字的数据包的主机名称。利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,匹配出手机号码关键字出自于哪种app应用,有效地将同种应用产生出的许多不同host主机名的情况归为同一种应用,将那些来自未知应用的噪声数据记录剔除出去,帮助之后的数据分析计算手机号码在同一宽带账号下出现在不同app应用的次数,提高了手机号码特征关键字的提取准确率。步骤6)DPI清洗出的手机号码数字串可能来自某应用的时间戳或者临时上报的数据,因此,此类噪声数据都具有临时性、时效性等特点。本专利技术采用数据累积的方法,将宽带账号、手机号码、手机号码特征关键字、app名称这一四元组数据作本文档来自技高网...

【技术保护点】
1.一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,包括如下步骤:步骤1)通过深度包检测技术解析数据包,提取相关信息,判断数据包协议类型,清洗程序一次过滤丢弃非HTTP、非RADIUS协议的数据包;对剩下的HTTP数据包进行HTTP应用层报文解析,提取字段内容;步骤2)对报文进行二次过滤,丢弃uri字段中资源类型不符合的数据包;步骤3)利用Hyperscan技术对数据包进行高效快速匹配,发现其中的疑似手机号,并与其他相关信息形成初步分析结果记录,整理成数据清单送入大数据分析模块进行分析;步骤4)通过事先利用Webmagic爬虫框架对终端信息库的爬取,匹配出ua信息;当匹配出非手机型号的终端,判断此11位数字并非真的手机号,此手机号码特征关键字是无效的;步骤5)利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,匹配出手机号码关键字出自于哪种app应用,将同种应用产生出的许多不同host主机名的情况归为同一种应用,将来自未知应用的噪声数据记录剔除出去;步骤6)计算手机号码在同一宽带账号下出现在不同app应用的次数,利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数;通过设置应用阈值和时间阈值,所述应用阈值为出现次数阈值,时间阈值为app应用启动时间阈值,当应用阈值和时间阈值均不满足时,继续累积数据,否则归类进手机号码特征关键字库中;步骤7)采用黑名单的方式进行过滤,过滤黑名单关键字后再检查关键字,验证是否属于手机号码特征黑名单中,如否,则进入下一步,否则再次过滤黑名单关键字;步骤8)输出最终结果,形成手机号码特征结果表,包括手机号码特征关键字和手机号码特征对应app名称。...

【技术特征摘要】
1.一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,包括如下步骤:步骤1)通过深度包检测技术解析数据包,提取相关信息,判断数据包协议类型,清洗程序一次过滤丢弃非HTTP、非RADIUS协议的数据包;对剩下的HTTP数据包进行HTTP应用层报文解析,提取字段内容;步骤2)对报文进行二次过滤,丢弃uri字段中资源类型不符合的数据包;步骤3)利用Hyperscan技术对数据包进行高效快速匹配,发现其中的疑似手机号,并与其他相关信息形成初步分析结果记录,整理成数据清单送入大数据分析模块进行分析;步骤4)通过事先利用Webmagic爬虫框架对终端信息库的爬取,匹配出ua信息;当匹配出非手机型号的终端,判断此11位数字并非真的手机号,此手机号码特征关键字是无效的;步骤5)利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,匹配出手机号码关键字出自于哪种app应用,将同种应用产生出的许多不同host主机名的情况归为同一种应用,将来自未知应用的噪声数据记录剔除出去;步骤6)计算手机号码在同一宽带账号下出现在不同app应用的次数,利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数;通过设置应用阈值和时间阈值,所述应用阈值为出现次数阈值,时间阈值为app应用启动时间阈值,当应用阈值和时间阈值均不满足时,继续累积数据,否则归类进手机号码特征关键字库中;步骤7)采用黑名单的方式进行过滤,过滤黑名单关键字后再检查关键字,验证是否属于手机号码特征黑名...

【专利技术属性】
技术研发人员:王攀金石
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1