一种基于归属地占比的网络流量提取手机号码的方法技术

技术编号:36794311 阅读:70 留言:0更新日期:2023-03-08 22:55
本发明专利技术公开了一种基于归属地占比的网络流量提取手机号码的方法。电信运营商普遍建设了大规模家庭宽带网络流量分析系统,也即,DPI数据采集系统,用于保障网络质量、分析用户行为,以更好的服务宽带用户。其中,从网络流量中提取对应终端的手机号码,将家庭、终端和行为一一对应,可以更好的向用户提供带宽保障、精准信息推送,提升用户体验,具有很好的应用价值。然而,通过实际测试,从运营商的DPI数据采集系统中通过字符串特征匹配所挖掘出的号码进行用户外呼,成功率很低,普遍只有10%以下;并且在进行统计时发现异地和本地的占比接近10∶1,这是非常不正常的现象。通过手机号码归属地分析,如果挖掘出来的是本地号码的总数大于外地号码,则号码整体准确率就会提升。本发明专利技术涉及步骤:通过在DPI数据采集系统中挖掘携带号码的关键字提取号码;同时,采用归属地占比分析,精确提取出准确的手机号码。本发明专利技术相比于过去抓包找携带号码的关键字提取号码,以及添加黑名单应用过滤异常号码的方式;只需要号码特征将所有类似号码的字符串去除,再通过号码本身的规律就能取出大量准确的号码,极大的提升了手机号码提取的精准度。的提升了手机号码提取的精准度。的提升了手机号码提取的精准度。

【技术实现步骤摘要】
一种基于归属地占比的网络流量提取手机号码的方法


[0001]本专利技术涉及一种基于归属地占比的网络流量提取手机号码的方法,属于互联网大数据挖掘的


技术介绍

[0002]现如今DPI深度报文检测技术已经发展的相当成熟,运营商通过DPI平台已经累积了海量的流量数据。通信运营商通过这些流量数据已经提取出了如号码等关键字段;通过号码塑造家庭画像,进而对家庭实施精准的融合业务营销、异网用户策反等经营手段。
[0003]然而,通过实际测试,从运营商的DPI数据采集系统中通过字符串特征匹配所挖掘出的号码进行用户外呼,成功率很低,普遍只有10%以下;并且在进行统计时发现异地和本地的占比接近10∶1,这是非常不正常的现象。通过手机号码归属地分析,如果挖掘出来的是本地号码的总数大于外地号码,则号码整体准确率就会提升。
[0004]因此本专利技术提供了一种基于DPI流量数据对提取到的手机号码做进一步的归属地占比分析,提高其置信度。本专利技术相比于过去抓包找携带号码的关键字提取号码,以及添加黑名单应用过滤异常号码的方式;只需要号码特征将所有类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于归属地占比分析的网络流量手机号码提取方法,其特征在于,包括以下步骤:步骤一、通过抓包测试获取用户终端的上网流量信息中特征字符串和流量信息中HTTP请求和host中的关键字;步骤二、利用得到的特征字符串、HTTP请求和host对DPI数据采集系统中的数据提取获得用户的号码信息;步骤三、提取出host下带有号码的数据;步骤四、分别对host下外地和本地的号码做去重后的总数统计;步骤五、对外地号码和本地号码做占比分析,并分...

【专利技术属性】
技术研发人员:王攀韩倩倩
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1