基于海量数据分析挖掘CDN域名的方法技术

技术编号:18084090 阅读:176 留言:0更新日期:2018-05-31 12:34
本发明专利技术公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明专利技术方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。

【技术实现步骤摘要】
基于海量数据分析挖掘CDN域名的方法
本专利技术属于网络信
,涉及一种基于海量数据分析挖掘CDN域名的可靠有效的方法。
技术介绍
随着互联网的高速发展,人们对网络的反应速度和品质要求也同步提高,为解决互联网响应速度等问题,CDN技术这个概念被提出,并且现如今得到了广泛的使用。CDN(ContentDeliveryNetwork),又名内容分发网络,基于现有的互联网基础之上构建一层虚拟网络架构,以实现用户可就近获取网站内容,从而规避了网络拥挤的情况,提高了互联网响应的速度,为使用CDN服务的网站提供了稳定、安全、高效的加速服务。对于CDN技术被广泛普及和利用的当下,对于CDN技术相关问题的分析也成为了趋势所向。对于使用CDN服务的域名的发现技术、以及提供CDN服务的服务IP的发现技术,对于后续相关领域应用的分析将提供可靠的数据支持。且由于现如今数据爆炸式增长,数据存储周期变短,如何及时地从海量数据中提取出有分析和使用价值的数据,也成为了我们需要探究的问题。因此,本专利技术提供的一种基于海量的数据进行CDN域名的分析挖掘方法具有极高的探究和使用价值。
技术实现思路
本专利技术的目的是提本文档来自技高网...
基于海量数据分析挖掘CDN域名的方法

【技术保护点】
一种基于海量数据分析挖掘CDN域名的方法,其特征在于,包括:步骤1,对获取的数据进行HOST域名提取,过滤掉无法提取HOST域名的脏数据和数值型HOST域名;步骤2,设置阈值M和N,M,N为正整数;M为CDN服务IP个数的阈值;N为HOST域名对应不重复的服务IP个数的阈值;步骤3,对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现;包括:步骤301,对成功提取HOST域名的数据,按照{HOST域名,服务IP}进行重复数据删除;步骤302,以HOST域名作为KEY值进行分组,在组内统计对应不重复的服务IP及IP总数;然后...

【技术特征摘要】
1.一种基于海量数据分析挖掘CDN域名的方法,其特征在于,包括:步骤1,对获取的数据进行HOST域名提取,过滤掉无法提取HOST域名的脏数据和数值型HOST域名;步骤2,设置阈值M和N,M,N为正整数;M为CDN服务IP个数的阈值;N为HOST域名对应不重复的服务IP个数的阈值;步骤3,对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现;包括:步骤301,对成功提取HOST域名的数据,按照{HOST域名,服务IP}进行重复数据删除;步骤302,以HOST域名作为KEY值进行分组,在组内统计对应不重复的服务IP及IP总数;然后执行步骤304;步骤303,利用去重后的数据,根据阈值M提取出疑似度较高的提供CDN服务的服务IP;步骤304,判断HOST域名对应不重复的服务IP总数是否通过阈值N的限制,如果通过则执行步骤305,否则判定HOST域名为未使用CDN服务;N为正整数;步骤305,将步骤304中通过判断的{HOST域名,服务IP}数据,和步骤303中提取的疑似度较高的提供CDN服务的服务IP及对应HOST域名数据进行融合;步骤306,将融合后的数据按照HOST域名为KEY值进行分组,组内统计不重复的服务IP及IP总数;步骤307,判断HOST域名对应不重复的服务IP总数是否通过阈值M限制,如果通过检验则执行步骤308,否则判定HOST域名为未使用CDN服务;步骤308,对通过步骤307检验的数据的服务IP,采用离线定位获取位置信息;步骤309,以HOST域名为KEY值分组,组内统计不重复的服务IP的位置及位置数目;步骤310:判断HOST域名对应的服务IP不重复位置的总数是否通过阈值M限制,如果通过检验则判定为CDN域名,否则判定为非CDN域名。2.根据权利要求1所述的方法,其特征在于,所述的步骤1进行HOST域名提取,包括:将URL数据进行解码,解码成功后提取HOST域名;当HOST域名提取成功时,基于正则方法对提取出...

【专利技术属性】
技术研发人员:丁煜李超罗龙楷马雪陈思毕慧郭承青郑彩娟于淼王中华
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1