基于海量数据分析挖掘CDN域名的方法技术

技术编号:18084090 阅读:148 留言:0更新日期:2018-05-31 12:34
本发明专利技术公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明专利技术方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。

【技术实现步骤摘要】
基于海量数据分析挖掘CDN域名的方法
本专利技术属于网络信
,涉及一种基于海量数据分析挖掘CDN域名的可靠有效的方法。
技术介绍
随着互联网的高速发展,人们对网络的反应速度和品质要求也同步提高,为解决互联网响应速度等问题,CDN技术这个概念被提出,并且现如今得到了广泛的使用。CDN(ContentDeliveryNetwork),又名内容分发网络,基于现有的互联网基础之上构建一层虚拟网络架构,以实现用户可就近获取网站内容,从而规避了网络拥挤的情况,提高了互联网响应的速度,为使用CDN服务的网站提供了稳定、安全、高效的加速服务。对于CDN技术被广泛普及和利用的当下,对于CDN技术相关问题的分析也成为了趋势所向。对于使用CDN服务的域名的发现技术、以及提供CDN服务的服务IP的发现技术,对于后续相关领域应用的分析将提供可靠的数据支持。且由于现如今数据爆炸式增长,数据存储周期变短,如何及时地从海量数据中提取出有分析和使用价值的数据,也成为了我们需要探究的问题。因此,本专利技术提供的一种基于海量的数据进行CDN域名的分析挖掘方法具有极高的探究和使用价值。
技术实现思路
本专利技术的目的是提供一种基于海量数据分析挖掘CDN域名的可靠有效的方法,用于挖掘出数据中隐含的价值信息,分析出使用CDN服务的域名,以为后续网络安全应用和分析提供坚实的基础数据支持。本专利技术提供的一种基于海量数据分析挖掘CDN域名的方法,包括:步骤1,对获取的数据进行HOST域名提取,过滤掉无法提取HOST域名的脏数据和数值型HOST域名;步骤2,设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;M,N为正整数;步骤3,对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现;包括:步骤301,对成功提取HOST域名的数据,按照{HOST域名,服务IP}进行重复数据删除;步骤302,以HOST域名作为KEY值进行分组,在组内统计对应不重复的服务IP及IP总数;然后执行步骤304;步骤303,利用去重后的数据,根据阈值M提取出疑似度较高的提供CDN服务的服务IP;步骤304,判断HOST域名对应不重复的服务IP总数是否通过阈值N的限制,如果通过则执行步骤305,否则判定HOST域名为未使用CDN服务;N为正整数;步骤305,将步骤304中通过判断的{HOST域名,服务IP}数据,和步骤303中提取的疑似度较高的提供CDN服务的服务IP及对应HOST域名数据进行融合;步骤306,将融合后的数据按照HOST域名为KEY值进行分组,组内统计不重复的服务IP及IP总数;步骤307,判断HOST域名对应不重复的服务IP总数是否通过阈值M限制,如果通过检验则执行步骤308,否则判定HOST域名为未使用CDN服务;步骤308,对通过步骤307检验的数据的服务IP,采用离线定位获取位置信息;步骤309,以HOST域名为KEY值分组,组内统计不重复的服务IP的位置及位置数目;步骤310:判断HOST域名对应的服务IP不重复位置的总数是否通过阈值M限制,如果通过检验则判定为CDN域名,否则判定为非CDN域名。本专利技术提供了一种使用离散型随机变量数学期望的方法获取CDN服务IP个数阈值M的判断方法,具体是:将CDN服务的IP个数作为离散型随机变量,选取一定时间段内的网络数据,基于所有CDN域名对应的服务IP总数统计出该IP总数出现的次数,并计算该IP总数出现的概率,基于统计结果进行该离散型随机变量的数学期望计算,得到的数值就是M。本专利技术提供了一种位置粒度判定算法,用于对获得的服务IP位置进行判定,统计不重复的服务IP的位置,包括:首先基于服务IP位置中的“国家-省份”信息等级进行不同位置的初级判断,对满足同一“国家-省份”位置信息等级的不同的服务IP,再利用IP的经纬度信息结合地球面距离计算公式,计算不同服务IP的位置的距离差,当计算的距离差达到设定的量级时,将判定不同的服务IP处于不同的物理位置,否则判定为处于同一物理位置。本专利技术方法采用Spark计算引擎对海量数据进行分析计算,并使用多重性能调优方法,包括:使用双重聚合的方法和基于运行资源的并行度调整;采用Spark缓存机制,对于重复利用的RDD对象进行缓存;结合海量数据的数据量级确定数据的资源配置。其中,双重聚合方法是指:将原有的KEY值加上指定范围内的随机前缀,使其变为不同KEY值,将原有的一个任务中的数据量分配到多个不同的任务中进行聚合分析;在添加随机前缀进行一次聚合后,再去掉随机前缀进行第二次聚合,得到最终结果。相对于现有技术,本专利技术的优点和积极效果在于:(1)本专利技术方法综合服务IP个数、不同地理位置区域、以及是否使用提供CDN服务IP等因素就可以对数据进行价值数据的过滤、提取和深度分析,并对价值数据进行精准的、多维度的分析判断,最终实现从海量数据中分析挖掘出使用CDN服务的域名信息。(2)本专利技术方法综合考虑正则规则、HTTP协议特性、Host域名层级特性,提出一种更精准有效的域名提取方法,在该方法中首先对初始的URL信息进行URL解码,以保证HOST域名提取的准确性和完整性;然后对解码后的URL进行HOST域名提取和正确性验证,从而提高HOST域名提取的准确性和可靠性。(3)本专利技术方法利用CDN服务IP个数阈值判定算法得到的阈值,筛选出满足阈值约束条件的域名及对应信息,并利用CDN域名使用的CDN服务IP将分布于多处不同的地理位置的特性,再次对域名进行筛选,以提高分析出的CDN域名的精准度和可靠性。(4)本专利技术紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,进行多维度分析判断,保证了分析的可靠性和准确度,因此,本专利技术方法可以为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。附图说明图1为本专利技术基于海量数据分析挖掘CDN域名的一个实现流程图;图2为本专利技术提供的更精准有效的域名提取方法操作流程图;图3为基于服务IP个数、不同地理位置区域、以及是否使用提供CDN服务IP三个维度进行CDN域名的分析发现流程图;具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术的技术方案进一步详细说明。基于CDN技术原理分析得到使用了CDN服务域名的特点如下:1)该域名对应的服务IP变换为提供CDN服务的IP(域名对应的真实IP将被隐藏);2)该域名将与多个服务IP构成映射关系;3)该域名对应的多个服务IP中必然包含着一定数量的提供CDN服务的IP;4)该域名对应的一定数量的提供CDN服务的IP对应的地理位置将各有不同(CDN的服务IP分布于全国)。本专利技术基于使用了CDN服务域名的以上特点,综合服务IP个数、不同地理位置区域、以及是否使用提供CDN服务IP等因素对数据进行价值数据的过滤、提取和深度分析,并对价值数据进行精准的、多维度的分析判断,最终得到使用CDN服务的域名信息。图1给出了本专利技术基于海量数据分析挖掘CDN域名的实现方法整体组织结构示意图。从图中可以看出,整个分析挖掘的组织结构主要包括数据接入、数据分析挖掘、数据存储三大部分。本文档来自技高网...
基于海量数据分析挖掘CDN域名的方法

【技术保护点】
一种基于海量数据分析挖掘CDN域名的方法,其特征在于,包括:步骤1,对获取的数据进行HOST域名提取,过滤掉无法提取HOST域名的脏数据和数值型HOST域名;步骤2,设置阈值M和N,M,N为正整数;M为CDN服务IP个数的阈值;N为HOST域名对应不重复的服务IP个数的阈值;步骤3,对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现;包括:步骤301,对成功提取HOST域名的数据,按照{HOST域名,服务IP}进行重复数据删除;步骤302,以HOST域名作为KEY值进行分组,在组内统计对应不重复的服务IP及IP总数;然后执行步骤304;步骤303,利用去重后的数据,根据阈值M提取出疑似度较高的提供CDN服务的服务IP;步骤304,判断HOST域名对应不重复的服务IP总数是否通过阈值N的限制,如果通过则执行步骤305,否则判定HOST域名为未使用CDN服务;N为正整数;步骤305,将步骤304中通过判断的{HOST域名,服务IP}数据,和步骤303中提取的疑似度较高的提供CDN服务的服务IP及对应HOST域名数据进行融合;步骤306,将融合后的数据按照HOST域名为KEY值进行分组,组内统计不重复的服务IP及IP总数;步骤307,判断HOST域名对应不重复的服务IP总数是否通过阈值M限制,如果通过检验则执行步骤308,否则判定HOST域名为未使用CDN服务;步骤308,对通过步骤307检验的数据的服务IP,采用离线定位获取位置信息;步骤309,以HOST域名为KEY值分组,组内统计不重复的服务IP的位置及位置数目;步骤310:判断HOST域名对应的服务IP不重复位置的总数是否通过阈值M限制,如果通过检验则判定为CDN域名,否则判定为非CDN域名。...

【技术特征摘要】
1.一种基于海量数据分析挖掘CDN域名的方法,其特征在于,包括:步骤1,对获取的数据进行HOST域名提取,过滤掉无法提取HOST域名的脏数据和数值型HOST域名;步骤2,设置阈值M和N,M,N为正整数;M为CDN服务IP个数的阈值;N为HOST域名对应不重复的服务IP个数的阈值;步骤3,对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现;包括:步骤301,对成功提取HOST域名的数据,按照{HOST域名,服务IP}进行重复数据删除;步骤302,以HOST域名作为KEY值进行分组,在组内统计对应不重复的服务IP及IP总数;然后执行步骤304;步骤303,利用去重后的数据,根据阈值M提取出疑似度较高的提供CDN服务的服务IP;步骤304,判断HOST域名对应不重复的服务IP总数是否通过阈值N的限制,如果通过则执行步骤305,否则判定HOST域名为未使用CDN服务;N为正整数;步骤305,将步骤304中通过判断的{HOST域名,服务IP}数据,和步骤303中提取的疑似度较高的提供CDN服务的服务IP及对应HOST域名数据进行融合;步骤306,将融合后的数据按照HOST域名为KEY值进行分组,组内统计不重复的服务IP及IP总数;步骤307,判断HOST域名对应不重复的服务IP总数是否通过阈值M限制,如果通过检验则执行步骤308,否则判定HOST域名为未使用CDN服务;步骤308,对通过步骤307检验的数据的服务IP,采用离线定位获取位置信息;步骤309,以HOST域名为KEY值分组,组内统计不重复的服务IP的位置及位置数目;步骤310:判断HOST域名对应的服务IP不重复位置的总数是否通过阈值M限制,如果通过检验则判定为CDN域名,否则判定为非CDN域名。2.根据权利要求1所述的方法,其特征在于,所述的步骤1进行HOST域名提取,包括:将URL数据进行解码,解码成功后提取HOST域名;当HOST域名提取成功时,基于正则方法对提取出...

【专利技术属性】
技术研发人员:丁煜李超罗龙楷马雪陈思毕慧郭承青郑彩娟于淼王中华
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1