一种建立CDN厂家基础知识库的方法技术

技术编号:20045212 阅读:29 留言:0更新日期:2019-01-09 04:15
本发明专利技术公开了一种建立CDN厂商基础知识库的方法,该方法包括:通过爬虫,获得网站上所有CDN厂家信息;被动采集全国各个域名解析服务器的域名解析记录,获得所有的域名解析信息;针对所有的解析域名进行字典表比照、CNAME聚类、IP分散度判别等综合判定,获得CDN子网信息;针对CDN子网域名信息依据字典表关联、备案库查询、whois查询、人工判别等手段建立与CDN厂商的对应关系,并形成最终的CDN厂商的子网域名和加速节点IP地址基础知识库。本发明专利技术公开的方法能够较为全面地发现CDN厂商的加速节点,并建立CDN厂商子网域名、加速节点IP地址等基础知识库,从而为CDN业务的行业发展和有效管理提供一定的技术支撑。

【技术实现步骤摘要】
一种建立CDN厂家基础知识库的方法
本专利技术涉及互联网
,特别涉及一种建立CDN厂家基础知识库的方法。
技术介绍
互联网迅猛发展,CDN作为一种为最终用户提供快速网页浏览、视频播放和文件下载的内容分发技术,在互联网中占据越来越重要的地位。本专利技术的技术方法,基于编写简单的爬虫工具、结合工信部已建的全国DNS信息安全管理系统中采集的域名和IP地址数据、采用字典表关联、CNAME聚类、IP分散度分析、备案库查询、whois查询等综合技术,构建了较为完整的CDN厂家的子网域名和节点IP地址知识库,对于从整体上掌握CDN行业的发展和行业管理起到了很好的技术支撑作用。
技术实现思路
为了更有效地对CDN厂家基础资源,包括CDN子网域名、节点IP地址、接入点数量、接入点所在国家/地区等进行准确的掌握,从而从整体上支持CDN行业发展和行业管理,本专利技术提出了一种建立CDN厂商基础知识库的方法。本专利技术的技术方案如下:通过爬虫主动爬取https://www.cdnplanet.com网站,获得CDN厂家信息;通过DNS信安系统被动采集全国解析的域名和IP地址信息;针对域名进行字典表关联、CNAME聚类、IP分散度判别,从而形成CDN子网域名列表,并标定相应的相似度;针对CDN子网域名列表通过字典表关联、备案查询、whois查询、人工判别等手段,建立与CDN厂家的关联关系;基于以上数据,建立CDN厂家基础资源库,具体包括:厂家名称、CDN子网域名、CDN节点IP、CDN节点所在国家、CDN节点所在地点,通过统计汇总可以分析出每个CDN厂家的节点数、分布情况、业务量(接入的加速域名数量)等行业管理急需的基础数据。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的建立CDN厂商基础知识库的方法的流程图。图2为本专利技术实施例中的CDN厂商信息采集的流程示意图。图3为本专利技术实施例中的域名解析信息采集的流程示意图。图4为本专利技术实施例中的CDN子网域名判别的流程示意图。图5为本专利技术实施例中的字典表管理的流程示意图。图6为本专利技术实施例中的字典表样例的示意图。图7为本专利技术实施例中的域名数量聚类的计算流程图。图8为本专利技术实施例中的IP分散度的计算流程图。图9为本专利技术实施例中的CDN厂商数据关联的流程图。具体实施方式1、定义1.1域名(DomainName)本专利技术方法中所指的域名(DomainName)是指,由一串用点分隔的名字组成的互联网上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。域名采用分级结构,最高级为根域名,其次为顶级域名,再次为一级域名,二级域名,三级域名等。如.为根域名,.com、.cn为顶级域名,google.com为一级域名,www.google.com为二级域名。1.2CDN(ContentDeliveryNetwork)本专利技术方法中所指的CDN是指提供内容加速服务的一种互联网技术。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。其目的是使用户可就近取得所需内容,解决Internet网络拥挤的状况,提高用户访问网站的响应速度。一般来说,采用CNAME的方式来实现CDN加速技术是一种常见的技术,CNAME的原理是,被加速域名在现有域名解析体系中不保留A记录,而只是保留CNAME记录,而CNAME记录对应的真实IP地址由CDN网络依据实际情况动态解析出来,返回给最终的用户。如www.google.com是通过阿卡曼CDN加速的,它的CNAME为www.google.com.akamaized.net1.3CDN厂家本专利技术方法中所指的CDN厂家,是指运营CDN业务的企业、个人或组织。如阿卡曼、阿里、腾讯等。CDN厂家运营CDN网络一般需要申请单独的CDN域名,该域名所属的命名空间均为该域名加速的范围,构成了一个逻辑上相对独立的网络空间,因此,一般也把CDN域名叫做子网域名。一般来说,为了达到大部分用户良好的客户感受度,一个CDN域名(子网域名)会对应多台地域分散的物理服务器,为最近的用户提供互联网服务。这些服务器都有独立的IP地址,每一个独立的IP地址叫做该子网的一个加速节点。1.4CDN域名(子网域名)本专利技术方法中所指的CDN域名,也叫子网域名,是指CDN厂家运营的用于CDN加速的相对独立的有相同CNAME后缀域名的域名。例如,阿卡曼运营的akamaized.net、akamai.net均为其CDN域名,每个CDN域名下都可以接入很多被加速的网站域名。1.5节点本专利技术方法中所指的节点是指CDN网络中在同一个子网内的物理服务器对应的一个IP地址。一般而言一个物理服务器至少对应一个IP地址,有时会有多个IP地址,这时我们把它看作多个节点。1.6DNS信安系统本专利技术方法中所指的DNS信安系统是指由工信部建设的部、省、企业三级采集监测和信安处置系统,支持基础资源上报、解析域名和IP采集、信息安全监测、信息安全处置、访问日志留存等功能。1.7CDN厂商基础知识库本专利技术方法中所指的CDN厂商基础知识库是指本专利技术方法建立的知识库,包括:CDN厂商名称、CDN子网域名、CDN节点IP、CDN节点所在国家、CDN节点所在地点等基本知识库,以及由基本知识库通过统计汇总可以得到的每个CDN厂家的节点数、分布情况、业务量等知识数据。2、CDN厂商基础知识库建立方法如图1所示,本专利技术实施例所公开的建立CDN厂商基础知识库的方法,包括如下步骤:步骤101、通过爬虫主动爬取https://www.cdnplanet.com网站,获得CDN厂家信息;步骤102、通过DNS信安系统被动采集全国解析的域名和IP地址信息;步骤103、针对域名进行字典表关联、CNAME聚类、IP分散度判别,从而形成CDN子网域名列表,并标定相应的相似度;步骤104、针对CDN子网域名列表通过字典表关联、备案查询、whois查询、人工判别等手段,建立与CDN厂家的关联关系;步骤105、基于以上数据,建立CDN厂家基础资源库,具体包括:厂家名称、CDN子网域名、CDN节点IP、CDN节点所在国家、CDN节点所在地点,通过统计汇总可以分析出每个CDN厂家的节点数、分布情况、业务量(接入的加速域名数量)等行业管理急需的基础数据。下面来对上述各个步骤的具体过程进行详细描述。2.1CDN厂商信息采集算子CDN厂商采集算子的计算流程见附图1。参照图1所示,CDN厂商采集算子每天(可根据系统需要进行调整)连接一次网站https://www.cdnplanet.com,从“selectfromallcountries”中依次选择每个国家,针对每个国家的连接页面爬取CDN厂本文档来自技高网...

【技术保护点】
1.一种建立CDN厂商基础知识库的方法,其特征在于,所述方法包括:通过爬虫方式主动爬取CDN厂商信息;通过接口方式被动接收全国所有域名解析服务器解析的域名和IP地址信息;针对上步中的域名进行字典表比照、CNAME聚类、IP分散度判别,获得CDN子网信息;针对CDN子网域名信息依据字典表关联、备案库查询、whois查询、人工判别手段建立与CDN厂商的对应关系;基于上述步骤,建立最终的CDN厂商的子网域名和加速节点IP地址基础知识库。

【技术特征摘要】
1.一种建立CDN厂商基础知识库的方法,其特征在于,所述方法包括:通过爬虫方式主动爬取CDN厂商信息;通过接口方式被动接收全国所有域名解析服务器解析的域名和IP地址信息;针对上步中的域名进行字典表比照、CNAME聚类、IP分散度判别,获得CDN子网信息;针对CDN子网域名信息依据字典表关联、备案库查询、whois查询、人工判别手段建立与CDN厂商的对应关系;基于上述步骤,建立最终的CDN厂商的子网域名和加速节点IP地址基础知识库。2.根据权利要求1所述的方法,其特征在于,所述通过爬虫方式主动爬取CDN厂商信息,是指通过HTTP爬虫,爬取网站:https://www.cdnplanet.com,对应的页面,获得CDN厂商信息,具体包括:CDN厂商名称、业务覆盖国家、节点数、节点所在地信息。3.根据权利要求1所述的方法,其特征在于,通过接口方式被动接收全国所有域名解析服务器解析的域名和IP地址信息,包括:通过程序接口每天接收全国DNS信息安全管理系统上报的全国当天解析的域名和对应IP地址记录,具体包括:域名、IP版本、IP地址、老化时间信息。4.根据权利要求1所述的方法,其特征在于,所述针对域名进行字典表比照、CNAME聚类、IP分散度判别,获得CDN子网信息,包括:先基于已知的CDN域名字典表对获取的所有域名进行比照过滤,并把相关的域名关联到对应的CDN域名子网上,然后针对剩下的所有域名按照一级域名、二级域名、三级域名进行基于下级域名数量的树形聚类,并依据系统阈值策略的设置,判定相应的一级域名、二级域名、三级域名为CDN域名子网的相似度,最后对于相似度较高的CDN子网接入的域名,判定其IP地址的分散度,依据分散度判定盖CDN域名子网的最终相似度,其中,针对同一个域名,IP地址越分散,说明其通过CDN加速节点进行加速可能性越高。...

【专利技术属性】
技术研发人员:张振涛张健石磊张峰晓杨满智蔡琳陈晓光金红刘长永
申请(专利权)人:恒安嘉新北京科技股份公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1