一种对CCDN提供商信息进行采集及统计的方法技术

技术编号:10422918 阅读:105 留言:0更新日期:2014-09-12 13:46
本发明专利技术公开了一种对CCDN提供商信息进行采集及统计的方法,该方法通过部署在各地的主动测量节点,运用所设计的爬虫工具,对大量的网站网页进行爬取,收集网页链接及链接对应的内容信息,并运用域名解析工具对链接中提取出的域名进行分布式的DNS解析,以获取域名所对应的CNAME;然后,运用CDN解析工具对域名对应的CNAME进行CDN解析,以获取CCDN所服务的域名数量、使用的IP数量等信息。在这些信息的基础上,对CCDN的市场现状、基础设施部署状况和QoS进行深入地统计分析,从而对CCDN进行全面的评估,更好地理解CDN市场的现状和发展趋势。

【技术实现步骤摘要】
一种对CCDN提供商信息进行采集及统计的方法
本专利技术涉及通信领域,特别涉及一种对CCDN提供商信息进行采集及统计的方法。
技术介绍
Q)N(Content Delivery Network,内容分发网络),是构建在现有物理网络上的一种覆盖网络。CDN将内容分发存储到网络边缘,通过网络的动态内容分配和全局负载均衡,将用户请求自动指向到健康可用并且距离用户最近的缓存服务器上,有效提高用户访问的响应速度和服务的可用性,从技术上全面解决由于网络带宽小、用户访问量大、网点分布不均等原因而造成的应用服务质量差的问题。CDN的业务通常有:门户网站的图文分发;音视频媒体网站、视频直播或点播网站的流媒体分发,在线软件更新等。由于⑶N近年来的快速发展,所以,从市场的份额、基础设施部署、实现技术、服务器性能、发展趋势等方面彻底了解Q)N行业,能够很好地指导ICP (Internet Content Provider网络内容服务商)选择合适的⑶N,并能够促进⑶N的产业的优化发展。CCDN (Commercial Content Delivery Network,商业的内容分发网络)提供商在市场份额大小、基础设施部署、技术实现、资源管理等方面都有着显著的不同。ICP为了提高自身网站的用户体验,也加大了使用CCDN的力度。根据我们统计发现,2013年ICP使用CXDN的家数比2011年增长了近20%。越来越多的大型互联网内容提供商除了利用(XDN,已经开始部署自己的P⑶N (Private Content Delivery Network,私人的内容分发网络),用于提高网站的用户体验。这意味着互联网内容提供商的CDN的选择既不是静态的,也不是唯一的。虽然互联网内容 提供商往往让CCDN提供诸如文本和图像这样的静态内容,但由于不同的ICP的业务类型的侧重不同,对于CXDN的选择也会有所不同,因此ICP也倾向于使用不同的CDN提供不同类型的服务。在欧美已经对CDN进行了大量的测量和评估,但是在中国,⑶N行业对外界来说仍然是很神秘的。因此,深入地研究中国⑶N的现状和发展趋势,是一项很有意义的工作。
技术实现思路
本专利技术所要解决的技术问题是提供一种对CCDN提供商信息进行采集及统计的方法,实现市场份额、基础设施部署和QoS三个维度信息的统计,使得对CCDN的评估更加全面。本专利技术实施例中提供的具体技术方案如下: 一种对CCDN提供商信息进行采集及统计的方法,其包括以下步骤: I)在骨干网选取若干测量节点,利用网络爬虫对目标网站的链接和链接对应的信息进行爬取; 2 )从收集到的网页链接提取域名,消除冗余的域名,生成DNS解析所需要的域名列表; 3)根据链接对应信息中的类型属性对域名列表中的链接对象类型进行分类,并统计每个类型字节数的大小; 4)根据ICP的关键域名字段,将爬取到的链接和对应信息按照ICP进行分类; 5)将DNS解析工具分发到各个测量节点上,通过向其附近的公共LDNS服务器进行域名的查询,来获取域名所对应的CNAME,IP地址和NS信息; 6)根据DNS解析工具返回的解析信息,通过把每个域名的CNAME和CDN域名列表进行对比,来发现为域名提供服务的CDN提供商,以此发现CDN所使用的IP数量和服务的域名数量,并将原始网页链接与服务内容的CDN提供商关联起来,为综合统计分析提供数据支持; 7)根据以上步骤获得的信息,对CCDN的市场情况、CCDN的基础设施部署和CCDN的QoS进行统计。上述步骤7)中,CXDN的市场情况包括:CDN服务的ICP数量和域名数统计XDN服务ICP内容类型数量和字节数统计、ICP使用CDN统计、CDN市场份额统计。CXDN的基础设施部署包括:⑶N使用IP数量统计、⑶N使用IP归属统计、⑶N使用IP分类统计。⑶N的的QoS分析统计传输的带宽、传送的时延、数据的丢包率。综上,本专利技术所述的一种对CCDN提供商全面评估的方法采用以上技术方案,利用部署在全国40多个城市的测量节点,采用主动测量的方法,收集大量的ICP链接信息,通过对从链接中抽取的域名进行DNS解析和CDN解析后,运用得到的信息对CCDN提供商的市场份额、基础设施部署、CDN的QoS进行了统计分析。与现有技术相比,具有以下技术效果: 1)对大量的ICP网站进行了链接信息的爬取,运用大数据的统计分析方法,对CCDN进行了统计分析,使得结论更加客观真实; 2)从市场份额、基础设施部署和QoS三个维度对CCDN进行了评估,使得对CCDN的评估更加全面; 3)对CCDN进行了横向和纵向的比较,能够更清晰地反映各家CCDN的优劣势,为ICP提供更全面地选择CCDN的服务,并能够使CCDN 了解自己的行业地位,促进优化升级。【附图说明】图1为本专利技术中测量分析统计的流程图。【具体实施方式】下面结合说明书附图对本专利技术的【具体实施方式】作进一步详细的说明。为了对CXDN (商业的内容分发网络)提供商进行全面的评估,更好地理解CXDN的现状、发展趋势和行为,本专利技术实施例中,设计了一个用来从大量网站中爬取网页链接和相关链接信息的爬虫工具,通过从收集到的网页链接中提取出域名,得到一个用于DNS查询的域名列表,然后运用DNS解析工具,对域名进行分布式DNS查询,获取相关的信息,并对获取的信息进行CDN解析,最后对CCDN的市场份额、基础设施部署状况和QoS情况进行统计分析。这里的测量节点部署在中国大陆的整个骨干网,超过60个测量节点部署在32个省份的40个城市。本专利技术实施例中,实现对CCDN提供商的评估方法的具体流程如下(参阅图1所示): 步骤1.爬取链接信息。网络爬虫技术,是一种系统地按照一定规则自动抓取Web网页信息的计算机应用程序。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。为此设计一个爬虫工具,分发部署在测量节点上,对目标网站的链接和链接对应的信息进行爬取,该工具的特点是:(I)爬取网页链接及链接对应的相关信息;(2)具有自动过滤功能,能够自动识别目标网站以外的链接并将其丢弃;(3)能够根据需要控制爬取网站的层数。在这里,爬虫工具分发部署在所有的主动测量节点,对目标网站的链接和链接对应的信息进行爬取。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法是根据种子样本的获取方式可以分为:(I)预先给定的初始抓取种子样本;(2)预先给定的网页分类目录与分类目录对应的种子样本、分类结构等;(3)通过用户行为确定的抓取目标样例。U使用工具:爬虫工具本文档来自技高网
...

【技术保护点】
一种对CCDN提供商信息进行采集及统计的方法,其特征在于包括以下步骤:1)在骨干网选取若干测量节点,利用网络爬虫对目标网站的链接和链接对应的信息进行爬取;2)从收集到的网页链接提取域名,消除冗余的域名,生成DNS解析所需要的域名列表;3)根据链接对应信息中的类型属性对域名列表中的链接对象类型进行分类,并统计每个类型字节数的大小;4)根据ICP的关键域名字段,将爬取到的链接和对应信息按照ICP进行分类;5)将DNS解析工具分发到各个测量节点上,通过向其附近的公共LDNS服务器进行域名的查询,来获取域名所对应的CNAME,IP地址和NS信息;6)根据DNS解析工具返回的解析信息,通过把每个域名的CNAME和CDN域名列表进行对比,来发现为域名提供服务的CDN提供商,以此发现CDN所使用的IP数量和服务的域名数量,并将原始网页链接与服务内容的CDN提供商关联起来,为综合统计分析提供数据支持;7)根据以上步骤获得的信息,对CCDN的市场情况、CCDN的基础设施部署和CCDN的QoS进行统计。

【技术特征摘要】
1.一种对CCDN提供商信息进行采集及统计的方法,其特征在于包括以下步骤: I)在骨干网选取若干测量节点,利用网络爬虫对目标网站的链接和链接对应的信息进行爬取; 2 )从收集到的网页链接提取域名,消除冗余的域名,生成DNS解析所需要的域名列表; 3)根据链接对应信息中的类型属性对域名列表中的链接对象类型进行分类,并统计每个类型字节数的大小; 4)根据ICP的关键域名字段,将爬取到的链接和对应信息按照ICP进行分类; 5)将DNS解析工具分发到各个测量节点上,通过向其附近的公共LDNS服务器进行域名的查询,来获取域名所对应的CNAME,IP地址和NS信息; 6)根据DNS解析工具返回的解析信息,通过把每个域名的CNAME和CDN域名列表进行对比,来发现为域名提供服务的CDN提供商,以此发现CDN所使用的IP数量和服务的域名数量,并将...

【专利技术属性】
技术研发人员:尹浩乔波冯森英浩
申请(专利权)人:南京汇吉递特网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1