一种基于域名区文件的网站数量判定方法和系统技术方案

技术编号:19067442 阅读:33 留言:0更新日期:2018-09-29 14:45
本发明专利技术提供一种基于域名区文件的网站数量判定方法和系统。该方法包括以下步骤:获取域名区文件,并从中提取域名信息列表;将所述域名信息列表转化为探测任务;执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;通过对所述探测数据统计和分析,获得探测结果。本发明专利技术能够以较低的成本和较高的效率完成全球网站数量的判定,并且能够识别网站所属地、停靠情况、重复情况、跳转情况,具有较强的实用性。

【技术实现步骤摘要】
一种基于域名区文件的网站数量判定方法和系统
本专利技术涉及信息
,具体涉及一种基于域名区文件的网站数量判定方法和系统。
技术介绍
在经济或信息
的数据分析或统计报告中,网站数量是一个非常重要的指标数据,网站数量的准确性非常重要,但是网站数量的判定却没有经济有效的技术手段。目前网站数量的获取方式有如下几种:a,在某些国家或地区采取网站备案手段可以获取本国或本地区的备案网站数量。b,通过搜索引擎爬取和遍历网站并进一步分析的方式获取网站数量。c,通过遍历全球已分配IP地址相应web端口并做进一步分析的方式获取网站数量。以上方法通常有如下缺点:a,实现成本高。b,耗时长,时效性低。c,有些模式需要非技术手段配合,管理成本高。d,有些模式准确性低,数据权威性不足。
技术实现思路
针对上述现有技术的缺陷,本专利技术的目的在于提供一种基于域名区文件的网站数量判定方法和系统,能够以较低的成本和较高的效率完成全球网站数量的判定,并且支持对网站数量进行分地域、分类别等辨别和统计,具有较强的实用性。为实现上述目的,本专利技术采取的技术方案是:一种基于域名区文件的网站数量判定方法,包括以下步骤:获取域名区文件,并从中提取域名信息列表;将所述域名信息列表转化为探测任务;执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;通过对所述探测数据统计和分析,获得探测结果。进一步地,所述获取域名区文件,并从中提取域名信息列表包括:在协商或取得授权后,从各个域名注册局或ICANN官方网站获取各种TLD的域名区文件;并通过对各域名区文件中权威记录进行处理提取全部域名信息列表。进一步地,所述探测任务的探测内容包括下列中的一种或多种:域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测。进一步地,执行探测任务获取探测数据包括,下载探测任务;从域名递归服务器探测域名主机对应IP地址和网站可达性;网站内容抓取;执行站内跳转探测任务;获取探测内容作为探测数据。进一步地,所述通过对探测数据统计和分析,获得探测结果包括:通过分析探测数据,获取网站数量,并识别网站所属地、停靠情况、重复情况、跳转情况;获取最终分类探测结果。进一步地,所述网站数量为所有获取到对应网站首页内容,并且首页内容符合配置要求的对应域名数量;网站所属地通过其对应IP地址所属地进行判断;停靠情况通过对应网站首页内容中的停靠关键字识别得出;网站重复情况通过不同域名对应网页内容是否一致得出;跳转情况通过域名对应网站是否含有可达的跳转页面得出。进一步地,还包括:根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。一种基于域名区文件的网站数量判定系统,包括:域名区文件获取与分析模块,用以获取域名区文件,并从中提取域名信息列表;探测任务生成模块,用以将所述域名信息列表转化为探测任务;探测节点模块,用以执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;数据分析模块,用以通过对所述探测数据统计和分析,获得探测结果。进一步地,还包括报告生成模块,用以根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。进一步地,还包括:任务控制模块,用以通过调度管理,确保在探测节点模块提取探测任务时有相应探测任务提供,并用以对任务消费和执行情况进行标记;数据传输模块,用以传送探测任务内容和收集探测数据,通过消息队列的方式,将每个探测节点模块探测到的探测数据写入消息队列,对消息队列进行传输控制;监测模块,用以用于确保所有探测节点模块工作正常以及所有探测任务被正确执行完毕;配置模块,用于对系统部署环境进行配置。通过采用了以上的方案,本专利技术相对于现有技术而言,具有以下优点:通过本专利技术的基于域名区文件的网站数量判定方法和系统,能够使技术手段获取和判定网站数量可行,并降低执行成本,使网站数量判定高效,准确。在网站数量判定过程中,可以结合进行网站内容的基本识别和分析,能够识别网站所属地、停靠情况、重复情况、跳转情况。附图说明图1为本专利技术一实施例中一种基于域名区文件的网站数量判定系统的架构部署示意图。图2为本专利技术一实施例中一种基于域名区文件的网站数量判定方法实施的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述。如图1所示,在一实施例中所提供的基于域名区文件的网站数量判定系统,其包括:域名区文件获取与分析模块,探测任务生成模块,探测节点模块,任务控制模块,数据传输模块,监测模块,数据分析模块,配置模块及报告生成模块。下面结合附图对各模块的功能和关联介绍如下:域名区文件获取与分析模块,用于在协商或取得授权后,从各个域名注册局或ICANN(TheInternetCorporationforAssignedNamesandNumbers)官方网站获取各种TLD(Top-LevelDomain)的域名区文件,并从每个区文件中提取相应的全部域名信息,若域名信息非英文,则区文件中一定是已经进行过Punycode编码的内容。通过对区文件中权威记录进行处理,从而可获得相应TLD或全部TLD的域名列表,所为进一步网站探测工作的前提条件。例如,假设“test”这个TLD的区文件内容如下:test.86400insoaa0.test.afilias-nst.info.noc@abc.info.20112140281080036002764800900test.86400innsa0.test.afilias-nst.info.test.86400innsa2.test.afilias-nst.info.000.test.86400innsns1.000.test.ns1.000.test.86400ina3.22.7.4325live.test.86400innsnsb1.icmregistry.net.2600.test.86400innsns73.domaincontrol.com.2alarm.test.86400innsnsb2.icmregistry.net.2as.test.86400innsns1.onlydomains.com.xn--hoq754q..test.86400innsnsb1.icmregistry.net.则域名区文件获取与分析模块提取到的域名列表为:000.test25live.test2600.test2alarm.test2as.testxn--hoq754q..test(对应Punycode转码前的“企鹅.test”)探测任务生成模块,用于将域名信息列表转化为探测任务,任务内容包括域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测等内容。若某任务中域名列表长度较长则可进一步切割为多个子任务,比如通过配置限定每个任务的域名列表长度上限为2000,则一个有100万域名的TLD会对应生成500个子任务。探测节点模块,用于执行基本网站探测任务,包括从任务控制模块下载探测任务、本文档来自技高网...

【技术保护点】
1.一种基于域名区文件的网站数量判定方法,包括以下步骤:获取域名区文件,并从中提取域名信息列表;将所述域名信息列表转化为探测任务;执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;通过对所述探测数据统计和分析,获得探测结果。

【技术特征摘要】
1.一种基于域名区文件的网站数量判定方法,包括以下步骤:获取域名区文件,并从中提取域名信息列表;将所述域名信息列表转化为探测任务;执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;通过对所述探测数据统计和分析,获得探测结果。2.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述获取域名区文件,并从中提取域名信息列表包括:在协商或取得授权后,从各个域名注册局或ICANN官方网站获取各种TLD的域名区文件;并通过对各域名区文件中权威记录进行处理提取全部域名信息列表。3.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述探测任务的探测内容包括下列中的一种或多种:域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测。4.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述将所述域名信息列表转化为探测任务,若任务列表大于配置上限,则进行探测任务分解,将探测任务分割为探测子任务。5.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,执行探测任务获取探测数据包括:下载探测任务;从域名递归服务器探测域名主机对应IP地址和网站可达性;网站内容抓取;执行站内跳转探测任务;获取探测内容作为探测数据。6.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述通过对探测数据统计和分析,获得探测结果包括:通过分析探测数据,获取网站数量,并识别网站所属地、停靠情况、重复情况、跳转情况;获取最终分类探测结果。7.如权利要求6所述基于域名区文件的网站数量判定方法,其特征在于,网站所属地通过其对应IP地址所属地进行判断;停靠情况通过对应网...

【专利技术属性】
技术研发人员:肖建芳孙从友杨学卢剑鸣邓桂英王利军杨磊张立坤
申请(专利权)人:中国互联网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1