一种站点地域识别方法及系统技术方案

技术编号:16348918 阅读:30 留言:0更新日期:2017-10-03 23:23
本发明专利技术涉及一种站点地域识别方法及系统。该站点地域识别方法包括:根据待识别站点的域名获取待识别站点的IP地址;根据全球IP地址分配表建立IP地址与站点地域信息的映射表;查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。本发明专利技术通过获取到的待识别站点的IP地址查找IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息,避免了部分站点信息无法通过人工获取的缺陷,实现了自动识别站点地域,方便快捷。

【技术实现步骤摘要】
一种站点地域识别方法及系统
本专利技术涉及互联网
,尤其涉及一种站点地域识别方法及系统。
技术介绍
站点地域信息指的是一个站点的地域归属信息。作为站点的基础属性,地域信息对站点的抓取、分类、信息提取等多种应用具有重要价值。比如在网站抓取方面,通过对站点地域信息的获取,选择最优抓取节点抓取站点网页,可以大大提高抓取成功率和速度;在搜索引擎的网页排名中,站点地域信息也可以作为一个调权因子,使搜索的排序结果可以满足不同地域用户的精确需求。DNS是域名系统(DomainNameSystem)的缩写,是因特网的一项核心服务,可将域名转换成IP地址,这种将域名转换成IP地址的过程被称为域名解析。DNS服务使用户可方便地通过域名访问互联网,而无需记住枯燥难记的IP地址。现有的站点地域识别方法通过人工对站点的地域进行标注。但是互联网上的站点数量庞大,且持续增长,通过人工标注无法完成所有站点的地域识别,且大量的不知名站点的地域信息非人工能简单获取,因此,需要一种自动识别站点地域信息的方法,以满足站点数据处理的需要。
技术实现思路
本专利技术所要解决的技术问题是:如何提供一种自动识别站点地域的方法。为解决上述技术问题,本专利技术一方面提供一种站点地域识别方法,该方法包括:根据待识别站点的域名获取待识别站点的IP地址;根据全球IP地址分配表建立IP地址与站点地域信息的映射表;查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。可选地,在所述根据全球IP地址分配表建立IP地址与站点地域信息的映射表之前,还包括:获取全球IP地址分配表。可选地,所述根据待识别站点的域名获取待识别站点的IP地址,包括:采用DNS服务根据待识别站点的域名解析出待识别站点的IP地址。可选地,在所述根据全球IP地址分配表建立IP地址与站点地域信息的映射表之后,包括:根据所述IP地址建立所述映射表的索引;相应地,所述查找所述IP地址与站点地域信息的映射表,包括:采用二分法查找所述IP地址与站点地域信息的映射表。可选地,所述查找所述IP地址与站点地域信息的映射表包括:将所述IP地址与站点地域信息的映射表拆分成多个数据分片;利用多个计算节点分别读取相应的数据分片进行数据查找。本专利技术另一方面提供一种站点地域识别系统,该系统包括:IP地址获取单元,用于根据待识别站点的域名获取待识别站点的IP地址;映射表建立单元,用于根据全球IP地址分配表建立IP地址与站点地域信息的映射表;地域识别单元,用于查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。可选地,该系统还包括:IP地址分配表获取单元,用于获取全球IP地址分配表可选地,所述IP地址获取单元,进一步用于采用DNS服务根据待识别站点的域名解析出待识别站点的IP地址。可选地,该系统还包括:索引建立单元,用于根据所述IP地址建立所述映射表的索引;相应地,所述地域识别单元用于采用二分法查找所述IP地址与站点地域信息的映射表。可选地,所述地域识别单元包括:映射表拆分模块,用于将所述IP地址与站点地域信息的映射表拆分成多个数据分片;数据查找模块,用于利用多个计算节点分别读取相应的数据分片进行数据查找。本专利技术提供的站点地域识别方法及系统,通过获取到的待识别站点的IP地址查找IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息,避免了部分站点信息无法通过人工获取的缺陷,实现了自动识别站点地域,方便快捷。附图说明通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:图1示出了本专利技术一个实施例的站点地域识别方法的流程示意图;图2示出了本专利技术一个实施例的站点地域识别系统的结构示意图。具体实施方式下面将结合附图对本专利技术的实施例进行详细描述。图1是本专利技术一个实施例的站点地域识别方法的流程示意图。如图1所示,本实施例的站点地域识别方法包括:S11:根据待识别站点的域名获取待识别站点的IP地址;S12:根据全球IP地址分配表建立IP地址与站点地域信息的映射表;S13:查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。本实施例的站点地域识别方法,通过获取到的待识别站点的IP地址查找IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息,避免了部分站点信息无法通过人工获取的缺陷,实现了自动识别站点地域,方便快捷。在一种可选的实施方式中,在所述根据全球IP地址分配表建立IP地址与站点地域信息的映射表之前,还包括:获取全球IP地址分配表。在实际应用中,可以从全球IP地址分配委员会官方地址获取全球IP地址分配表,该全球IP地址分配表会定期更新。进一步地,所述根据待识别站点的域名获取待识别站点的IP地址,包括:采用DNS服务根据待识别站点的域名解析出待识别站点的IP地址。在实际应用中,采用DNS服务解析IP地址的过程为:客户端的发起包含有待解析域名的请求包,如果客户端缓存中没有该域名对应的IP地址,客户端会向本地DNS服务器发起DNS查询请求,如果本地DNS服务器仍旧没有该域名对应的IP地址,则本地DNS服务器会向递归服务器发起递归查询请求,递归服务器在接到递归查询请求后,会查看自己的缓存中是否有所查询的内容,若有,则直接响应本地DNS服务器,若缓存中没有,则由递归服务器向根服务器发起查询请求,根服务器向递归服务器发送该域名对应的权威服务器的地址,递归服务器接收到该权威服务器的地址后,会向该权威服务器发起查询请求,直至权威服务器向递归服务器返回该域名对应的IP地址,递归服务器将该IP地址反馈给客户端,完成了一次域名解析的过程。为了提高查找所述映射表的效率,在所述根据全球IP地址分配表建立IP地址与站点地域信息的映射表之后,包括:根据所述IP地址建立所述映射表的索引;相应地,所述查找所述IP地址与站点地域信息的映射表,包括:采用二分法查找所述IP地址与站点地域信息的映射表。进一步地,所述查找所述IP地址与站点地域信息的映射表包括:将所述IP地址与站点地域信息的映射表拆分成多个数据分片;利用多个计算节点分别读取相应的数据分片进行数据查找。需要说明的是,将映射表拆分成多个数据分片,利用多个计算节点进行并行查找也提高了查找映射表的效率。本实施例的站点地域识别方法实现了自动、高效识别站点地域。图2示出了本专利技术一个实施例的站点地域识别系统的结构示意图。如图2所示,本实施例的站点地域识别系统包括:IP地址获取单元21,用于根据待识别站点的域名获取待识别站点的IP地址;映射表建立单元22,用于根据全球IP地址分配表建立IP地址与站点地域信息的映射表;地域识别单元23,用于查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。在一种可选的实施方式中,该系统还包括:IP地址分配表获取单元,用于获取全球IP地址分配表IP地址获取单元31,进一步用于采用DNS服务根据待识别站点的域名解析出待识别站点的IP地址。进一步地,该系统还包括:索引建立单元,用于根据所述IP地址建立所述映射表的索引;相应地,地域识别单元23本文档来自技高网...
一种站点地域识别方法及系统

【技术保护点】
一种站点地域识别方法,其特征在于,包括:根据待识别站点的域名获取待识别站点的IP地址;根据全球IP地址分配表建立IP地址与站点地域信息的映射表;查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。

【技术特征摘要】
1.一种站点地域识别方法,其特征在于,包括:根据待识别站点的域名获取待识别站点的IP地址;根据全球IP地址分配表建立IP地址与站点地域信息的映射表;查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。2.根据权利要求1所述的站点地域识别方法,其特征在于,在所述根据全球IP地址分配表建立IP地址与站点地域信息的映射表之前,还包括:获取全球IP地址分配表。3.根据权利要求1所述的站点地域识别方法,其特征在于,所述根据待识别站点的域名获取待识别站点的IP地址,包括:采用DNS服务根据待识别站点的域名解析出待识别站点的IP地址。4.根据权利要求1所述的站点地域识别方法,其特征在于,在所述根据全球IP地址分配表建立IP地址与站点地域信息的映射表之后,包括:根据所述IP地址建立所述映射表的索引;相应地,所述查找所述IP地址与站点地域信息的映射表,包括:采用二分法查找所述IP地址与站点地域信息的映射表。5.根据权利要求1所述的站点地域识别方法,其特征在于,所述查找所述IP地址与站点地域信息的映射表包括:将所述IP地址与站点地域信息的映射表拆分成多个数据分片;利用多个计算节点分...

【专利技术属性】
技术研发人员:曹六一张丹杨建武
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1