一种对网络采集的域名数据进行筛选的方法及设备技术

技术编号:16367777 阅读:35 留言:0更新日期:2017-10-13 09:25
本发明专利技术公开一种对网络采集的域名数据进行筛选的方法及设备,所述方法包括:从网络中获取至少包含域名与IP地址的对应关系的域名数据;对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:剔除包含异常噪音域名的域名数据;剔除包含需进行IP纠错的域名的域名数据;剔除包含恶意泛域名的域名数据;剔除包含不存在的域名的域名数据;剔除包含不存活域名的域名数据;保留包含属于指定地域的IP地址的域名数据。实现了通过网络采集流量数据获得准确的域名数据。

Method and equipment for screening domain name data collected by network

Equipment and methods for screening the invention discloses a domain name to network data acquisition, the method includes: domain name data acquiring corresponding relation contains at least a domain name and IP address from the network; the domain name data were selected and stored by domain name data, screening, screening including at least one of the following steps a: the domain name contains the domain name data to eliminate abnormal noise; eliminating the need for domain name data IP correct domain name domain name; remove data contain malicious pan domain; eliminating the absence of domain name and the domain name data; data not removed include domain name domain name domain name data retention survival; contains the IP address of the designated area. The accurate data of domain name is acquired by collecting the traffic data through the network.

【技术实现步骤摘要】

本专利技术涉及计算机网络的数据处理领域。更具体地,本专利技术涉及一种对网络采集的域名数据进行筛选的方法及设备
技术介绍
网络上的域名与IP地址之间存在对应关系,使用域名是为了方便人们记忆,但机器之间的通信却需要IP地址,将域名转换为IP地址的工作是由域名系统(DNS)中的解析服务器完成的。目前,从DNS流量数据中采集域名数据已成为通过互联网进行数据统计和分析的一种重要方法。从海量互联网数据中选择合适的域名数据源,并且形成域名基准表是一项非常有意义的工作,而且,从DNS流量数据中采集的域名数据也最全面。对DNS流量数据进行采集的主要方式是,在DNS解析服务器处部署节点服务器,并且对经由DNS解析服务器的全部域名解析IP进行采集,从而获取域名数据。此外,除了从DNS流量数据中采集域名IP关系数据外,使用EU(ExecutionUnit,执行单元)设备也能够获取域名和IP的对应关系。通过在运营商企业处部署EU采集设备,EU设备将采集通过该运营商的全部httpget请求和httpsget请求,将请求的域名和IP的对应关系以及域名的存活状态记录;通过这部分数据可以获取域名和IP的对应关系,并对域名的存活状态进行划分。然而,由于DNS在设计上存在某些缺陷,使得不法用户能够利用这些缺陷向DNS发起攻击,攻击类型主要包括:直接在域名数据库中修改域名对应的IP地址;通过获取DNS请求包中的序列ID并发送添加了错误信息的应答包而进行DNS欺骗;利用IP欺骗等方法恶意修改DNS解析服务器的缓存中的域名和IP的映射信息。EU采集的活跃流量数据,由于采集范围小,仅能获取通过当前运营商机房的流量数据,因此数据覆盖度较差,并且活跃数据由于采集的是网络中全部经由机房的请求数据,未经区分,存在大量的噪音数据。而DNS流量数据由于存在前述恶意攻击行为,其中采集到的域名数据中也存在大量的噪音数据,这些噪音数据的形式主要包括:1.异常噪音域名:包括非法域名、IP格式域名、IP端口格式域名等。2.需进行IP纠错的域名:拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名。3.恶意泛域名:不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名。4.不存在的域名:无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名,这部分数据同样能被节点服务器提取,但是这部分域名数据并不存在。5.不存活域名,对于无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不在合理范围内的域名。6.域名地域范围混乱,从DNS流量数据中采集到的域名数据的接入IP地址可能是应分配给世界上的其它地理位置的IP地址,这对于针对某一特定地点生成域名基准表来说是极大的不准确因素。如果不对带有噪音数据的这些DNS流量数据进行筛选,那么最终获得的域名数据就会带有这些噪音数据,例如,会增加进行DNS查询所需要的时间,从而无法直接使用。因此,至少需要提出一种技术方案,对网络采集的域名数据进行筛选。
技术实现思路
本专利技术的目的是通过以下技术方案实现的。根据本专利技术的对网络采集的域名数据进行筛选的方法,包括:步骤1:从网络中获取至少包含域名与IP地址的对应关系的域名数据;步骤2:对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:步骤2-1:剔除包含异常噪音域名的域名数据,异常噪音域名至少包括非法域名、IP格式域名、IP端口格式域名;步骤2-2:剔除包含需进行IP纠错的域名的域名数据,需进行IP纠错的域名为拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名;步骤2-3:剔除包含恶意泛域名的域名数据,恶意泛域名为不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名;步骤2-4:剔除包含不存在的域名的域名数据,不存在的域名为无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名;步骤2-5:剔除包含不存活域名的域名数据,不存活域名为无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不正确的域名;步骤2-6:保留包含属于指定地域的IP地址的域名数据。根据本专利技术的对网络采集的域名数据进行筛选的方法,在其步骤1之前还包括:步骤3:在网络中的DNS服务器节点部署能够获取包含(源IP地址,源端口号,解析目标IP地址,端口号,CNAME)的五元组数据的检测设备,以及/或者在网络中部署能够获取包含(域名,源IP,目的IP)的活跃数据的EU采集设备。根据本专利技术的对网络采集的域名数据进行筛选的方法,在其步骤2之后还包括:步骤4:将从人工上报IP地址库或第三方IP地址库和第三方接口查询中获得的域名的地域或归属地属性添加到域名数据中。根据本专利技术的对网络采集的域名数据进行筛选的方法,其步骤2-3包括:步骤2-3-1:针对域名选择下列各项中的至少一项进行统计,并且为所选各项分配权重:短时间内产生的域名的数量、域名访问时间的集中程度与域名访问量的比值、域名访问中的源IP地址的重复数量、该域名的网站返回的内容的一致性、该域名的网站返回空内容的比率;步骤2-3-2:将所选各项的加权值的求和结果大于设定阈值的域名确定为恶意泛域名,并且剔除包含该恶意泛域名的域名数据。结合对网络采集的域名数据进行筛选的上述方法,本专利技术还提出了一种对网络采集的域名数据进行筛选的设备,包括存储器、一个或多个处理器;以及,一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,以完成对网络采集的域名数据进行筛选的上述方法中的步骤。结合对网络采集的域名数据进行筛选的上述方法,本专利技术还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行以完成对网络采集的域名数据进行筛选的上述方法中的步骤。本专利技术的优点在于:可以对网络采集的域名数据进行筛选,从而剔除了通过DNS流量数据获得的域名数据中的诸如恶意泛域名数据的噪音数据,能够有效的提升域名数据的质量。实现了通过DNS流量数据获得准确的域名数据。附图说明通过阅读下文具体实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术实施方式的对网络采集的域名数据进行筛选的方法的示意图。图2示出了根据本专利技术实施方式的对网络采集的域名数据进行筛选的方法可以包括的示例步骤的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术实施方式的对网络采集的域名数据进行筛选的方法100的示意图。如图1所示,对网络采集的域名数据进行筛选的方法100包括以下步骤:本文档来自技高网
...
一种对网络采集的域名数据进行筛选的方法及设备

【技术保护点】
一种对网络采集的域名数据进行筛选的方法,其特征在于,包括:步骤1:从网络中获取至少包含域名与IP地址的对应关系的域名数据;步骤2:对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:步骤2‑1:剔除包含异常噪音域名的域名数据,异常噪音域名至少包括非法域名、IP格式域名、IP端口格式域名;步骤2‑2:剔除包含需进行IP纠错的域名的域名数据,需进行IP纠错的域名为拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名;步骤2‑3:剔除包含恶意泛域名的域名数据,恶意泛域名为不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名;步骤2‑4:剔除包含不存在的域名的域名数据,不存在的域名为无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名;步骤2‑5:剔除包含不存活域名的域名数据,不存活域名为无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不正确的域名;步骤2‑6:保留包含属于指定地域的IP地址的域名数据。

【技术特征摘要】
1.一种对网络采集的域名数据进行筛选的方法,其特征在于,包括:步骤1:从网络中获取至少包含域名与IP地址的对应关系的域名数据;步骤2:对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:步骤2-1:剔除包含异常噪音域名的域名数据,异常噪音域名至少包括非法域名、IP格式域名、IP端口格式域名;步骤2-2:剔除包含需进行IP纠错的域名的域名数据,需进行IP纠错的域名为拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名;步骤2-3:剔除包含恶意泛域名的域名数据,恶意泛域名为不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名;步骤2-4:剔除包含不存在的域名的域名数据,不存在的域名为无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名;步骤2-5:剔除包含不存活域名的域名数据,不存活域名为无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不正确的域名;步骤2-6:保留包含属于指定地域的IP地址的域名数据。2.根据权利要求1所述的对网络采集的域名数据进行筛选的方法,其特征在于,在步骤1之前还包括:步骤3:在网络中的DNS服务器节点部署能够获取包含(源IP地址,源端口号,解析目标IP地址,端口号,CNAME)的五元...

【专利技术属性】
技术研发人员:陈维王钟彭浩勇贾士杨罗干廖艳云易永波林飞毛俊赵喜荣
申请(专利权)人:北京亚鸿世纪科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1