Equipment and methods for screening the invention discloses a domain name to network data acquisition, the method includes: domain name data acquiring corresponding relation contains at least a domain name and IP address from the network; the domain name data were selected and stored by domain name data, screening, screening including at least one of the following steps a: the domain name contains the domain name data to eliminate abnormal noise; eliminating the need for domain name data IP correct domain name domain name; remove data contain malicious pan domain; eliminating the absence of domain name and the domain name data; data not removed include domain name domain name domain name data retention survival; contains the IP address of the designated area. The accurate data of domain name is acquired by collecting the traffic data through the network.
【技术实现步骤摘要】
本专利技术涉及计算机网络的数据处理领域。更具体地,本专利技术涉及一种对网络采集的域名数据进行筛选的方法及设备。
技术介绍
网络上的域名与IP地址之间存在对应关系,使用域名是为了方便人们记忆,但机器之间的通信却需要IP地址,将域名转换为IP地址的工作是由域名系统(DNS)中的解析服务器完成的。目前,从DNS流量数据中采集域名数据已成为通过互联网进行数据统计和分析的一种重要方法。从海量互联网数据中选择合适的域名数据源,并且形成域名基准表是一项非常有意义的工作,而且,从DNS流量数据中采集的域名数据也最全面。对DNS流量数据进行采集的主要方式是,在DNS解析服务器处部署节点服务器,并且对经由DNS解析服务器的全部域名解析IP进行采集,从而获取域名数据。此外,除了从DNS流量数据中采集域名IP关系数据外,使用EU(ExecutionUnit,执行单元)设备也能够获取域名和IP的对应关系。通过在运营商企业处部署EU采集设备,EU设备将采集通过该运营商的全部httpget请求和httpsget请求,将请求的域名和IP的对应关系以及域名的存活状态记录;通过这部分数据可以获取域名和IP的对应关系,并对域名的存活状态进行划分。然而,由于DNS在设计上存在某些缺陷,使得不法用户能够利用这些缺陷向DNS发起攻击,攻击类型主要包括:直接在域名数据库中修改域名对应的IP地址;通过获取DNS请求包中的序列ID并发送添加了错误信息的应答包而进行DNS欺骗;利用IP欺骗等方法恶意修改DNS解析服务器的缓存中的域名和IP的映射信息。EU采集的活跃流量数据,由于采集范围小,仅能获取通过当前 ...
【技术保护点】
一种对网络采集的域名数据进行筛选的方法,其特征在于,包括:步骤1:从网络中获取至少包含域名与IP地址的对应关系的域名数据;步骤2:对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:步骤2‑1:剔除包含异常噪音域名的域名数据,异常噪音域名至少包括非法域名、IP格式域名、IP端口格式域名;步骤2‑2:剔除包含需进行IP纠错的域名的域名数据,需进行IP纠错的域名为拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名;步骤2‑3:剔除包含恶意泛域名的域名数据,恶意泛域名为不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名;步骤2‑4:剔除包含不存在的域名的域名数据,不存在的域名为无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名;步骤2‑5:剔除包含不存活域名的域名数据,不存活域名为无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不正确的域名;步骤2‑6:保留包含属于指定地域的IP地址的域名数据。
【技术特征摘要】
1.一种对网络采集的域名数据进行筛选的方法,其特征在于,包括:步骤1:从网络中获取至少包含域名与IP地址的对应关系的域名数据;步骤2:对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:步骤2-1:剔除包含异常噪音域名的域名数据,异常噪音域名至少包括非法域名、IP格式域名、IP端口格式域名;步骤2-2:剔除包含需进行IP纠错的域名的域名数据,需进行IP纠错的域名为拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名;步骤2-3:剔除包含恶意泛域名的域名数据,恶意泛域名为不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名;步骤2-4:剔除包含不存在的域名的域名数据,不存在的域名为无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名;步骤2-5:剔除包含不存活域名的域名数据,不存活域名为无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不正确的域名;步骤2-6:保留包含属于指定地域的IP地址的域名数据。2.根据权利要求1所述的对网络采集的域名数据进行筛选的方法,其特征在于,在步骤1之前还包括:步骤3:在网络中的DNS服务器节点部署能够获取包含(源IP地址,源端口号,解析目标IP地址,端口号,CNAME)的五元...
【专利技术属性】
技术研发人员:陈维,王钟,彭浩勇,贾士杨,罗干,廖艳云,易永波,林飞,毛俊,赵喜荣,
申请(专利权)人:北京亚鸿世纪科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。