【技术实现步骤摘要】
域名获取方法、装置、电子设备及存储介质
本申请涉及互联网
,具体而言,涉及一种域名获取方法、装置、电子设备及存储介质。
技术介绍
随着互联网的迅速发展,越来越多的用户通过域名或者统一资源定位符等网络地址进行网站访问,而收集某一网络地址中的可达域名或者统一资源定位符,收集域名之间的层次关系,对网络信息普查、站点监控等工作具有十分重要的作用。但是域名名称的定义十分宽泛,要完整地收集一个网络地址中可访问的域名或统一资源定位符是十分困难的,现有技术通常通过字典序的方式自动生成域名或统一资源定位符,然后去尝试该域名或统一资源定位符是否可达,如果可达则保存该域名或统一资源定位符,这种方式效率较低、站点可达率低,且无法准确获取各域名或统一资源定位符之间的层次关系。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种域名获取方法、装置、电子设备及存储介质,以改善现有技术中存在的域名获取效率较低、站点可达率低,且无法准确获取各域名或统一资源定位符之间的层次关系问题。本申请实施例提供了一种域名获取方 ...
【技术保护点】
1.一种域名获取方法,其特征在于,所述方法包括:/na.对输入地址进行解析,获得输入三级域名,所述输入三级域名中包含输入二级域名,所述输入地址包括域名或输入统一资源定位符URL;/nb.对所述输入三级域名进行爬取,获得超级文本标记语言HTML数据;/nc.从所述HTML数据中的超文本引用数据中提取出提取URL;/nd.对所述提取URL进行解析,获得提取三级域名,所述提取三级域名中包含提取二级域名;/ne.在所述提取二级域名与所述输入二级域名相同,所述提取三级域名与所述输入三级域名不同时,将所述提取三级域名作为所述输入二级域名的子域名进行保存,以所述提取三级域名作为所述输入三 ...
【技术特征摘要】
1.一种域名获取方法,其特征在于,所述方法包括:
a.对输入地址进行解析,获得输入三级域名,所述输入三级域名中包含输入二级域名,所述输入地址包括域名或输入统一资源定位符URL;
b.对所述输入三级域名进行爬取,获得超级文本标记语言HTML数据;
c.从所述HTML数据中的超文本引用数据中提取出提取URL;
d.对所述提取URL进行解析,获得提取三级域名,所述提取三级域名中包含提取二级域名;
e.在所述提取二级域名与所述输入二级域名相同,所述提取三级域名与所述输入三级域名不同时,将所述提取三级域名作为所述输入二级域名的子域名进行保存,以所述提取三级域名作为所述输入三级域名再次执行所述步骤b至所述步骤e。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
f.在所述提取二级域名与所述输入二级域名不同时,保存所述提取二级域名,以所述提取三级域名作为所述输入三级域名再次执行所述步骤b至所述步骤e或步骤f。
3.根据权利要求1所述的域名获取方法,其特征在于,所述对输入地址进行解析,获得输入三级域名,包括:
采用pythonurllib库对所述输入地址进行解析,获得所述输入三级域名。
4.根据权利要求1所述的方法,其特征在于,在所述对所述输入三级域名进行爬取,获得超级文本标记语言HTML数据之前,所述方法还包括:
基于所述输入三级域名的返回状态码确定所述输入三级域名的可达状态;
在所述输入三级域名的可达状态为可达时,执行所述对所述输入三级域名进行爬取,获得HTML数据。
5.根据权利要求3所述的域名获取方法,其特征在于,在所述基于所述输入三级域名的返回状态码确定所述输入三级域名的可达状态之前,所述方法还包括:
采用pythonurllib库解析所述输入三级域名的传输协议类型。
6.根据权利...
【专利技术属性】
技术研发人员:王亮,
申请(专利权)人:北京知道创宇信息技术股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。