当前位置: 首页 > 专利查询>鹏城实验室专利>正文

获取热点域名描述信息的方法、装置、设备及存储介质制造方法及图纸

技术编号:28420353 阅读:18 留言:0更新日期:2021-05-11 18:27
本发明专利技术属于互联网技术领域,公开了一种获取热点域名描述信息的方法、装置、设备及存储介质。该方法包括:获取预设时间粒度的若干热点域名;对若干热点域名进行筛选,得到筛选后的待处理域名;根据待处理域名的顶级域进行分组,得到待爬取列表,待爬取列表中包含顶级域以及对应的域名列表;遍历待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;将描述信息作为域名列表中各待处理域名对应的描述信息。通过上述方式,对热点域名进行筛选以及分组,对待处理域名的顶级域进行爬取,将爬取到的顶级域的描述信息作为对应分组内各待处理域名的描述信息,从而大大减少了海量热点域名的爬虫数量,减少了整体爬虫时间,提高了爬虫速度。

【技术实现步骤摘要】
获取热点域名描述信息的方法、装置、设备及存储介质
本专利技术涉及互联网
,尤其涉及一种获取热点域名描述信息的方法、装置、设备及存储介质。
技术介绍
域名是互联网中的重要资源,是实现互联网服务获取和资源访问的核心功能,几乎所有互联网应用的正常运行都离不开域名系统(英文:DomainNameSystem,DNS)的支持。DNS是全球互联网服务的基石,是互连网络通信的重要保障。DNS服务器上每天会产生大量的资源访问记录,对其中的域名数据,通过访问量排序,筛选出每天的热点域名。将热点域名及通过爬虫获取到的热点域名描述信息通过一定的属性映射,保存到数据库中。这些海量域名描述信息数据可以方便后续进行语义分析、恶意域名检测、钓鱼网站检测和黄赌毒网站分析等场景。现有爬虫方式,通常是使用Scrapy、PySpider等框架和BeautifulSoup等网页分析工具进行爬虫。无论是爬虫框架还是BeautifulSoup网页分析工具,都是只使用一种方式,遍历式请求待爬虫url,当面对海量热点域名数据需要进行爬虫处理时,即使使用多线程或者多进程,也会出现爬虫的成功率低以及爬虫速度慢等问题。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种获取热点域名描述信息的方法、装置、设备及存储介质,旨在解决当面对海量热点域名数据需要进行爬虫处理时,存在爬虫速度慢的技术问题。为实现上述目的,本专利技术提供了一种获取热点域名描述信息的方法,所述方法包括以下步骤:获取预设时间粒度的若干热点域名;对所述若干热点域名进行筛选,得到筛选后的待处理域名;根据所述待处理域名的顶级域进行分组,得到待爬取列表,所述待爬取列表中包含所述顶级域以及对应的域名列表;遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;将所述描述信息作为所述域名列表中各待处理域名对应的描述信息。可选地,遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息,包括:遍历所述待爬取列表,根据预设优先级顺序调用第一爬取策略,根据所述第一爬取策略对遍历到的顶级域进行爬取;在未爬取到对应的描述信息时,根据所述预设优先级顺序调用第二爬取策略,根据所述第二爬取策略对遍历到的顶级域进行爬取,以获取对应的描述信息。可选地,根据所述待处理域名的顶级域进行分组,得到待爬取列表,包括:通过顶级域名提取策略分割出所述待处理域名对应的主机名和顶级域名;将所述主机名和所述顶级域名通过字符拼接组成顶级域字段值;根据所述顶级域字段值对所述待处理域名进行分组,确定所述顶级域字段值对应的域名列表;根据所述顶级域字段值以及所述域名列表构成待爬取列表。可选地,所述根据所述顶级域字段值以及所述域名列表构成待爬取列表,包括:将所述顶级域字段值以及所述域名列表以键值对的形式组成字典对象;通过预设数据格式转换策略将所述字典对象转换为待爬取列表中的元组,以构成待爬取列表。可选地,所述将所述描述信息作为所述域名列表中各待处理域名对应的描述信息之后,所述方法还包括:根据所述待处理域名以及所述描述信息确定预设字段值;通过预设批量写入策略将所述预设字段值写入预设数据库,其中,所述预设字段值至少包括:起始域名、顶级域、爬虫标志位、域名描述、域名标题、结果代码、域名标识以及域名分类。可选地,所述通过预设批量写入策略将所述预设字段值写入预设数据库之前,所述方法还包括:在获取到所述描述信息时,将所述域名列表中各待处理域名对应的爬虫标志位字段值设置为预设爬虫成功标志。可选地,所述对所述若干热点域名进行筛选,得到筛选后的待处理域名,包括:遍历所述若干热点域名,将遍历到的目标热点域名与预设数据库进行匹配;在匹配到所述目标热点域名时,确定所述预设数据库中所述目标热点域名对应的爬虫标志位;在所述爬虫标志位为预设爬虫成功标志时,将所述目标热点域名筛除,以得到筛选后的待处理域名。此外,为实现上述目的,本专利技术还提出一种获取热点域名描述信息的装置,所述获取热点域名描述信息的装置包括:获取模块,用于获取预设时间粒度的若干热点域名;筛选模块,用于对所述若干热点域名进行筛选,得到筛选后的待处理域名;分组模块,用于根据所述待处理域名的顶级域进行分组,得到待爬取列表,所述待爬取列表中包含所述顶级域以及对应的域名列表;爬取模块,用于遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;写入模块,用于将所述描述信息作为所述域名列表中各待处理域名对应的描述信息。此外,为实现上述目的,本专利技术还提出一种获取热点域名描述信息的设备,所述获取热点域名描述信息的设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的获取热点域名描述信息的程序,所述获取热点域名描述信息的程序配置为实现如上文所述的获取热点域名描述信息的方法的步骤。此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有获取热点域名描述信息的程序,所述获取热点域名描述信息的程序被处理器执行时实现如上文所述的获取热点域名描述信息的方法的步骤。本专利技术通过获取预设时间粒度的若干热点域名;对若干热点域名进行筛选,得到筛选后的待处理域名;根据待处理域名的顶级域进行分组,得到待爬取列表,待爬取列表中包含顶级域以及对应的域名列表;遍历待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;将描述信息作为域名列表中各待处理域名对应的描述信息。通过上述方式,对海量热点域名进行筛选以及分组,得到顶级域对应域名列表形式的待爬取列表,针对同一域名列表中的各待处理域名,只需爬取该域名列表对应的顶级域的描述信息,将该顶级域的描述信息作为该域名列表中各待处理域名对应的描述信息,对整个待爬取列表进行爬取,得到海量热点域名对应的描述信息,从而大大减少了海量热点域名的爬虫数量,减少了整体爬虫时间,提高了爬虫速度。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的获取热点域名描述信息的设备的结构示意图;图2为本专利技术获取热点域名描述信息的方法第一实施例的流程示意图;图3为本专利技术获取热点域名描述信息的方法第二实施例的流程示意图;图4为本专利技术获取热点域名描述信息的方法第三实施例的流程示意图;图5为本专利技术获取热点域名描述信息的方法一实施例的获取描述信息流程示意图;图6为本专利技术获取热点域名描述信息的装置第一实施例的结构框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。参照图1,图1为本专利技术实施例方案涉及的硬件运行环境的获取热点域名描述信息的设备结构示意图。如图1所示,该获取热本文档来自技高网...

【技术保护点】
1.一种获取热点域名描述信息的方法,其特征在于,所述获取热点域名描述信息的方法包括:/n获取预设时间粒度的若干热点域名;/n对所述若干热点域名进行筛选,得到筛选后的待处理域名;/n根据所述待处理域名的顶级域进行分组,得到待爬取列表,所述待爬取列表中包含所述顶级域以及对应的域名列表;/n遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;/n将所述描述信息作为所述域名列表中各待处理域名对应的描述信息。/n

【技术特征摘要】
1.一种获取热点域名描述信息的方法,其特征在于,所述获取热点域名描述信息的方法包括:
获取预设时间粒度的若干热点域名;
对所述若干热点域名进行筛选,得到筛选后的待处理域名;
根据所述待处理域名的顶级域进行分组,得到待爬取列表,所述待爬取列表中包含所述顶级域以及对应的域名列表;
遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息;
将所述描述信息作为所述域名列表中各待处理域名对应的描述信息。


2.如权利要求1所述的获取热点域名描述信息的方法,其特征在于,遍历所述待爬取列表,对遍历到的顶级域进行爬取,得到对应的描述信息,包括:
遍历所述待爬取列表,根据预设优先级顺序调用第一爬取策略,根据所述第一爬取策略对遍历到的顶级域进行爬取;
在未爬取到对应的描述信息时,根据所述预设优先级顺序调用第二爬取策略,根据所述第二爬取策略对遍历到的顶级域进行爬取,以获取对应的描述信息。


3.如权利要求1所述的获取热点域名描述信息的方法,其特征在于,根据所述待处理域名的顶级域进行分组,得到待爬取列表,包括:
通过顶级域名提取策略分割出所述待处理域名对应的主机名和顶级域名;
将所述主机名和所述顶级域名通过字符拼接组成顶级域字段值;
根据所述顶级域字段值对所述待处理域名进行分组,确定所述顶级域字段值对应的域名列表;
根据所述顶级域字段值以及所述域名列表构成待爬取列表。


4.如权利要求3所述的获取热点域名描述信息的方法,其特征在于,所述根据所述顶级域字段值以及所述域名列表构成待爬取列表,包括:
将所述顶级域字段值以及所述域名列表以键值对的形式组成字典对象;
通过预设数据格式转换策略将所述字典对象转换为待爬取列表中的元组,以构成待爬取列表。


5.如权利要求1所述的获取热点域名描述信息的方法,其特征在于,所述将所述描述信息作为所述域名列表中各待处理域名对应的描述信息之后,所述方法还包括:
根据所述待处理域名以及所述描述信息确定预设字段值;
通过预设批量写入策略将所...

【专利技术属性】
技术研发人员:霍鹏磊张伟哲张宾董国忠刘鹏辉
申请(专利权)人:鹏城实验室
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1