一种网络爬虫的域名解析缓冲方法技术

技术编号：32579416 阅读：12 留言：0更新日期：2022-03-09 17:09

本发明专利技术提供一种网络爬虫的域名解析缓冲方法，属于数据处理技术领域，本发明专利技术在深入分析操作系统和JVM的域名解析工作机制基础上，结合分布式爬虫的并行化与任务多节点均匀化等特点，采用正向和负向双缓存方式，为2个缓存分别设计采用了特定的数据结构和过期策略。实验表明，该方法可以有效提升域名解析性能，同时降低各爬虫节点的内存占用和域名解析请求对网络带宽的影响，提升了分布式爬虫的整体性能。能。能。

全部详细技术资料下载

【技术实现步骤摘要】
一种网络爬虫的域名解析缓冲方法

[0001]本专利技术涉及数据处理
，尤其涉及一种网络爬虫的域名解析缓冲方法。

技术介绍

[0002]搜索引擎是目前从互联网获取信息的最有效方式。分布式爬虫作为搜索引擎的基础，得到了广泛的研究与应用，其通常由URL分析器、DNS缓存、速率控制等多个组件构成。爬虫在抓取网页时，需要使用DNS(DomainNameService)将目标主机的域名转换为IP地址。研究表明，这一环节是爬虫的主要性能瓶颈之一。
[0003]国内外对单机爬虫的策略、性能等各方面已进行了深入研究，对分布式爬虫的研究主要集中在任务调度、资源分配等爬虫策略方面，对分布式爬虫性能问题的研究尚不多见。
[0004]JVM的域名缓存方法
[0005]1缓存策略
[0006]编写网络应用程序时，通常使用InetAddress类来完成此功能，此时，DNS缓存由JVM的缓存策略控制，当使用InetAddress类第1次成功解析某个域名(如www.google.com)后，JVM就会将这个域名和它从DNS上获得的信息(IP地址和TTL等)都保存在缓存中，当下一次InetAddress类再解析这个域名时，就直接从缓存里获得所需的信息，而无需再访问DNS服务器；对解析错误的域名，InetAddress提供了负向缓存(NegativeCache)机制，但默认为不缓存。使用InetAddress域名解析后，操作系统也会将此记录进行缓存，JVM下次调用域名解析时，会利用操作系统的缓存。操作系统的缓存时间会...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫的域名解析缓冲方法，其特征在于，在深入分析操作系统和JVM的域名解析工作机制基础上，结合分布式爬虫的并行化与任务多节点均匀化的特点，采用正向和负向双缓存方式，为2个缓存分别设计采用了数据结构和过期策略。2.根据权利要求1所述的方法，其特征在于，正向缓存采用紧凑的二进制键值元组BCTuple(BinaryCompactTuple)来存储成功解析的域名。3.根据权利要求1所述的方法，其特征在于，负向缓存采用数据结构来存储未成功解析的域名。4.根据权利要求2所述的方法，其特征在于，正向缓存采用数据结构BCTuple(BinaryCompactTuple){Hash一12(TLD)+Murmur3—32((SLD)+Murmur332(全域名一SLD.TLD))，IP，1TrL}来存储解析成功的域名，其中，IP使用整数形式存储，IPV4地址为32位，IPV6地址为128位；rITllL以分钟为单位，采用16位的短整数形式存储。5.根据权利要求4所述的方法，其特征在于，Hash一12函数预先将所有...

【专利技术属性】
技术研发人员：李涛，孙思清，孙兴艳，
申请(专利权)人：浪潮云信息技术股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人