The invention discloses a method to weight the web address, the method comprises the following steps: read a pending page address, to search for the improved generalized list page address to be processed; if the improved generalized list did not find the web address to be processed, the processing to be inserted into the web page address the improved generalized list, and the pending \to grab the address in the queue; if the improvement in generalized list to search the web page address to be processed, then stop the pending page address in the queue to crawl. The invention can improve the efficiency of the web address.
【技术实现步骤摘要】
网页地址去重方法、电子设备及计算机可读存储介质
本专利技术涉及计算机信息
,尤其涉及一种网页地址去重方法、电子设备及计算机可读存储介质。
技术介绍
目前,网络爬虫常用的URL去重方案有基于数据库的去重方案和基于内存链表的去重方案,这些方案在URL库容量不大的情况下有不错的效果。但是,现有的分布式爬虫面向的URL库容量通常非常大,需要URL去重能够持久保持高效运作,而上述常用的URL去重方案在爬虫程序运行较长时间后会有效率剧降或任务瘫痪的风险。故,现有技术中的URL去重方法设计不够合理,亟需改进。
技术实现思路
有鉴于此,本专利技术提出一种网页地址去重方法、电子设备及计算机可读存储介质,通过采用基于内存改进的广义表进行URL去重作业,在时间效率上大大优于传统的URL去重方案。首先,为实现上述目的,本专利技术提出一种电子设备,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页地址去重系统,所述网页地址去重系统被所述处理器执行时实现如下步骤:依次读取一条待处理网页地址,于改进广义表中搜索该待处理网页地址,其中,所述改进广义表中的每个节点权重相同,且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位;若所述改进广义表中没有搜索到该待处理网页地址,则将该待处理网页地址插入至所述改进广义表,并将该待处理网页地址存入待抓取队列;及若所述改进广义表中搜索到该待处理网页地址,则停止将该待处理网页地址存入待抓取队列。优选地,所述标志位包括第一数值和第二数值;如果检测到当前节点的标志位为第一数值,则确定该当前节点为根节点,从该当前节 ...
【技术保护点】
一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页地址去重系统,所述网页地址去重系统被所述处理器执行时实现如下步骤:依次读取一条待处理网页地址,于改进广义表中搜索该待处理网页地址,其中,所述改进广义表中的每个节点权重相同,且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位;若所述改进广义表中没有搜索到该待处理网页地址,则将该待处理网页地址插入至所述改进广义表,并将该待处理网页地址存入待抓取队列;及若所述改进广义表中搜索到该待处理网页地址,则停止将该待处理网页地址存入待抓取队列。
【技术特征摘要】
1.一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页地址去重系统,所述网页地址去重系统被所述处理器执行时实现如下步骤:依次读取一条待处理网页地址,于改进广义表中搜索该待处理网页地址,其中,所述改进广义表中的每个节点权重相同,且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位;若所述改进广义表中没有搜索到该待处理网页地址,则将该待处理网页地址插入至所述改进广义表,并将该待处理网页地址存入待抓取队列;及若所述改进广义表中搜索到该待处理网页地址,则停止将该待处理网页地址存入待抓取队列。2.如权利要求1所述的电子设备,其特征在于,所述标志位包括第一数值和第二数值;如果检测到当前节点的标志位为第一数值,则确定该当前节点为根节点,从该当前节点开始遍历,确定为动态插入操作的出发节点;及如果检测到当前节点的标志位为第二数值,则确定该当前节点不是根节点,继续遍历下一个节点。3.如权利要求2所述的电子设备,其特征在于,若所述改进广义表的当前节点为根节点,则该当前节点的数据结构包括指针初始化操作和第一构造函数,该第一构造函数在该当前节点的新建节点对象没有传递指定参数时,默认将该新建节点对象的数据域属性设置为指定字符。4.如权利要求2所述的电子设备,其特征在于,若所述改进广义表的当前节点为非根节点,则该当前节点的数据结构包括指针初始化操作和第二构造函数,该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。5.如权利要求2所述的电子设备,其特征在于,所述将该待处理网页地址插入至所述改进广义表包括:将该待处理网页地址对应的字符串分割为单个的字母,所述改进广义表中每个节点存储一个字母。6.一种网页地址去重方法,应用于电子设...
【专利技术属性】
技术研发人员:李芳,王建明,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。