网页地址去重方法、电子设备及计算机可读存储介质技术

技术编号:17561879 阅读:25 留言:0更新日期:2018-03-28 12:21
本发明专利技术公开了一种网页地址去重方法,该方法包括步骤:依次读取一条待处理网页地址,于改进广义表中搜索该待处理网页地址;若所述改进广义表中没有搜索到该待处理网页地址,则将该待处理网页地址插入至所述改进广义表,并将该待处理网页地址存入待抓取队列;若所述改进广义表中搜索到该待处理网页地址,则停止将该待处理网页地址存入待抓取队列。本发明专利技术可以提升网页地址去重效率。

Web address deweighting methods, electronic devices and computer readable storage media

The invention discloses a method to weight the web address, the method comprises the following steps: read a pending page address, to search for the improved generalized list page address to be processed; if the improved generalized list did not find the web address to be processed, the processing to be inserted into the web page address the improved generalized list, and the pending \to grab the address in the queue; if the improvement in generalized list to search the web page address to be processed, then stop the pending page address in the queue to crawl. The invention can improve the efficiency of the web address.

【技术实现步骤摘要】
网页地址去重方法、电子设备及计算机可读存储介质
本专利技术涉及计算机信息
,尤其涉及一种网页地址去重方法、电子设备及计算机可读存储介质。
技术介绍
目前,网络爬虫常用的URL去重方案有基于数据库的去重方案和基于内存链表的去重方案,这些方案在URL库容量不大的情况下有不错的效果。但是,现有的分布式爬虫面向的URL库容量通常非常大,需要URL去重能够持久保持高效运作,而上述常用的URL去重方案在爬虫程序运行较长时间后会有效率剧降或任务瘫痪的风险。故,现有技术中的URL去重方法设计不够合理,亟需改进。
技术实现思路
有鉴于此,本专利技术提出一种网页地址去重方法、电子设备及计算机可读存储介质,通过采用基于内存改进的广义表进行URL去重作业,在时间效率上大大优于传统的URL去重方案。首先,为实现上述目的,本专利技术提出一种电子设备,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页地址去重系统,所述网页地址去重系统被所述处理器执行时实现如下步骤:依次读取一条待处理网页地址,于改进广义表中搜索该待处理网页地址,其中,所述改进广义表中的每个节点权重相同,且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位;若所述改进广义表中没有搜索到该待处理网页地址,则将该待处理网页地址插入至所述改进广义表,并将该待处理网页地址存入待抓取队列;及若所述改进广义表中搜索到该待处理网页地址,则停止将该待处理网页地址存入待抓取队列。优选地,所述标志位包括第一数值和第二数值;如果检测到当前节点的标志位为第一数值,则确定该当前节点为根节点,从该当前节点开始遍历,确定为动态插入操作的出发节点;及如果检测到当前节点的标志位为第二数值,则确定该当前节点不是根节点,继续遍历下一个节点。优选地,若所述改进广义表的当前节点为根节点,则该当前节点的数据结构包括指针初始化操作和第一构造函数,该第一构造函数在该当前节点的新建节点对象没有传递指定参数时,默认将该新建节点对象的数据域属性设置为指定字符。优选地,若所述改进广义表的当前节点为非根节点,则该当前节点的数据结构包括指针初始化操作和第二构造函数,该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。优选地,所述将该待处理网页地址插入至所述改进广义表包括:将该待处理网页地址对应的字符串分割为单个的字母,所述改进广义表中每个节点存储一个字母。此外,为实现上述目的,本专利技术还提供一种网页地址去重方法,该方法应用于电子设备,所述方法包括:依次读取一条待处理网页地址,于改进广义表中搜索该待处理网页地址,其中,所述改进广义表中的每个节点权重相同,且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位;若所述改进广义表中没有搜索到该待处理网页地址,则将该待处理网页地址插入至所述改进广义表,并将该待处理网页地址存入待抓取队列;及若所述改进广义表中搜索到该待处理网页地址,则停止将该待处理网页地址存入待抓取队列。优选地,所述标志位包括第一数值和第二数值;如果检测到当前节点的标志位为第一数值,则确定该当前节点为根节点,从该当前节点开始遍历,确定为动态插入操作的出发节点;及如果检测到当前节点的标志位为第二数值,则确定该当前节点不是根节点,继续遍历下一个节点。优选地,若所述改进广义表的当前节点为根节点,则该当前节点的数据结构包括指针初始化操作和第一构造函数,该第一构造函数在该当前节点的新建节点对象没有传递指定参数时,默认将该新建节点对象的数据域属性设置为指定字符;及若所述改进广义表的当前节点为非根节点,则该当前节点的数据结构包括指针初始化操作和第二构造函数,该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。优选地,所述将该待处理网页地址插入至所述改进广义表包括:将该待处理网页地址对应的字符串分割为单个的字母,所述改进广义表中每个节点存储一个字母。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有网页地址去重系统,所述网页地址去重系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的网页地址去重方法的步骤。相较于现有技术,本专利技术所提出的电子设备、网页地址去重方法及计算机可读存储介质,通过采用基于内存改进的广义表进行URL去重作业,在时间效率上大大优于传统的URL去重方案。进一步地,在空间效率上有很高的空间可行性,能够持久保持去重作业的高效运作,没有明显的瓶颈制约。附图说明图1是本专利技术电子设备一可选的硬件架构的示意图;图2是本专利技术电子设备中网页地址去重系统一实施例的程序模块示意图;图3为本专利技术网页地址去重方法一实施例的实施流程示意图。附图标记:电子设备2存储器21处理器22网络接口23网页地址去重系统20搜索模块201插入模块202去重模块203流程步骤S31-S33本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。首先,本专利技术提出一种电子设备2。参阅图1所示,是本专利技术电子设备2一可选的硬件架构的示意图。本实施例中,所述电子设备2可包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是,图1仅示出了具有组件21-23的电子设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该电子设备2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储本文档来自技高网...
网页地址去重方法、电子设备及计算机可读存储介质

【技术保护点】
一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页地址去重系统,所述网页地址去重系统被所述处理器执行时实现如下步骤:依次读取一条待处理网页地址,于改进广义表中搜索该待处理网页地址,其中,所述改进广义表中的每个节点权重相同,且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位;若所述改进广义表中没有搜索到该待处理网页地址,则将该待处理网页地址插入至所述改进广义表,并将该待处理网页地址存入待抓取队列;及若所述改进广义表中搜索到该待处理网页地址,则停止将该待处理网页地址存入待抓取队列。

【技术特征摘要】
1.一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页地址去重系统,所述网页地址去重系统被所述处理器执行时实现如下步骤:依次读取一条待处理网页地址,于改进广义表中搜索该待处理网页地址,其中,所述改进广义表中的每个节点权重相同,且所述改进广义表中的每个节点包括一个判断当前节点是否为根节点的标志位;若所述改进广义表中没有搜索到该待处理网页地址,则将该待处理网页地址插入至所述改进广义表,并将该待处理网页地址存入待抓取队列;及若所述改进广义表中搜索到该待处理网页地址,则停止将该待处理网页地址存入待抓取队列。2.如权利要求1所述的电子设备,其特征在于,所述标志位包括第一数值和第二数值;如果检测到当前节点的标志位为第一数值,则确定该当前节点为根节点,从该当前节点开始遍历,确定为动态插入操作的出发节点;及如果检测到当前节点的标志位为第二数值,则确定该当前节点不是根节点,继续遍历下一个节点。3.如权利要求2所述的电子设备,其特征在于,若所述改进广义表的当前节点为根节点,则该当前节点的数据结构包括指针初始化操作和第一构造函数,该第一构造函数在该当前节点的新建节点对象没有传递指定参数时,默认将该新建节点对象的数据域属性设置为指定字符。4.如权利要求2所述的电子设备,其特征在于,若所述改进广义表的当前节点为非根节点,则该当前节点的数据结构包括指针初始化操作和第二构造函数,该第二构造函数将该当前节点的新建节点对象传递的指定数据值赋值给该新建节点对象的数据域。5.如权利要求2所述的电子设备,其特征在于,所述将该待处理网页地址插入至所述改进广义表包括:将该待处理网页地址对应的字符串分割为单个的字母,所述改进广义表中每个节点存储一个字母。6.一种网页地址去重方法,应用于电子设...

【专利技术属性】
技术研发人员:李芳王建明肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1