一种资源获取优化装置和方法制造方法及图纸

技术编号:14858290 阅读:114 留言:0更新日期:2017-03-19 09:48
本发明专利技术公开了一种资源获取优化装置和方法,该资源获取优化方法包括:确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时的能力提升和效率提升。

【技术实现步骤摘要】

本专利技术涉及互联网领域,尤其涉及一种资源获取优化装置和方法
技术介绍
随着互联网技术的不断发展与网络信息量的不断剧增,用户能够从海量的信息中快速高效的搜索有价值的信息对于互联网的发展至关重要。URL(UniformResourceLocator,统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。因此URL数据在信息检索中即为重要。对于搜索信息来说,网络信息采集是其重要组成部分,但常常出现URL被重复抓取的情况,影响网络信息采集的效率。。
技术实现思路
本专利技术的主要目的在于提出一种资源获取优化装置和方法,旨在解决通过单机内存或远程关系型数据库进行资源获取优化时存在的处理能力的限制和处理速度的限制。为实现上述目的,本专利技术提供的一种资源获取优化装置,包括:地址确认单元,用于确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;抓取预判单元,用于当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;数据写入单元,用于当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。其中,所述装置,还包括:列表判断单元,用于判断是否存在URL简化列表;所述地址确认单元,具体用于:当存在URL简化列表时,确认待定URL是初始URL的域名内的URL;所述装置还包括:第一预判单元,用于当不存在URL简化列表时,判断所述待定URL是否在已抓取列表中;判断记录单元,用于若所述待定URL不在已抓取列表中,将待定URL记录到待抓取列表。其中,所述URL简化列表中记录有已抓取的简化URL及其对应MD5信息摘要;所述地址确认单元,包括:子串判断模块,用于获取待定URL的域名子串和初始URL的域名子串,确认两个域名子串相同;摘要生成模块,用于将所述待定URL根据参数模板过滤掉不在参数模板中的参数得到简化URL,生成简化URL的MD5信息摘要;所述抓取预判单元,具体用于:当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将待定URL及其对应的MD5信息摘要记录到待抓取列表。其中,所述数据写入单元,包括:摘要判断模块,用于判断待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;数据写入模块,用于待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中已存在,确认新添加的URL与已抓取的URL中的页面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入已抓取列表;所述第一部分包括新添加的URL的查询参数部分之外的部分。其中,所述URL简化列表、待抓取列表和已抓取列表通过redis集群维护;所述装置还包括:列表添加单元,用于若资源获取优化时内存不足,动态添加redis集群规模。此外,为实现上述目的,本专利技术还提出一种资源获取优化方法,包括:确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。其中,所述确认待定URL是初始URL的域名内的URL之前,还包括:判断是否存在URL简化列表;所述确认待定URL是初始URL的域名内的URL,具体为:当存在URL简化列表时,确认待定URL是初始URL的域名内的URL;所述方法还包括:当不存在URL简化列表时,判断所述待定URL是否在已抓取列表中;若所述待定URL不在已抓取列表中,将简化URL记录到待抓取列表。其中,所述URL简化列表中记录有已抓取的简化URL及其对应MD5信息摘要;所述确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL,包括:获取待定URL的域名子串和初始URL的域名子串,确认两个域名子串相同;将所述待定URL根据参数模板过滤掉不在参数模板中的参数得到简化URL,生成简化URL的MD5信息摘要;所述当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表,具体为:当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将待定URL及其对应的MD5信息摘要记录到待抓取列表。其中,所述当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表,包括:判断待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;若已存在,确认新添加的URL与已抓取的URL中的页面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入已抓取列表;所述第一部分包括新添加的URL的查询参数部分之外的部分。其中,所述URL简化列表、待抓取列表和已抓取列表通过redis集群维护;所述方法还包括:若资源获取优化时内存不足,动态添加redis集群规模。本专利技术提出的资源获取优化装置和方法,通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时的能力提升和效率提升。附图说明图1是本专利技术具体实施方式中提供的一种资源获取优化方法的第一实施例的方法流程图。图2是本专利技术具体实施方式中提供的一种资源获取优化方法的第二实施例的方法流程图。图3是本专利技术具体实施方式中提供的一种资源获取优化装置的第一实施例的结构方框图。图4是本专利技术具体实施方式中提供的一种资源获取优化装置的第二实施例的结构方框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。现在将参考附图描述实现本专利技术各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本身并没有特定的意义。因此,\模块\与\部件\可以混合地使用。图1是本专利技术具体实施方本文档来自技高网...

【技术保护点】
一种资源获取优化装置,其特征在于,包括:地址确认单元,用于确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;抓取预判单元,用于当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;数据写入单元,用于当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。

【技术特征摘要】
1.一种资源获取优化装置,其特征在于,包括:
地址确认单元,用于确认待定URL是初始URL的域名内的URL;将所
述待定URL根据参数模板进行简化得到简化URL;
抓取预判单元,用于当简化URL在URL简化列表中不存在时,将简化
URL记录到待抓取列表;
数据写入单元,用于当所述待抓取列表中新添加的URL与已有的URL
对应的页面内容不同时,将简化URL写入已抓取列表。
2.根据权利要求1所述的装置,其特征在于,所述装置,还包括:
列表判断单元,用于判断是否存在URL简化列表;
所述地址确认单元,具体用于:
当存在URL简化列表时,确认待定URL是初始URL的域名内的URL;
所述装置还包括:
第一预判单元,用于当不存在URL简化列表时,判断所述待定URL是
否在已抓取列表中;
判断记录单元,用于若所述待定URL不在已抓取列表中,将待定URL
记录到待抓取列表。
3.根据权利要求1所述的装置,其特征在于,所述URL简化列表中记录
有已抓取的简化URL及其对应MD5信息摘要;
所述地址确认单元,包括:
子串判断模块,用于获取待定URL的域名子串和初始URL的域名子串,
确认两个域名子串相同;
摘要生成模块,用于将所述待定URL根据参数模板过滤掉不在参数模板
中的参数得到简化URL,生成简化URL的MD5信息摘要;
所述抓取预判单元,具体用于:
当生成的简化URL的MD5信息摘要在URL简化列表中不存在时,将
待定URL及其对应的MD5信息摘要记录到待抓取列表。
4.根据权利要求3所述的装置,其特征在于,所述数据写入单元,包括:
摘要判断模块,用于判断待抓取列表中新添加的URL的第一部分的MD5
消息摘要在待抓取列表中是否已存在;
数据写入模块,用于待抓取列表中新添加的URL的第一部分的MD5消
息摘要在待抓取列表中已存在,确认新添加的URL与已抓取的URL中的页
面内容不同后将新添加的URL写入已抓取列表;否则将新添加的URL写入
已抓取列表;
所述第一部分包括新添加的URL的查询参数部分之外的部分。
5.根据权利要求1所述的装置,其特征在于,所述URL简化列表、待抓
取列表和已抓取列表通过redis集群维护;
所述装置还包括:
列表添加单元,用于若URL去重时内存不足,动态添加redis集群规模。
6.一种资源获取优...

【专利技术属性】
技术研发人员:李武萌
申请(专利权)人:努比亚技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1