自动提取网页的方法及装置制造方法及图纸

技术编号:27564885 阅读:24 留言:0更新日期:2021-03-09 22:09
本发明专利技术提供一种自动提取网页的方法及装置,所述方法包括:根据用户输入获得URL任务列表,将所述URL任务列表保存在临界区中;根据所述临界区中的URL任务列表,按照广度搜索运算法搜索提取网页,并提取URL返回到临界区中;通过判断主题相关度算法判断所提取的网页的相关度,清除不相关网页。本发明专利技术能够从用户想要访问的互联网上自动下载用户需要的网页。访问的互联网上自动下载用户需要的网页。访问的互联网上自动下载用户需要的网页。

【技术实现步骤摘要】
自动提取网页的方法及装置


[0001]本专利技术涉及大数据
,尤其涉及一种自动提取网页的方法及装置。

技术介绍

[0002]在大数据时代,用户有时需要从互联网下载网页,从网页中提取自己所需 的数据,因此,如何实现网页的自动提取是一个亟待解决的问题。
[0003][0004]
技术实现思路

[0005]本专利技术提供的自动提取网页的方法及装置,能够从用户想要访问的互联网 上自动下载用户需要的网页。
[0006]第一方面,本专利技术提供一种自动提取网页的方法,所述方法包括:
[0007]根据用户输入获得URL任务列表,将所述URL任务列表保存在临界区中;
[0008]根据所述临界区中的URL任务列表,按照广度搜索运算法搜索提取网页, 并提取URL返回到临界区中;
[0009]通过判断主题相关度算法判断所提取的网页的相关度,清除不相关网页。
[0010]可选地,在所述根据用户输入获得URL任务列表之前,所述方法还包括:
[0011]接收用户输入的网页提取请求,所述网页提取请求中包括URL配置文件。
[0012]可选地,所述按照广度搜索运算法搜索提取网页包括:
[0013]通过http将Web服务器上协议站点的网页代码提取出来;
[0014]根据一定的正则表达式提取出用户所需要的信息。
[0015]可选地,所述按照广度搜索运算法搜索提取网页包括:从网页中其中一个 链接出发,访问该链接网页上的所有链接,访问完成后,再通过递归算法实现 下一层的访问。
[0016]第二方面,本专利技术提供一种自动提取网页的装置,所述装置包括:
[0017]获取单元,用于根据用户输入获得URL任务列表,将所述URL任务列表 保存在临界区中;
[0018]提取单元,用于根据所述临界区中的URL任务列表,按照广度搜索运算法 搜索提取网页,并提取URL返回到临界区中;
[0019]筛选单元,用于通过判断主题相关度算法判断所提取的网页的相关度,清 除不相关网页。
[0020]可选地,所述装置还包括:
[0021]接收单元,用于在所述获取单元根据用户输入获得URL任务列表之前,接 收用户输入的网页提取请求,所述网页提取请求中包括URL配置文件。
[0022]可选地,所述提取单元,用于通过http将Web服务器上协议站点的网页 代码提取出来,根据一定的正则表达式提取出用户所需要的信息。
[0023]可选地,所述提取单元,用于从网页中其中一个链接出发,访问该链接网 页上的所有链接,访问完成后,再通过递归算法实现下一层的访问。
[0024]本专利技术实施例提供的自动提取网页的方法及装置,根据用户输入获得URL 任务列表,将所述URL任务列表保存在临界区中,根据所述临界区中的URL 任务列表,按照广度搜索运算法搜索提取网页,并提取URL返回到临界区中, 通过判断主题相关度算法判断所提取的网页的相关度,清除不相关网页。从而 能够实现利用搜索引擎从用户想要访问的网上自动下载网页,再根据已下载的 网页继续访问其它的网页,并将其下载直到满足用户的需求。
附图说明
[0025]图1为本专利技术实施例提供的自动提取网页的方法的流程示意图;
[0026]图2为本专利技术实施例提供的自动提取网页的方法的工作流程框图;
[0027]图3为本专利技术实施例提供的自动提取网页的装置的结构示意图。
具体实施方式
[0028]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术 实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所 有其他实施例,都属于本专利技术保护的范围。
[0029]本专利技术实施例提供一种自动提取网页的方法,如图1所示,所述方法包括:
[0030]S11、根据用户输入获得URL任务列表,将所述URL任务列表保存在临界 区中。
[0031]S12、根据所述临界区中的URL任务列表,按照广度搜索运算法搜索提取 网页,并提取URL返回到临界区中。
[0032]S13、通过判断主题相关度算法判断所提取的网页的相关度,清除不相关网 页。
[0033]本专利技术实施例提供的自动提取网页的方法,根据用户输入获得URL任务列 表,将所述URL任务列表保存在临界区中,根据所述临界区中的URL任务列 表,按照广度搜索运算法搜索提取网页,并提取URL返回到临界区中,通过判 断主题相关度算法判断所提取的网页的相关度,清除不相关网页。从而能够实 现利用搜索引擎从用户想要访问的网上自动下载网页,再根据已下载的网页继 续访问其它的网页,并将其下载直到满足用户的需求。
[0034]下面对本专利技术实施例自动提取网页的方法进行详细说明。
[0035]本专利技术实施例通过网络爬虫技术设计了一个自动提取网页的程序,实现搜 索引擎从用户想要访问的网上下载网页,再根据已下载的网页上继续访问其它 的网页,并将其下载直到满足用户的需求。
[0036]根据用户的实际上的需求,需要达到如下几个目标:
[0037]1、设计基于多线程的网络爬虫,客户端向服务器发送自己设定好请求。如 图2所示。
[0038]2、通过http将Web服务器上协议站点的网页代码提取出来。
[0039]3、根据一定的正则表达式提取出客户端所需要的信息。
[0040]4、广度优先搜索可从网页中某个链接出发,访问该链接网页上的所有链接, 访问完成后,再通过递归算法实现下一层的访问。
[0041]5、程序根据输入获得URL(Uniform Resource Locator,统一资源定位符) 任务列表,即初始URL种子,把初始种子保存在临界区中,按照广度搜索运算 法搜索提取网页并提取URL返回到临界区中,通过判断主题相关度算法判断相 关度,取出不相关网页,从而使整个爬虫程序循环运行下去。
[0042]6、通过对快照数据做对应开发,实现搜索引擎网站快照及历史数据提取。
[0043]本专利技术实施例还提供一种自动提取网页的装置,如图3所示,所述装置包 括:
[0044]获取单元11,用于根据用户输入获得URL任务列表,将所述URL任务列 表保存在临界区中;
[0045]提取单元12,用于根据所述临界区中的URL任务列表,按照广度搜索运 算法搜索提取网页,并提取URL返回到临界区中;
[0046]筛选单元13,用于通过判断主题相关度算法判断所提取的网页的相关度, 清除不相关网页。
[0047]本专利技术实施例提供的自动提取网页的装置,根据用户输入获得URL任务列 表,将所述URL任务列表保存在临界区中,根据所述临界区中的URL任务列 表,按照广度搜索运算法搜索提取网页,并提取URL返回到临界区中,通过判 断主题相关度算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动提取网页的方法,其特征在于,所述方法包括:根据用户输入获得URL任务列表,将所述URL任务列表保存在临界区中;根据所述临界区中的URL任务列表,按照广度搜索运算法搜索提取网页,并提取URL返回到临界区中;通过判断主题相关度算法判断所提取的网页的相关度,清除不相关网页。2.根据权利要求1所述的方法,其特征在于,在所述根据用户输入获得URL任务列表之前,所述方法还包括:接收用户输入的网页提取请求,所述网页提取请求中包括URL配置文件。3.根据权利要求1所述的方法,其特征在于,所述按照广度搜索运算法搜索提取网页包括:通过http将Web服务器上协议站点的网页代码提取出来;根据一定的正则表达式提取出用户所需要的信息。4.根据权利要求1所述的方法,其特征在于,所述按照广度搜索运算法搜索提取网页包括:从网页中其中一个链接出发,访问该链接网页上的所有链接,访问完成后,再通过递归算法实现下一层的访问。5.一种自动提取...

【专利技术属性】
技术研发人员:蒋洵王博盛丽玲万晶柴磊朱文钱刚陈兴兵李阳郑海沣周敏
申请(专利权)人:杭州中软安人网络通信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1