自动提取网页的方法及装置制造方法及图纸

技术编号：27564885 阅读：24 留言：0更新日期：2021-03-09 22:09

本发明专利技术提供一种自动提取网页的方法及装置，所述方法包括：根据用户输入获得URL任务列表，将所述URL任务列表保存在临界区中；根据所述临界区中的URL任务列表，按照广度搜索运算法搜索提取网页，并提取URL返回到临界区中；通过判断主题相关度算法判断所提取的网页的相关度，清除不相关网页。本发明专利技术能够从用户想要访问的互联网上自动下载用户需要的网页。访问的互联网上自动下载用户需要的网页。访问的互联网上自动下载用户需要的网页。

全部详细技术资料下载

【技术实现步骤摘要】
自动提取网页的方法及装置

[0001]本专利技术涉及大数据
，尤其涉及一种自动提取网页的方法及装置。

技术介绍

[0002]在大数据时代，用户有时需要从互联网下载网页，从网页中提取自己所需的数据，因此，如何实现网页的自动提取是一个亟待解决的问题。
[0003][0004]
技术实现思路

[0005]本专利技术提供的自动提取网页的方法及装置，能够从用户想要访问的互联网上自动下载用户需要的网页。
[0006]第一方面，本专利技术提供一种自动提取网页的方法，所述方法包括：
[0007]根据用户输入获得URL任务列表，将所述URL任务列表保存在临界区中；
[0008]根据所述临界区中的URL任务列表，按照广度搜索运算法搜索提取网页，并提取URL返回到临界区中；
[0009]通过判断主题相关度算法判断所提取的网页的相关度，清除不相关网页。
[0010]可选地，在所述根据用户输入获得URL任务列表之前，所述方法还包括：
[0011]接收用户输入的网页提取请求，所述网页提取请求中包括URL配置文件。
[0012]可选地，所述按照广度搜索运算法搜索提取网页包括：
[0013]通过http将Web服务器上协议站点的网页代码提取出来；
[0014]根据一定的正则表达式提取出用户所需要的信息。
[0015]可选地，所述按照广度搜索运算法搜索提取网页包括：从网页中其中一个链接出发，访问该链接网页上的所有链接，访问完成后，再通过递归算法...

【技术保护点】

【技术特征摘要】
1.一种自动提取网页的方法，其特征在于，所述方法包括：根据用户输入获得URL任务列表，将所述URL任务列表保存在临界区中；根据所述临界区中的URL任务列表，按照广度搜索运算法搜索提取网页，并提取URL返回到临界区中；通过判断主题相关度算法判断所提取的网页的相关度，清除不相关网页。2.根据权利要求1所述的方法，其特征在于，在所述根据用户输入获得URL任务列表之前，所述方法还包括：接收用户输入的网页提取请求，所述网页提取请求中包括URL配置文件。3.根据权利要求1所述的方法，其特征在于，所述按照广度搜索运算法搜索提取网页包括：通过http将Web服务器上协议站点的网页代码提取出来；根据一定的正则表达式提取出用户所需要的信息。4.根据权利要求1所述的方法，其特征在于，所述按照广度搜索运算法搜索提取网页包括：从网页中其中一个链接出发，访问该链接网页上的所有链接，访问完成后，再通过递归算法实现下一层的访问。5.一种自动提取...

【专利技术属性】
技术研发人员：蒋洵，王博，盛丽玲，万晶，柴磊，朱文，钱刚，陈兴兵，李阳，郑海沣，周敏，
申请(专利权)人：杭州中软安人网络通信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人