网页爬虫抓取方法及系统技术方案

技术编号：13911059 阅读：77 留言：0更新日期：2016-10-27 03:06

本发明专利技术提供了一种网页爬虫抓取方法及系统，根据根节点获取待爬取页面中所有链接，找出其中未访问过的链接，获取未访问链接的数据流，对数据流进行清洗后，提取数据流中的文本，本发明专利技术通过对数据流的清洗去除无关内容的干扰，且其抓取结果为纯文本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息搜索
，尤其涉及一种网页爬虫抓取方法及系统。
技术介绍
现有的网页爬虫抓取方法会不可避免的引入Jscript脚本以及无关内容，其抓取结果也不是纯文本，无法直接用于NLP的数据预处理等后续语义分析。
技术实现思路
本专利技术的目的是提供一种网页爬虫抓取方法及系统，解决现有的网页爬虫抓取结果包含无关内容、且不是纯文本的问题。本专利技术解决其技术问题所采用的技术方案是：一种网页爬虫抓取方法，包括：设置未访问队列和已访问数据库，将待爬取页面的链接添加到未访问队列；获取待爬取页面的根节点；根据所述根节点，获取待爬取页面中的所有链接；将所获取的链接分别与已访问数据库中的链接进行匹配，在已访问数据库中没有链接与该链接匹配时，将该链接添加到未访问队列；获取未访问队列中每个链接所指向页面的数据流，并将数据流存储于中间数据库；对中间数据库中的数据流进行清洗；提取数据流中的文本。在此基础上，进一步地，所述根据所述根节点，获取待爬取页面中的所有链接的步骤中，获取链接的方式为htmlparser。或者，进一步地，所述根据所述根节点，获取待爬取页面中的所有链接的步骤中，获取链接的方式为宽度优先遍历。在上述任意实施例的基础上，进一步地，所述根据所述根节点，获取待爬取页面中的所有链接的步骤后，还包括：删除页面中的自身跳转链接。在上述任意实施例的基础上，进一步地，所述获取未访问队列中每个链接所指向页面的数据流，并将数据流存储于中间数据库的步骤中，数据流的存储格式为HTML格式。在上述任意实施例的基础上，进一步地，所述对中间数据库中的数据流进行清洗的步骤，具体为：...

【技术保护点】
一种网页爬虫抓取方法，其特征在于，包括：设置未访问队列和已访问数据库，将待爬取页面的链接添加到未访问队列；获取待爬取页面的根节点；根据所述根节点，获取待爬取页面中的所有链接；将所获取的链接分别与已访问数据库中的链接进行匹配，在已访问数据库中没有链接与该链接匹配时，将该链接添加到未访问队列；获取未访问队列中每个链接所指向页面的数据流，并将数据流存储于中间数据库；对中间数据库中的数据流进行清洗；提取数据流中的文本。

【技术特征摘要】
1.一种网页爬虫抓取方法，其特征在于，包括：设置未访问队列和已访问数据库，将待爬取页面的链接添加到未访问队列；获取待爬取页面的根节点；根据所述根节点，获取待爬取页面中的所有链接；将所获取的链接分别与已访问数据库中的链接进行匹配，在已访问数据库中没有链接与该链接匹配时，将该链接添加到未访问队列；获取未访问队列中每个链接所指向页面的数据流，并将数据流存储于中间数据库；对中间数据库中的数据流进行清洗；提取数据流中的文本。2.根据权利要求1所述的网页爬虫抓取方法，其特征在于，所述根据所述根节点，获取待爬取页面中的所有链接的步骤中，获取链接的方式为htmlparser。3.根据权利要求1所述的网页爬虫抓取方法，其特征在于，所述根据所述根节点，获取待爬取页面中的所有链接的步骤中，获取链接的方式为宽度优先遍历。4.根据权利要求1或2所述的网页爬虫抓取方法，其特征在于，所述根据所述根节点，获取待爬取页面中的所有链接的步骤后，还包括：删除页面中的自身跳转链接。5.根据权利要求1或2所述的网页爬虫抓取方法，其特征在于，所述获取未访问队列中每个链接所指向页面的数据流，并将数据流存储于中间数据库的步骤中，数据流的存储格式为HTML格式。6.根据权利要求1或2所述的网页爬虫抓取方法，其特征...

【专利技术属性】
技术研发人员：彭德光，利节，孙健，李鹏华，
申请(专利权)人：重庆兆光科技股份有限公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人