网页爬取方法、装置以及计算机设备制造方法及图纸

技术编号：28837916 阅读：32 留言：0更新日期：2021-06-11 23:35

本发明专利技术公开了一种网页爬取方法，该方法包括：爬取第一网页，获取所述第一网页包括的第一内容以及第一内容链接，将所述第一内容保存到内容集合中；爬取所述第一内容链接对应的第二网页，获取所述第二网页包括的第二内容以及第二内容链接；判断所述第二内容与所述第一内容是否相同；当所述第二内容与所述第一内容不相同时，将所述第二内容保存到内容集合中，并继续爬取所述第二内容链接对应的第三网页。本发明专利技术还提供一种网页爬取装置、计算机设备以及计算机可读存储介质。本发明专利技术能够从网页的每个内容链接入手，爬取所有的相关网页，再通过内容去重，从而实现高效、全面地执行网页爬取任务。

全部详细技术资料下载

【技术实现步骤摘要】
网页爬取方法、装置以及计算机设备
本专利技术涉及互联网
，尤其涉及一种网页爬取方法、装置、计算机设备及计算机可读存储介质。
技术介绍
随着互联网的快速发展，人们可以通过搜索引擎能从互联网上检索到很多包括工作、生活、学习方面的各种信息。对于企业来说，也可以通过互联网搜集某些单一主题内容的信息，用于分析和预测商品市场。比如，企业通过网络爬虫的方式爬取特定网络或者网站上的网页内容，然后分析出大众用户的偏好，从而进行市场分析。现有技术中通过网络爬虫工具爬取网页内容时一般都是采用自动翻页爬取方式，自动翻页爬取通常是针对设置有分页的系列性网页进行内容爬取，而且某些时候，由于网站方面对于网页设置的分页限制，使得爬虫工具通过列表和分页的模式并不能爬取到所有相关内容的网页。因此，现有技术中的爬取方法，爬取效率低下，爬取结果也不全面。
技术实现思路
有鉴于此，本专利技术提出一种网页爬取方法、装置、计算机设备及计算机可读存储介质，能够解决上述的爬虫工具在对网页爬取过程中爬取结果不全面，爬取效率低下的问题。首先，为实现上述目的，本专利技术提供一种网页爬取方法，所述方法包括：爬取第一网页，获取所述第一网页包括的第一内容以及第一内容链接，将所述第一内容保存到内容集合中；爬取所述第一内容链接对应的第二网页，获取所述第二网页包括的第二内容以及第二内容链接；判断所述第二内容与所述第一内容是否相同；当所述第二内容与所述第一内容不相同时，将所述第二内容保存到内容集合中，并继续爬取所述第二内容链接对应的第三...

【技术保护点】
1.一种网页爬取方法，其特征在于，所述方法包括：/n爬取第一网页，获取所述第一网页包括的第一内容以及第一内容链接，将所述第一内容保存到内容集合中；/n爬取所述第一内容链接对应的第二网页，获取所述第二网页包括的第二内容以及第二内容链接；/n判断所述第二内容与所述第一内容是否相同；/n当所述第二内容与所述第一内容不相同时，将所述第二内容保存到内容集合中，并继续爬取所述第二内容链接对应的第三网页。/n

【技术特征摘要】
1.一种网页爬取方法，其特征在于，所述方法包括：
爬取第一网页，获取所述第一网页包括的第一内容以及第一内容链接，将所述第一内容保存到内容集合中；
爬取所述第一内容链接对应的第二网页，获取所述第二网页包括的第二内容以及第二内容链接；
判断所述第二内容与所述第一内容是否相同；
当所述第二内容与所述第一内容不相同时，将所述第二内容保存到内容集合中，并继续爬取所述第二内容链接对应的第三网页。

2.如权利要求1所述的网页爬取方法，其特征在于，所述第一内容链接或所述第二内容链接包括目录列表内容链接，前后翻页内容链接，相关内容链接，推荐内容链接中的至少一种。

3.如权利要求1所述的网页爬取方法，其特征在于，所述判断所述第二内容与所述第一内容是否相同包括：
对所述第一内容进行特征数据提取，标记为第一标识，并将所述第一标识与所述第一内容关联保存到所述内容集合；
在获取到所述第二内容后，对所述第二内容进行特征数据提取，标记为第二标识；
通过判断所述第二标识与所述第一标识是否相同，从而判断所述第二内容与所述第一内容是否相同。

4.如权利要求1所述的网页爬取方法，其特征在于，所述判断所述第二内容与所述第一内容是否相同包括：
将所述第一内容对应的第一URL与所述第二内容对应的第二URL进行一致性比较；
当所述第一URL与所述第二URL相同时，则判断所述第二内容与所述第一内容相同。

5.如权利要求1所述的网页爬取方法，其特征在于，所述方法还包括：
当所述第二内容与所述第一内容相同时，不对所述第二内容进行保存；
结束爬取，将所述内容集合作为爬取结果输出。

6.一种网页爬取装置，其特征在于，所述装置包括：
获...

【专利技术属性】
技术研发人员：唐君行，
申请(专利权)人：上海哔哩哔哩科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人