一种抓取网页内容的方法及装置制造方法及图纸

技术编号：11952820 阅读：87 留言：0更新日期：2015-08-27 00:44

本发明专利技术公开了一种抓取网页内容的方法及装置，用于解决目前在对不同类型网页内容进行抓取的过程中，存在网页内容抓取复杂度高，以及网页内容抓取效率低的问题。本发明专利技术实施例中，当检测到待抓取网页时，即从预设的抓取规则库中查找上述待抓取网页的URL，当该抓取规则库中不存在URL对应的抓取规则时，对待抓取网页中的内容进行分析，并对满足条件的待抓取网页生成抓取规则。采用本发明专利技术技术方案，对待抓取网页中的内容进行分析，根据分析结果自动生成待抓取网页对应的抓取规则，无须人工设置抓取规则，有效降低了网页内容抓取的复杂度，提高了网页内容抓取的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及计算机应用
，尤其设及一种抓取网页内容的方法及装置。
技术介绍
网络爬虫是捜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干初始网页的册LOJniformResourceLocator,统一资源定位符）开始，获得初始网页上的册L，在抓取网页信息的过程中，根据网页的抓取规则，不断从当前页面上抽取新的U化放入队列，直到满足某种停止条件。然后将抓取到的网页信息存储在捜索引擎的服务器中，从而可W 加快用户的捜索速度。目前，在采用网络爬虫技术对网页进行抓取过程中，抓取规则为人工设置，针对不同类型的网页，需要人工设置相应的抓取规则，当需要抓取的网页类型众多时，将耗费大量的人力去设置抓取规则，从而增加了网页内容抓取的复杂度。由此可见，目前在对不同类型网页内容进行抓取的过程中，存在网页内容抓取复杂度高，W及网页内容抓取效率低的问题。
技术实现思路
本专利技术实施例提供一种抓取网页内容的方法及装置，用W解决目前在对不同类型网页内容进行抓取的过程中，存在网页内容抓取复杂度高，W及网页内容抓取效率低的问题。本专利技术实施例提供的具体技术方案如下：一种抓取网页内容的方法，包括：[000引获取待抓取网页的U化；在抓取规则库中，获取所述待抓取网页的URL对应的抓取规则；当无法获取到对应于所述待抓取网页的U化的抓取规则时，对所述待抓取网页中的内容进行分析，并对满足抓取条件的所述待抓取网页生成抓取规则；将所述待抓取网页的m?LW及对应于生成的所述待抓取网页抓取规则在所述抓取规则库中进行更新。可选的，对所述待抓取网...

【技术保护点】
一种抓取网页内容的方法，其特征在于，包括：获取待抓取网页的URL；在抓取规则库中，获取所述待抓取网页的URL对应的抓取规则；当无法获取到对应于所述待抓取网页的URL的抓取规则时，对所述待抓取网页中的内容进行分析，并对满足抓取条件的所述待抓取网页生成抓取规则；将所述待抓取网页的URL以及对应于生成的所述待抓取网页抓取规则在所述抓取规则库中进行更新。

【技术特征摘要】

【专利技术属性】
技术研发人员：狄东杰，孙德山，姚臻，
申请(专利权)人：智慧城市信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人