一种爬取路径规划方法及装置制造方法及图纸

技术编号:14901985 阅读:75 留言:0更新日期:2017-03-29 17:23
本发明专利技术实施例公开了一种爬取路径规划方法及装置,方法包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面对应网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。应用本发明专利技术实施例,既能提高路径规划的效率,也能减少爬取负担。

Crawling path planning method and device

The embodiment of the invention discloses a device for climbing and path planning method, method comprises the following steps: according to preset crawling strategy, starting from the preset entrance pages, crawling the web page page corresponding to preset entrance; the collection page features crawling the page path instance recorded from the default page arrived at the entrance the crawling the page; the page according to the characteristics of path instances and records the crawling page, select path instance is similar with the preset target arrival page; path planning according to the characteristics of each page page path selection and instance selection path instance, path planning results. The embodiment of the invention not only can improve the efficiency of path planning, but also can reduce the burden of crawling.

【技术实现步骤摘要】

本专利技术涉及互联网
,特别涉及一种爬取路径规划方法及装置
技术介绍
网络爬虫可以自动提取网页,为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分,目前,网络爬虫已经成为从互联网采集海量信息数据的主要手段,很多优秀的开源爬虫框架也已经出现。网络爬虫主要分为两类:一类是用于搜索引擎的搜索爬虫,爬取目标是整个互联网;一类是定向爬虫,爬取目标是所有网站中的一个特定子集,甚至就是某一个网站。针对从某一网站上爬取网页的定向爬虫,目前有两种实现方式:一是通过开发人员的参与,定义规划精确的可执行的爬取路径结果,定向爬虫根据爬取路径结果进行爬取工作;二是不定义规划精确的可执行的爬取路径结果,直接进行全站式爬取。上述两种实现方式分别存在以下问题:针对第一种方式,其中规划精确的爬取路径结果需要通过开发人员分析与研究网页代码来实现,且网页代码较复杂,这样会导致效率低的问题。针对第二种方式,虽然减少了开发人员的工作量,但由于网站中存在冗余页面,直接进行全站式爬取会造成过多的无用页面的下载,给爬取工作增加负担。
技术实现思路
本专利技术实施例的目的在于提供一种爬取路径规划方法及装置,以实现既能提高路径规划的效率,也能减少爬取负担目的。为达到上述目的,本专利技术实施例公开了一种爬取路径规划方法及装置。技术方案如下:本专利技术实施例提供的一种爬取路径规划方法,包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面所属网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。优选地,所述根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例,包括:根据各个所爬取的页面的页面特征,将所爬取的页面分类;根据页面分类结果,确定所述预设目标页面所属的类别节点;从所记录的路径实例中,挑选出到达所确定类别节点对应的页面的路径实例。优选地,所述根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果,包括:根据页面分类结果,确定挑选出的路径实例中各页面所属的类别;根据挑选出的路径实例以及所确定的类别,生成以类别为节点的有效路径;根据过程挖掘算法和所述页面分类结果,从所获得的有效路径中,挖掘出符合预设规则的爬取路径图和所述爬取路径图的描述文件,其中,所述描述文件包括所述爬取路径图中类别节点间的关系,各个类别节点的页面特征是根据类别节点对应页面的页面特征获得的;根据所述描述文件及各个类别节点的页面特征,生成所述爬取路径图中各类别节点间的抽取关系,其中,各个类别节点的页面特征是根据类别节点对应页面的页面特征获得的;根据所述抽取关系,生成路径规划结果,其中,所述路径规划结果包括采用语法规则描述的所述抽取关系。优选地,在所述页面特征包括页面链接和页面源代码结构的情况下,所述根据各个所爬取的页面的页面特征,将所爬取的页面分类,包括:针对所爬取的页面中的每两个页面,分别计算页面链接的第一相似度和页面源代码结构的第二相似度;根据预设的权重,将所述第一相似度和所述第二相似度求和,获得综合相似度;根据获得综合相似度和预设相似度标准值,将所爬取的页面分类。优选地,所述预设爬取策略具体为广度优先爬取策略。第二方面,本专利技术实施例提供的一种爬取路径规划装置,包括:爬取模块,用于根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面所属网站的页面;处理模块,用于采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;挑选模块,用于根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;规划模块,用于根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。优选地,所述挑选模块包括:分类单元,用于根据各个所爬取的页面的页面特征,将所爬取的页面分类;第一确定单元,用于根据页面分类结果,确定所述预设目标页面所属的类别;挑选单元,用于从所记录的路径实例中,挑选出到达所确定类别对应的页面的路径实例。优选地,所述规划模块包括:第二确定单元,用于根据页面分类结果,确定挑选出的路径实例中各页面所属的类别;第一生成单元,用于根据挑选出的路径实例以及所确定的类别,生成以类别为节点的有效路径;挖掘单元,用于根据过程挖掘算法和所述页面分类结果,从所获得的有效路径中,挖掘出符合预设规则的爬取路径图和所述爬取路径图的描述文件,其中,所述描述文件包括所述爬取路径图中类别节点间的关系,各个类别节点的页面特征是根据类别节点对应页面的页面特征获得的;第二生成单元,用于根据所述描述文件及各个类别节点的页面特征,生成所述爬取路径图中各类别节点间的抽取关系,其中,各个类别节点的页面特征是根据类别节点对应页面的页面特征获得的;第三生成单元,根据所述抽取关系,生成路径规划结果,其中,所述路径规划结果包括采用语法规则描述的所述抽取关系。优选地,所述页面特征包括页面链接和页面源代码结构,所述分类单元包括:计算子单元,用于针对所爬取的页面中的每两个页面,分别计算页面链接的第一相似度和页面源代码结构的第二相似度;获得子单元,用于根据预设的权重,将所述第一相似度和所述第二相似度求和,获得综合相似度;分类子单元,用于根据获得综合相似度和预设相似度标准值,将所爬取的页面分类。优选地,所述预设爬取策略具体为广度优先爬取策略。应用本专利技术实施例,从预设入口页面开始,爬取预设入口页面所属网站的页面;记录从预设入口页面到达各个所爬取的页面的路径实例,采集各个所爬取的页面的页面特征;通过具体的爬取操作,获得相应的具体页面间的路径实例,完成采样工作。根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例,根据所挑选的路径实例及对应的页面的页面特征进行路径规划,生成路径规划结果。这个过程没有开发人员的参与,不需要开发人员去研究复杂的网页代码,可以提高路径规划的效率;路径规划依赖的样例具有针对性,可减少生成不必要的路径规划结果,能够一定程度地保证爬取结果的全面性,相对于现有技术的全面爬取,可以大大减少爬取负担。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的爬取路径规划方法的流程示意图;图2为本专利技术另一实施例提供的爬取路径规划方法的流程示意图;图3为本专利技术实施例提供的爬取路径规划装置的结构示意图;图4为本专利技术另一实施例提供的爬取路径规划装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得本文档来自技高网...
一种爬取路径规划方法及装置

【技术保护点】
一种爬取路径规划方法,其特征在于,包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面所属网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。

【技术特征摘要】
1.一种爬取路径规划方法,其特征在于,包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面所属网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。2.根据权利要求1所述的方法,其特征在于,所述根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例,包括:根据各个所爬取的页面的页面特征,将所爬取的页面分类;根据页面分类结果,确定所述预设目标页面所属的类别;从所记录的路径实例中,挑选出到达所确定类别对应的页面的路径实例。3.根据权利要求2所述的方法,其特征在于,所述根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果,包括:根据页面分类结果,确定挑选出的路径实例中各页面所属的类别;根据挑选出的路径实例以及所确定的类别,生成以类别为节点的有效路径;根据过程挖掘算法和所述页面分类结果,从所获得的有效路径中,挖掘出符合预设规则的爬取路径图和所述爬取路径图的描述文件,其中,所述描述文件包括所述爬取路径图中类别节点间的关系;根据所述描述文件及各个类别节点的页面特征,生成所述爬取路径图中各类别节点间的抽取关系,其中,各个类别节点的页面特征是根据类别节点对应页面的页面特征获得的;根据所述抽取关系,生成路径规划结果,其中,所述路径规划结果包括采用语法规则描述的所述抽取关系。4.根据权利要求2所述的方法,其特征在于,在所述页面特征包括页面链接和页面源代码结构的情况下,所述根据各个所爬取的页面的页面特征,将所爬取的页面分类,包括:针对所爬取的页面中的每两个页面,分别计算页面链接的第一相似度和页面源代码结构的第二相似度;根据预设的权重,将所述第一相似度和所述第二相似度求和,获得综合相似度;根据获得综合相似度和预设相似度标准值,将所爬取的页面分类。5.根据权利要求1-4任一项所述的方法,其特征在于,所述预设爬取策略具体为广度优先爬取策略。6.一...

【专利技术属性】
技术研发人员:张煜苒帅伟良
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1