The embodiment of the invention discloses a device for climbing and path planning method, method comprises the following steps: according to preset crawling strategy, starting from the preset entrance pages, crawling the web page page corresponding to preset entrance; the collection page features crawling the page path instance recorded from the default page arrived at the entrance the crawling the page; the page according to the characteristics of path instances and records the crawling page, select path instance is similar with the preset target arrival page; path planning according to the characteristics of each page page path selection and instance selection path instance, path planning results. The embodiment of the invention not only can improve the efficiency of path planning, but also can reduce the burden of crawling.
【技术实现步骤摘要】
本专利技术涉及互联网
,特别涉及一种爬取路径规划方法及装置。
技术介绍
网络爬虫可以自动提取网页,为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分,目前,网络爬虫已经成为从互联网采集海量信息数据的主要手段,很多优秀的开源爬虫框架也已经出现。网络爬虫主要分为两类:一类是用于搜索引擎的搜索爬虫,爬取目标是整个互联网;一类是定向爬虫,爬取目标是所有网站中的一个特定子集,甚至就是某一个网站。针对从某一网站上爬取网页的定向爬虫,目前有两种实现方式:一是通过开发人员的参与,定义规划精确的可执行的爬取路径结果,定向爬虫根据爬取路径结果进行爬取工作;二是不定义规划精确的可执行的爬取路径结果,直接进行全站式爬取。上述两种实现方式分别存在以下问题:针对第一种方式,其中规划精确的爬取路径结果需要通过开发人员分析与研究网页代码来实现,且网页代码较复杂,这样会导致效率低的问题。针对第二种方式,虽然减少了开发人员的工作量,但由于网站中存在冗余页面,直接进行全站式爬取会造成过多的无用页面的下载,给爬取工作增加负担。
技术实现思路
本专利技术实施例的目的在于提供一种爬取路径规划方法及装置,以实现既能提高路径规划的效率,也能减少爬取负担目的。为达到上述目的,本专利技术实施例公开了一种爬取路径规划方法及装置。技术方案如下:本专利技术实施例提供的一种爬取路径规划方法,包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面所属网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到 ...
【技术保护点】
一种爬取路径规划方法,其特征在于,包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面所属网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。
【技术特征摘要】
1.一种爬取路径规划方法,其特征在于,包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面所属网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。2.根据权利要求1所述的方法,其特征在于,所述根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例,包括:根据各个所爬取的页面的页面特征,将所爬取的页面分类;根据页面分类结果,确定所述预设目标页面所属的类别;从所记录的路径实例中,挑选出到达所确定类别对应的页面的路径实例。3.根据权利要求2所述的方法,其特征在于,所述根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果,包括:根据页面分类结果,确定挑选出的路径实例中各页面所属的类别;根据挑选出的路径实例以及所确定的类别,生成以类别为节点的有效路径;根据过程挖掘算法和所述页面分类结果,从所获得的有效路径中,挖掘出符合预设规则的爬取路径图和所述爬取路径图的描述文件,其中,所述描述文件包括所述爬取路径图中类别节点间的关系;根据所述描述文件及各个类别节点的页面特征,生成所述爬取路径图中各类别节点间的抽取关系,其中,各个类别节点的页面特征是根据类别节点对应页面的页面特征获得的;根据所述抽取关系,生成路径规划结果,其中,所述路径规划结果包括采用语法规则描述的所述抽取关系。4.根据权利要求2所述的方法,其特征在于,在所述页面特征包括页面链接和页面源代码结构的情况下,所述根据各个所爬取的页面的页面特征,将所爬取的页面分类,包括:针对所爬取的页面中的每两个页面,分别计算页面链接的第一相似度和页面源代码结构的第二相似度;根据预设的权重,将所述第一相似度和所述第二相似度求和,获得综合相似度;根据获得综合相似度和预设相似度标准值,将所爬取的页面分类。5.根据权利要求1-4任一项所述的方法,其特征在于,所述预设爬取策略具体为广度优先爬取策略。6.一...
【专利技术属性】
技术研发人员:张煜苒,帅伟良,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。