The invention relates to Java and web technology. The invention solves the problems in the preparation of Focused Web crawler, dynamic loading information usually through the target site of anti climb, it is difficult to quickly and efficiently access the CSS selector, puts forward a method to quickly verify the CSS selector, the technical scheme can be summarized as follows: the selector to crawl the web information using CSS, whether judge to grab information to meet the needs are not satisfied to determine whether grasping information for dynamic loading information, call the browser kernel to download and parse the page source, then re write the CSS selector, and crawl on the parsed information using the CSS selector re written, and determine whether the information required to meet the crawl. The beneficial effect of the invention is that when the CSS selector is not available due to the dynamic information of the web page, the browser kernel is called to download the web page source code of the target page and parse it. Then, the CSS selector is rewritten to get an effective CSS selector.
【技术实现步骤摘要】
快速验证CSS选择器的方法
本专利技术涉及利用Java下载网页源码技术,特别涉及CSS选择器技术。
技术介绍
网络爬虫是按照一定规则自动抓取WEB信息的程序或脚本,也被称为网络追逐者。在网络迅速发展的今天,万维网成为最大的信息载体,传统的搜索引擎作为辅助人们检索信息的工具也存在着一定的局限性:1.不同的用户往往有不同的检索目的,而搜索引擎会返回大量的无用信息,导致资源的浪费;2.搜索引擎的目标是尽可能大的网络资源覆盖,而随着网络资源的日益丰富,搜索引擎有限的资源越来越不能满足需要;3.搜索引擎对种类越来越多的网络资源越来越无能为力,具有一定结构的图片、数据库、音频、视频等密集资源是搜索引擎所不能解决的;4.搜索引擎都是通过关键字进行索引,很难通过语义进行分析检索。为了解决上述问题定向抓取网络资源的聚焦网络爬虫应运而生,聚焦网络爬虫根据目标信息,定向访问网络资源,从而快速获得想要的信息。目前,如何高效快速的编写网络爬虫成为热点,在编写聚焦网络爬虫时,快速准确的获得CSS(层叠样式表)选择器成为信息抓取的关键。CSS,即层叠样式表,通常定义如何显示HTML元素,通过C ...
【技术保护点】
快速验证CSS选择器的方法,其特征在于,包括以下步骤:步骤1、从所需网页获取目标网址和CSS选择器并输入目标网址;步骤2、通过HttpClient下载目标网页的网页源码并解析;步骤3、输入CSS选择器并对解析出的信息进行抓取;步骤4、判断抓取的信息是否满足需要,若满足,则结束,若不满足,则进入步骤5;步骤5、判断抓取的信息是否为动态加载信息,若是,则进入步骤6,若不是,则进入步骤3;步骤6、调用浏览器内核重新下载目标网页的网页源码并解析;步骤7、重新编写CSS选择器,并输入;步骤8、利用重新编写的CSS选择器对解析出的信息进行抓取;步骤9、判断抓取的信息是否满足需要,若满足 ...
【技术特征摘要】
1.快速验证CSS选择器的方法,其特征在于,包括以下步骤:步骤1、从所需网页获取目标网址和CSS选择器并输入目标网址;步骤2、通过HttpClient下载目标网页的网页源码并解析;步骤3、输入CSS选择器并对解析出的信息进行抓取;步骤4、判断抓取的信息是否满足需要,若满足,则结束,若不满足,则进入步骤5;步骤5、判断抓取的信息是否为动态加载信息,若是,则进入步骤6,若不是,则进入步骤3;步骤6、调用浏览器内核重新下载目标网页的网页源码并解析;步骤7、重新编写CSS选择器,并输入;步骤8、利用重新编写的CSS选择器对解析出的信息进行抓取;步骤9、判断抓取的信息是否满足需要,若满足,则结束,若不满足,则进入步骤8。2.根据权利要求1所述的快速验证CSS选择器的方法,其特征在于,步骤1中,所述从所需网页获取目标网址使用的是GetText()函数。3.根据权利要求1所述的快速验证CSS选择器的方法,其特征在于,步骤2中,所述通过HttpClient下载...
【专利技术属性】
技术研发人员:张超,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。