一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法技术方案

技术编号:20545983 阅读:35 留言:0更新日期:2019-03-09 18:54
本发明专利技术涉及互联网网页抓取技术领域,具体涉及一种基于无界面浏览器和可配置代理拦截的网页抓取系统,包括无界面浏览器启动模块、页面下载模块、内容选择模块。本发明专利技术还公开了一种抓取方法,包括无界面浏览器启动模块启动无界面浏览器,并指定无界面浏览器的网址、代理参数、网站参数、选择无界面浏览器网址页面链接标签,并加入至页面下载模块中、页面下载模块拦截浏览器的页面返回结果,并保存、内容选择模块配置页面的内容选择规则、内容选择模块根据内容选择规则选取指定区域内容的数据。本发明专利技术通过无界面浏览器渲染网页技术,将服务器返回的动静态页面生成纯HTML静态页面,根据内容选择模块限定的规则,抓取网页的数据。

A Web Grabbing System and Method Based on Interface-Free Browser and Configurable Agent Interception

The invention relates to the technical field of Internet web page crawling, in particular to a web page crawling system based on no-interface browser and configurable agent interception, including no-interface browser startup module, page download module and content selection module. The invention also discloses a grabbing method, which includes starting the non-interface browser by the non-interface browser startup module, specifying the non-interface browser's website, proxy parameters, website parameters, selecting the non-interface browser's website page link label, and adding it to the page download module, the page download module intercepts the browser's page return results, and saves the content selection module. The content selection rules of the configuration page and the content selection module select the data of the content of the specified area according to the content selection rules. The present invention generates pure HTML static pages from the dynamic and static pages returned by the server through the technology of rendering web pages without interface browser, and grabs the data of web pages according to the rules defined by the content selection module.

【技术实现步骤摘要】
一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法
本专利技术涉及互联网网页抓取
,具体涉及一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法。
技术介绍
随着信息技术发展,互联网已经成为大量信息的载体,而如何利用有效的技术手段提取和利用这些信息成了一个巨大的挑战,目前已有的方案是通过模拟浏览器的发包行为加以获取,但大多需要掌握专业的协议知识,和应对网站反爬的措施,技术门槛相对较高。而模拟浏览器的行为会被服务器认为是恶意访问,会被封锁,导致爬取中断。
技术实现思路
本专利技术的目的在于克服现有技术中存在的问题,提供一种基于无界面浏览器和可配置代理拦截的网页抓取系统及抓取方法,它可以通过该系统能将所选取的网页的数据进行缓存,使抓取效果更佳,该抓取方法通过无界面浏览器渲染网页技术,将服务器返回的动静态页面生成纯HTML静态页面,根据内容选择模块限定的规则,抓取网页的数据。为实现上述技术目的,达到上述技术效果,本专利技术是通过以下技术方案实现的:一种基于无界面浏览器和可配置代理拦截的网页抓取系统,包括:无界面浏览器启动模块,所述无界面浏览器启动模块用于启动无界面浏览器;页面下载模块,所述页面下载模块用于将待拦截网页的页面标签加入其内;内容选择模块,所述内容选择模块用于配置待拦截网页的内容选择规则,并根据所述内容选择规则选取待拦截网页的数据,且将所述数据缓存至缓存区。进一步地,还包括数据缓存模块,所述数据缓存模块用于接收所述缓存区内缓存满后的数据。一种抓取方法,包括如下步骤:步骤1、无界面浏览器启动模块启动无界面浏览器,并指定无界面浏览器的网址、代理参数、网站参数;步骤2、选择无界面浏览器网址页面链接标签,并加入至页面下载模块中;步骤3、页面下载模块拦截浏览器的页面返回结果,并保存;步骤4、内容选择模块配置页面的内容选择规则;步骤5、内容选择模块根据内容选择规则选取指定区域内容的数据;步骤6、内容选择模块将数据发送至缓存区内。进一步地,还包括:步骤7、缓存区内的数据缓存满后,将由内容选择模块将其发送至数据缓存模块。本专利技术的有益效果:通过该系统能将所选取的网页的数据进行缓存,使抓取效果更佳,该抓取方法中,通过无界面浏览器渲染网页技术,将服务器返回的动静态页面生成纯HTML静态页面,根据内容选择模块限定的规则,抓取网页的数据,通过数据缓存模块将抓取的网页数据进行缓存,使能够不断地对网页进行抓取,从而防止网页数据量过大,产生冲突。附图说明图1为本专利技术一种基于无界面浏览器和可配置代理拦截的网页抓取系统的框架示意图;图2为本专利技术一种抓取方法的流程示意图。具体实施方式为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。如图1所示的一种基于无界面浏览器和可配置代理拦截的网页抓取系统,包括:无界面浏览器启动模块,所述无界面浏览器启动模块用于启动无界面浏览器;页面下载模块,所述页面下载模块用于将待拦截网页的页面标签加入其内;内容选择模块,所述内容选择模块用于配置待拦截网页的内容选择规则,并根据所述内容选择规则选取待拦截网页的数据,且将所述数据缓存至缓存区。还包括数据缓存模块,所述数据缓存模块用于接收所述缓存区内缓存满后的数据。如图2所示的一种抓取方法,包括如下步骤:步骤1、无界面浏览器启动模块启动无界面浏览器,并指定无界面浏览器的网址、代理参数、网站参数;步骤2、选择无界面浏览器网址页面链接标签,并加入至页面下载模块中;步骤3、页面下载模块拦截浏览器的页面返回结果,并保存,将浏览器返回的动静态页面生成纯HTML静态页面;步骤4、内容选择模块配置页面的内容选择规则;步骤5、内容选择模块根据内容选择规则选取指定区域内容的数据,从而抓取网页的数据;步骤6、内容选择模块将数据发送至缓存区内,抓取的网页的数据缓存至缓存区内;还包括:步骤7、缓存区内的数据缓存满后,将由内容选择模块将其发送至数据缓存模块,通过内容选择模块将抓取的网页的数据发送至缓存区内并保存使数据能够源源不断地被抓取,避免网页数据量过大,产生冲突。以上公开的本专利技术优选实施例只是用于帮助阐述本专利技术。优选实施例并没有详尽叙述所有的细节,也不限制该专利技术仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本专利技术的原理和实际应用,从而使所属
技术人员能很好地理解和利用本专利技术。本专利技术仅受权利要求书及其全部范围和等效物的限制。本文档来自技高网
...

【技术保护点】
1.一种基于无界面浏览器和可配置代理拦截的网页抓取系统,其特征在于,包括:无界面浏览器启动模块,所述无界面浏览器启动模块用于启动无界面浏览器;页面下载模块,所述页面下载模块用于将待拦截网页的页面标签加入其内;内容选择模块,所述内容选择模块用于配置待拦截网页的内容选择规则,并根据所述内容选择规则选取待拦截网页的数据,且将所述数据缓存至缓存区。

【技术特征摘要】
1.一种基于无界面浏览器和可配置代理拦截的网页抓取系统,其特征在于,包括:无界面浏览器启动模块,所述无界面浏览器启动模块用于启动无界面浏览器;页面下载模块,所述页面下载模块用于将待拦截网页的页面标签加入其内;内容选择模块,所述内容选择模块用于配置待拦截网页的内容选择规则,并根据所述内容选择规则选取待拦截网页的数据,且将所述数据缓存至缓存区。2.根据权利要求1所述的一种基于无界面浏览器和可配置代理拦截的网页抓取系统,其特征在于,还包括数据缓存模块,所述数据缓存模块用于接收所述缓存区内缓存满后的数据。3.一种根据权利要求1所述的网页...

【专利技术属性】
技术研发人员:朱静轩刘国庆章文友孟彦
申请(专利权)人:中新网络信息安全股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1