一种数据采集的方法及装置制造方法及图纸

技术编号:14350207 阅读:67 留言:0更新日期:2017-01-04 20:58
本发明专利技术实施例提供了一种数据采集方法及装置,用以采集动态网页的数据,以便在用户需要时为用户提供采集的数据,提高用户体验。所述方法包括:获取网页页面;确定所述网页页面是否为动态页面;在所述网页页面为动态页面时,将所述动态页面发送至渲染装置,以便所述渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;接收所述渲染装置发的可读动态页面;对所述可读动态页面进行解析处理,获取所述可读动态页面的数据。本发明专利技术适用于动态网页数据获取的场景。

【技术实现步骤摘要】

本专利技术涉及网页数据处理
,尤其涉及一种数据采集的方法及装置
技术介绍
富因特网应用程序的广泛使用,倒逼传统数据采集方法的升级。目前很多网站采用富客户端应用技术进行数据的访问,富客户端具有很强交互性,可以为用户提供非常好用户体验和更全方位的数据展现方式。富客户端常常采用脚本语言,如JavaScript或ActionScript等,用于动态HTML和Flash完成编排媒体类型以及数据请求与展现。客户端脚本正在改变界面行为,如通过一个特定的web页面响应鼠标或键盘操作,或在指定时间事件,进行与服务器端的交互。在这种情况下,用户动态行为变得十分重要,数据的请求和展现不再如传统的URL链接方式和HTML页面元素,而是通过富客户端脚本进行,造成了传统数据采集方法难以模仿这种差异性大、方式多样的用户请求。因此,亟需一种能够满足多样化的用户请求的数据采集方法。
技术实现思路
本专利技术的实施例提供一种数据采集方法及装置,用以采集动态网页的数据,以便在用户需要时为用户提供采集的数据,提高用户体验。为达到上述目的,本专利技术的实施例采用如下技术方案:本专利技术实施例提供了一种数据采集方法,包括:获取网页页面;确定所述网页页面是否为动态页面;在所述网页页面为动态页面时,将所述动态页面发送至渲染装置,以便所述渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;接收所述渲染装置发的可读动态页面;对所述可读动态页面进行解析处理,获取所述可读动态页面的数据。可选地,所述对所述可读动态页面进行解析处理,获取所述可读动态页面的数据包括:通过PhantomJS实例化页面技术获取所述可读动态页面的属性与结构;根据所述动态页面属性与结构,获取所述动态页面可读动态页面中的数据。可选地,在所述对所述可读动态页面进行解析处理,获取所述可读动态页面的数据之后,还包括:通过爬虫核心模块对获取的可读动态页面的数据进行存储。进一步的,本专利技术实施例提供了一种数据采集的方法,包括:接收数据采集的装置发送的动态页面;对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;将所述可读动态页面发送至所述数据采集的装置。可选地,在所述对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面之前,还包括:确定对所述动态页面进行渲染处理的空闲渲染装置;所述对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面包括:将所述动态页面分配至所述空闲渲染装置,通过所述空闲渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面。进一步的,本专利技术实施例提供了一种数据采集的装置,包括:获取单元,用于获取网页页面;确定单元,用于确定所述获取单元获取的所述网页页面是否为动态页面;发送单元,用于在所述确定单元确定所述网页页面为动态页面时,将所述动态页面发送至渲染装置,以便所述渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;接收单元,用于接收所述渲染装置发的可读动态页面;所述获取单元,还用于对所述接收单元接收的所述可读动态页面进行解析处理,获取所述可读动态页面的数据。可选地,所述获取单元,具体用于通过PhantomJS实例化页面技术获取所述可读动态页面的属性与结构;根据所述动态页面属性与结构,获取所述动态页面可读动态页面中的数据。可选地,还包括:存储单元,用于通过爬虫核心模块对获取的所述可读动态页面的数据进行存储。进一步的,本专利技术实施例提供了一种渲染装置,包括:接收单元,用于接收数据采集的装置发送的动态页面;处理单元,用于对所述接收单元接收的所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;发送单元,用于将所述可读动态页面发送至所述数据采集的装置。可选地,所述处理单元,具体用于确定对所述动态页面进行渲染处理的空闲渲染装置;将所述动态页面分配至所述空闲渲染装置,通过所述空闲渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面。本专利技术实施例提供了一种数据采集方法及装置,包括:获取网页页面;确定网页页面是否为动态页面;在网页页面为动态页面时,将动态页面发送至渲染装置,以便渲染装置对动态页面进行渲染处理,将动态页面转换为可读动态页面;接收渲染装置发的可读动态页面;对可读动态页面进行解析处理,获取可读动态页面的数据。这样一来,通过数据采集的装置将需要进行数据采集的动态页面发送至能够对动态页面进行渲染处理的渲染装置,进而通过渲染装置将动态页面转换为可读动态页面,获取可读动态页面的数据。本专利技术可以获取到动态页面的数据,进而可以在用户需求时,将采集的数据反馈至用户,实现了通过采集动态网页的数据,为用户提供采集的数据,提高用户体验的目的。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种数据采集的方法的流程示意图;图2为本专利技术实施例提供的另一种数据采集的方法的流程示意图;图3为本专利技术实施例提供的另一种数据采集的方法的流程示意图;图4为本专利技术实施例提供的另一种数据采集的方法的流程示意图图5为本专利技术实施例提供的一种数据采集的装置的结构示意图;图6为本专利技术实施例提供的另一种数据采集的装置的结构示意图;图7为本专利技术实施例提供的一种渲染装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种数据采集的方法,如图1所示,包括:步骤101、获取网页页面。具体的,数据采集的装置可以通过动态抓取的方式获取网页页面。步骤102、确定网页页面是否为动态页面。具体的,数据采集的装置在获取到网页页面后,需要确定此网页页面为静态页面还是动态页面,此时可以根据解析规则,对获取的网页页面进行解析,若能够解析出可读数据,则可以确定此网页页面为静态页面。若解析出的为不可读数据,则可以此网页页面为动态页面。步骤103、在网页页面为动态页面时,将动态页面发送至渲染装置,以便渲染装置对所述动态页面进行渲染处理,将动态页面转换为可读动态页面。具体的,数据采集的装置在确定网页页面为动态页面,需要将其转换为可读动态页面,此时,数据采集的装置可以将其发送至渲染装置,由渲染装置对动态页面进行渲染处理,进而可以将动态页面转换为可读动态页面。步骤104、接收渲染装置发的可读动态页面。具体的,渲染装置在将接收的动态页面转换为可读动态页面后,发送至数据采集的装置。此时数据采集的装置可以接收到接收渲染装置发的可读动态页面。步骤105、对可读动态页面进行解析处理,获取可读动态页面的数据。具体的,数据采集的装置可以在获取到可读动态页面后,对此动态页面进行解析处理,获取到可读动态页面中的数据。进一步的,对可读动态页面进行解析处理,获取可读动态页面的数据包括:通过PhantomJS实例化页面技术获取本文档来自技高网...
一种数据采集的方法及装置

【技术保护点】
一种数据采集的方法,其特征在于,包括:获取网页页面;确定所述网页页面是否为动态页面;在所述网页页面为动态页面时,将所述动态页面发送至渲染装置,以便所述渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;接收所述渲染装置发的可读动态页面;对所述可读动态页面进行解析处理,获取所述可读动态页面的数据。

【技术特征摘要】
1.一种数据采集的方法,其特征在于,包括:获取网页页面;确定所述网页页面是否为动态页面;在所述网页页面为动态页面时,将所述动态页面发送至渲染装置,以便所述渲染装置对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;接收所述渲染装置发的可读动态页面;对所述可读动态页面进行解析处理,获取所述可读动态页面的数据。2.根据权利要求1所述的方法,其特征在于,所述对所述可读动态页面进行解析处理,获取所述可读动态页面的数据包括:通过PhantomJS实例化页面技术获取所述可读动态页面的属性与结构;根据所述动态页面属性与结构,获取所述动态页面可读动态页面中的数据。3.根据权利要求2所述的方法,其特征在于,在所述对所述可读动态页面进行解析处理,获取所述可读动态页面的数据之后,还包括:通过爬虫核心模块对获取的可读动态页面的数据进行存储。4.一种数据采集的方法,其特征在于,包括:接收数据采集的装置发送的动态页面;对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面;将所述可读动态页面发送至所述数据采集的装置。5.根据权利要求4所述的方法,其特征在于,在所述对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面之前,还包括:确定对所述动态页面进行渲染处理的空闲渲染装置;所述对所述动态页面进行渲染处理,将所述动态页面转换为可读动态页面包括:将所述动态页面分配至所述空闲渲染装置,通过所述空闲渲染装置对所述动态页面进行渲染处理,将所述动态页...

【专利技术属性】
技术研发人员:王茂帅柳廷娜高峰甄教明王明君
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1