HTML网页数据采集方法、装置和计算机可读存储介质制造方法及图纸

技术编号:17442208 阅读:28 留言:0更新日期:2018-03-10 14:58
本发明专利技术提供了一种HTML网页数据采集方法,包括:判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。本发明专利技术还提供一种HTML网页数据采集装置和计算机可读存储介质。本发明专利技术通过对目标页面包含的列表页面的详细页路径规则进行直接抓取,从而在方法上简化了对HTML网页数据采集的步骤,由原来的由上到下的逐渐层级的去击中目标数据,改为了通过对当前页面的列表页面的详细页信息直接采集,从而使采集数据的用户直接面对目标数据,抓取过程中不会产生大量垃圾信息,数据抓取方法简便,提高了数据抓取效率,省时省力。

【技术实现步骤摘要】
HTML网页数据采集方法、装置和计算机可读存储介质
本专利技术涉及数据采集的
,具体而言,涉及一种HTML网页数据采集方法、装置和计算机可读存储介质。
技术介绍
互联网(英语:Internet),又称网际网络,或音译因特网(Internet)、英特网,互联网始于1969年美国的阿帕网。是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。通常internet泛指互联网,而Internet则特指因特网。这种将计算机网络互相联接在一起的方法可称作“网络互联”,在这基础上发展出覆盖全世界的全球性互联网络称互联网,即是互相连接一起的网络结构。互联网并不等同万维网,万维网只是一建基于超文本相互链接而成的全球性系统,且是互联网所能提供的服务其中之一。随着互联网的普及,万维网已经成为巨大的数据载体,如何有效的利用这些数据成为了巨大的挑战。传统的搜索引擎比如谷歌浏览器是人们访问万维网的入口,但此类的搜索引擎也存在着一定的局限性,比如不同领域的人们有不同的检索需求,而通过传统浏览器搜索出的数据包含了大量人们不需要的信息。通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。总之,现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取,并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据,无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低。
技术实现思路
有鉴于此,本专利技术提供一种HTML网页数据采集方法、装置和计算机可读存储介质,旨在于解决目前现有技术中的数据采集方法无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低缺陷。为实现上述目的,本专利技术提供HTML网页数据采集方法,所述HTML网页数据采集方法包括如下步骤:判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。优选地,所述步骤判断当前页面是否包括列表页面之后,还包括:若否,则获取根据所述当前页面生成的详细字段信息;保存所述详细字段信息。优选地,所述步骤若是,则根据所述列表页面对所述当前页面生成目标列表模块之后,还包括:判断所述目标列表模块下的下一级链接是否包含第二列表页面;若是,则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。优选地,所述步骤采集所述目标列表模块的详细页信息,并生成详细页路径规则之后,还包括:将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取。优选地,所述步骤将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取之后,还包括:定时和/或实时获取保存的详细页路径规则;判断所述详细页路径规则是否有效;若否,保存错误信息;若所述详细页路径规划的累计的错误信息数达到预设错误值,提示网页失效,并返回判断当前页面是否包括列表页面的步骤。优选地,所述步骤判断当前页面是否包括列表页面之前,还包括登录成功后,获取开启插件的指令;根据所述指令,将所述插件嵌入至浏览器页面,以供所述插件进一步的判断当前页面是否包括列表页面。优选地,所述登录成功后,获取开启插件的指令之前,还包括:获取本地预存的登录信息;判断是否存在本地账号;若是,则读取本地账号,并登录;若否,则输入账号密码注册,并登录。此外,为解决上述问题,本专利技术还提供一种HTML网页数据采集装置,所述HTML网页数据采集装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的HTML网页数据采集程序,所述HTML网页数据采集程序被处理器执行时实现如上述所述的HTML网页数据采集方法的步骤。此外,为解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有HTML网页数据采集程序,所述HTML网页数据采集程序被处理器执行时实现如上述所述的HTML网页数据采集方法的步骤。本专利技术提出一种HTML网页数据采集方法、装置和计算机可读存储介质,判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。通过对目标页面包含的列表页面的详细页路径规则进行直接抓取,从而在方法上简化了对HTML网页数据采集的步骤,由原来的由上到下的逐渐层级的去击中目标数据,改为了通过对当前页面的列表页面的详细页信息直接采集,从而使采集数据的用户直接面对目标数据,抓取过程中不会产生大量垃圾信息,数据抓取方法简便,提高了数据抓取效率,省时省力;避免了在对网路数据采集和抓取的过程中大量垃圾数据的产生,也同时避免了现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取,并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据,无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低的缺陷。附图说明图1为本专利技术HTML网页数据采集方法实施例方案涉及的硬件运行环境的结构示意图;图2为本专利技术HTML网页数据采集方法第一实施例的流程示意图;图3为本专利技术HTML网页数据采集方法第二实施例的流程示意图;图4为本专利技术HTML网页数据采集方法第三实施例的流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例的主要解决方案是:判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。由于现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取,并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据,无法控制抓取深度、垃圾信息多,方法繁琐,费时费力,效率低。本专利技术提供一种解决方案,通过判断当前页面是否包括列表页面,从而直接对页面的详细页路径规划进行抓取,从而使原来的由上到下的逐渐层级的去击中目标数据,改为了通过对当前页面的列表页面的详细页信息直接采集,从而使采集数据的用户直接面对目标数据,抓取过程中不会产生大量垃圾信息,数据抓取方法简便,提高了数据抓取效率,省时省力。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境的终端结构示意图。本专利技术实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)播放器、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。如图1所示,该HTML网页数据采集装置可以包括:处理器1001,例如CPU,数据接口1003,存储器1004,通信总线1002和数据采集控制装置1005。其中,通信总本文档来自技高网...
HTML网页数据采集方法、装置和计算机可读存储介质

【技术保护点】
一种HTML网页数据采集方法,其特征在于,包括以下步骤:判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。

【技术特征摘要】
1.一种HTML网页数据采集方法,其特征在于,包括以下步骤:判断当前页面是否包括列表页面;若是,则根据所述列表页面对所述当前页面生成目标列表模块;采集所述目标列表模块的详细页信息,并生成详细页路径规则。2.如权利要求1所述HTML网页数据采集方法,其特征在于,所述步骤判断当前页面是否包括列表页面之后,还包括:若否,则获取根据所述当前页面生成的详细字段信息;保存所述详细字段信息。3.如权利要求1所述HTML网页数据采集方法,其特征在于,所述步骤若是,则根据所述列表页面对所述当前页面生成目标列表模块之后,还包括:判断所述目标列表模块下的下一级链接是否包含第二列表页面;若是,则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。4.如权利要求1所述HTML网页数据采集方法,其特征在于,所述步骤采集所述目标列表模块的详细页信息,并生成详细页路径规则之后,还包括:将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取。5.如权利要求1所述HTML网页数据采集方法,其特征在于,所述步骤将保存的所述详细页路径规则发送至云端数据库,以供对所述云端数据库中的所述详细页路径规则的再次读取之后,还包括:定时和/或实时获取保存的详细页路径规...

【专利技术属性】
技术研发人员:张帅
申请(专利权)人:深圳市科盾科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1