HTML网页数据采集方法、装置和计算机可读存储介质制造方法及图纸

技术编号：17442208 阅读：28 留言：0更新日期：2018-03-10 14:58

本发明专利技术提供了一种HTML网页数据采集方法，包括：判断当前页面是否包括列表页面；若是，则根据所述列表页面对所述当前页面生成目标列表模块；采集所述目标列表模块的详细页信息，并生成详细页路径规则。本发明专利技术还提供一种HTML网页数据采集装置和计算机可读存储介质。本发明专利技术通过对目标页面包含的列表页面的详细页路径规则进行直接抓取，从而在方法上简化了对HTML网页数据采集的步骤，由原来的由上到下的逐渐层级的去击中目标数据，改为了通过对当前页面的列表页面的详细页信息直接采集，从而使采集数据的用户直接面对目标数据，抓取过程中不会产生大量垃圾信息，数据抓取方法简便，提高了数据抓取效率，省时省力。

全部详细技术资料下载

【技术实现步骤摘要】
HTML网页数据采集方法、装置和计算机可读存储介质
本专利技术涉及数据采集的
，具体而言，涉及一种HTML网页数据采集方法、装置和计算机可读存储介质。
技术介绍
互联网(英语：Internet)，又称网际网络，或音译因特网(Internet)、英特网，互联网始于1969年美国的阿帕网。是网络与网络之间所串连成的庞大网络，这些网络以一组通用的协议相连，形成逻辑上的单一巨大国际网络。通常internet泛指互联网，而Internet则特指因特网。这种将计算机网络互相联接在一起的方法可称作“网络互联”，在这基础上发展出覆盖全世界的全球性互联网络称互联网，即是互相连接一起的网络结构。互联网并不等同万维网，万维网只是一建基于超文本相互链接而成的全球性系统，且是互联网所能提供的服务其中之一。随着互联网的普及，万维网已经成为巨大的数据载体，如何有效的利用这些数据成为了巨大的挑战。传统的搜索引擎比如谷歌浏览器是人们访问万维网的入口，但此类的搜索引擎也存在着一定的局限性，比如不同领域的人们有不同的检索需求，而通过传统浏览器搜索出的数据包含了大量人们不需要的信息。通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。总之，现有技术中的数据采集方法为通过搜索引擎对该引擎所覆盖的所有数据进行抓取，并且需要通过在大量数据中不断进入不同层级的目录、板块或模块才能最终有可能找到目标数据，无法控制抓取深度、垃圾信息多，方法繁琐，费时费力，效率低。
技术实现思路
...
HTML网页数据采集方法、装置和计算机可读存储介质

【技术保护点】
一种HTML网页数据采集方法，其特征在于，包括以下步骤：判断当前页面是否包括列表页面；若是，则根据所述列表页面对所述当前页面生成目标列表模块；采集所述目标列表模块的详细页信息，并生成详细页路径规则。

【技术特征摘要】
1.一种HTML网页数据采集方法，其特征在于，包括以下步骤：判断当前页面是否包括列表页面；若是，则根据所述列表页面对所述当前页面生成目标列表模块；采集所述目标列表模块的详细页信息，并生成详细页路径规则。2.如权利要求1所述HTML网页数据采集方法，其特征在于，所述步骤判断当前页面是否包括列表页面之后，还包括：若否，则获取根据所述当前页面生成的详细字段信息；保存所述详细字段信息。3.如权利要求1所述HTML网页数据采集方法，其特征在于，所述步骤若是，则根据所述列表页面对所述当前页面生成目标列表模块之后，还包括：判断所述目标列表模块下的下一级链接是否包含第二列表页面；若是，则根据所述列表模块的下一级链接的第二列表页面生成第二目标列表模块。4.如权利要求1所述HTML网页数据采集方法，其特征在于，所述步骤采集所述目标列表模块的详细页信息，并生成详细页路径规则之后，还包括：将保存的所述详细页路径规则发送至云端数据库，以供对所述云端数据库中的所述详细页路径规则的再次读取。5.如权利要求1所述HTML网页数据采集方法，其特征在于，所述步骤将保存的所述详细页路径规则发送至云端数据库，以供对所述云端数据库中的所述详细页路径规则的再次读取之后，还包括：定时和/或实时获取保存的详细页路径规...

【专利技术属性】
技术研发人员：张帅，
申请(专利权)人：深圳市科盾科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人