一种从Web上自动获取列表数据的方法技术

技术编号：12917231 阅读：66 留言：0更新日期：2016-02-24 23:43

本发明专利技术涉及大数据技术领域，具体涉及一种从Web上自动获取列表数据的方法。本发明专利技术方法包括：1.对获取的数据来源进行Web分析，包括Html请求URL、分页参数、Web编码、页面Html结构等进行分析；2.通过配置把要获取的数据相关参数(包括任务名称、Html请求、分页参数、Web编码、页面Html结构等)用于获取数据列表并保存到数据库表上；3.通过系统在后台自动判断数据列表是否有更新并自动启动数据列表获取任务并把数据列表保存到指定的数据库上，用于相关的数据分析。本发明专利技术解决了要进行特定的大数据分析时没有数据或数据量不足、或数据只存在Web上无法对数据直接使用的问题，本发明专利技术可广泛应用于大数据分析的数据获取应用方面。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据
，具体涉及一种从Web上自动获取列表数据的方法。
技术介绍
随着大数据概念的发展与普及，越来越多的领域都期望从数据分析上获取价值；但要进行分析的数据不够、或分析数据只存在Web上；比如分析海关网站上公布的各月的进出口统计数据，这些数据海关不会按特定的格式(例如数据表结构)进行发布，只会每月按Web的形式进行公布。这些需要对这些数据进行分析的时候，只能通过手工获取，而且每个月都要获取一次，不仅劳动量大，而且容易出错。一般来说公布在Web上的数据在Html结构上存在相同性，因此可通过一次性的Html解析来循环对数据进行获取，并保存到指定的数据库上用于大数据的分析，从而进行进一步的分析来获取可用的价值信息。类似的对工商局公布的企业信息、股票的交易信息等数据的获取，都可通过此种方法，从而形成本地的数据资料库，并进一步进行数据的分析。一般通过网上公布的Web数据是通过Html格式进行展示的，并且数据的展示一般是通过动态的数据装载，所以对于网上数据的获取，可通过程序进行获取后保存到特定的数据库。从网上对Web页面的获取，最重要的是对Web进行完整的Html获取并准确地解析。
技术实现思路
本专利技术解决的问题在于提供一种从Web上自动获取列表数据的方法，从而为特定领域的大数据分析提供了充分的数据来源，为特定领域的分析提高数据分析的准确性，产生有用的价值。本专利技...

【技术保护点】
一种从Web上自动获取列表数据的方法，其特征在于：所述的方法包括以下步骤：步骤一，分析获取数据列表的Web页面HTML结构；步骤二，配置任务名称、Web页面数据列表抓取相关配置并保存；步骤三，判断是否有新数据；是则进入下一步骤；步骤四，进行Web页面数据抓取相关配置；步骤五，通过Web页面的URL后台获取数据抓取页面的整体HTML；步骤六，获取抓取数据的区域块、进行分行、分列、数据截取；步骤七，判断数据是否已存在，是则结束，否则进入下一步骤；步骤八，把数据保存到指定的数据库表上；步骤九，判断是否有下一页需要抓取；有则返回到步骤四；否则结束；结束。

【技术特征摘要】
1.一种从Web上自动获取列表数据的方法，其特征在于：所述的方法包括
以下步骤：
步骤一，分析获取数据列表的Web页面HTML结构；
步骤二，配置任务名称、Web页面数据列表抓取相关配置并保存；
步骤三，判断是否有新数据；是则进入下一步骤；
步骤四，进行Web页面数据抓取相关配置；
步骤五，通过Web页面的URL后台获取数据抓取页面的整体HTML；
步骤六，获取抓取数据的区域块、进行分行、分列、数据截取；
步骤七，判断数据是否已存在，是则结束，否则进入下一步骤；
步骤八，把数据保存到指定的数据库表上；
步骤九，判断是否有下一页需要抓取；有则返回到步骤四；否则结束；
结束。
2.根据权利要求1所述的从Web上自动获取列表数据的方法，其特征在于：
所述的步骤二的配置是：
配置数据抓取的Web页面URL、翻页参数、页面编码、页面请求间隔时间、
数据列表展示的排序顺序；配置Html结构上的数据列表抓取数据区域块；配置
从数据抓取数据列表区域块的分行标识；配置数据抓取区域块的行数据的分列
标识；配置数据抓取的列数据的截取值、数据保存字段名称、类型、长度，数
据保存的数据库表；配置抓取的任务名称，在系统在后台通过判断是否有更新
的数据，启动任务运行实现数据的自动抓取。
3.根据权利要求2所述的从Web上自动获取列表数据的方法，其特征在于：

\t所述的通过配置指定数据抓取的Web页面URL、翻页参数、页面编码、页面请
求间隔时间、数据列表展示的排序顺序等参数，用于后台的数据获取；其中数
据抓取的Web页面URL用于获取页面Html结构的链接；翻页参数用于处理存
在多页请求的情况，或通过自动增加页面数不断获取数据；页面编码用于指定
请求时使用的编码，以避免获取的数据产生乱码；页面请求间隔时间用于设置
请求的间隔时间，避免产生被服务器屏蔽的情况；数据展示的排序顺序，存在
正序与倒序两种情况，对于正序的排序，下一次的数据抓取任务要从上一次的
数据抓取最后页面数抓起，对于倒序的排序，下一次的数据抓取任务从第一页
开始抓起。
4.根据权利要求2所述的从Web上自动获取列表数据的方法，其特征在于：
所述的Web页面URL获取了Html数据后，通过系统自动判断存在的数据区域
块，并返回给操作人员选择确定数据的抓取区域块，用于后续的行数据获取。
5.根据权利要求2所述的从Web上自动获取列表数据的方法，其特征在于：
所述的配置从数据抓取数据列表区域块的分行标识，通过截取后的数据抓取区
域块，判断整个数据区域块的分行标识，从而实现整个数据块的行数据分隔，
用于后续的列数据获取。
6.根据权利要求2所述的从Web上自动获取列表数据的方法，其特征在于：
所述的配置数据抓取区域块的行数据的分列标识，通过分行后获取的行数据，
判断每行数据的分行标识，从而实现每行数据中各列数据的分隔，用于最终的
各列数据的抓取。
7.根据权利要求2所述的从Web上自动获取列表数据的方法，其特征在于：
所述的配置数据抓取的列数据的截取值、数据保存字段名称、类型、长度，数
据保存的数据库表，对要数据抓取的列数据进行选择，并对各列通过Html形式
展示的数据可能存在的其他标识进行去除，同时配置数据抓取保存的数据表...

【专利技术属性】
技术研发人员：郑锐韬，季统凯，
申请(专利权)人：国云科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人