【技术实现步骤摘要】
本专利技术涉及大数据
,具体涉及一种从Web上自动获取列表数据的方法。
技术介绍
随着大数据概念的发展与普及,越来越多的领域都期望从数据分析上获取价值;但要进行分析的数据不够、或分析数据只存在Web上;比如分析海关网站上公布的各月的进出口统计数据,这些数据海关不会按特定的格式(例如数据表结构)进行发布,只会每月按Web的形式进行公布。这些需要对这些数据进行分析的时候,只能通过手工获取,而且每个月都要获取一次,不仅劳动量大,而且容易出错。一般来说公布在Web上的数据在Html结构上存在相同性,因此可通过一次性的Html解析来循环对数据进行获取,并保存到指定的数据库上用于大数据的分析,从而进行进一步的分析来获取可用的价值信息。类似的对工商局公布的企业信息、股票的交易信息等数据的获取,都可通过此种方法,从而形成本地的数据资料库,并进一步进行数据的分析。一般通过网上公布的Web数据是通过Html格式进行展示的,并且数据的展示一般是通过动态的数据装载,所以对于网上数据的获取,可通过程序进行获取后保存到特定的数据库。从网上对Web页面的获取,最重要的是对Web进行完整的Html获取并准确地解析。
技术实现思路
本专利技术解决的问题在于提供一种从Web上自动获取列表数据的方法,从而为特定领域的大数据分析提供了充分的数据来源,为特定领域的分析提高数据分析的准确性,产生有用的价值。本专利技 ...
【技术保护点】
一种从Web上自动获取列表数据的方法,其特征在于:所述的方法包括以下步骤:步骤一,分析获取数据列表的Web页面HTML结构;步骤二,配置任务名称、Web页面数据列表抓取相关配置并保存;步骤三,判断是否有新数据;是则进入下一步骤;步骤四,进行Web页面数据抓取相关配置;步骤五,通过Web页面的URL后台获取数据抓取页面的整体HTML;步骤六,获取抓取数据的区域块、进行分行、分列、数据截取;步骤七,判断数据是否已存在,是则结束,否则进入下一步骤;步骤八,把数据保存到指定的数据库表上;步骤九,判断是否有下一页需要抓取;有则返回到步骤四;否则结束;结束。
【技术特征摘要】
1.一种从Web上自动获取列表数据的方法,其特征在于:所述的方法包括
以下步骤:
步骤一,分析获取数据列表的Web页面HTML结构;
步骤二,配置任务名称、Web页面数据列表抓取相关配置并保存;
步骤三,判断是否有新数据;是则进入下一步骤;
步骤四,进行Web页面数据抓取相关配置;
步骤五,通过Web页面的URL后台获取数据抓取页面的整体HTML;
步骤六,获取抓取数据的区域块、进行分行、分列、数据截取;
步骤七,判断数据是否已存在,是则结束,否则进入下一步骤;
步骤八,把数据保存到指定的数据库表上;
步骤九,判断是否有下一页需要抓取;有则返回到步骤四;否则结束;
结束。
2.根据权利要求1所述的从Web上自动获取列表数据的方法,其特征在于:
所述的步骤二的配置是:
配置数据抓取的Web页面URL、翻页参数、页面编码、页面请求间隔时间、
数据列表展示的排序顺序;配置Html结构上的数据列表抓取数据区域块;配置
从数据抓取数据列表区域块的分行标识;配置数据抓取区域块的行数据的分列
标识;配置数据抓取的列数据的截取值、数据保存字段名称、类型、长度,数
据保存的数据库表;配置抓取的任务名称,在系统在后台通过判断是否有更新
的数据,启动任务运行实现数据的自动抓取。
3.根据权利要求2所述的从Web上自动获取列表数据的方法,其特征在于:
\t所述的通过配置指定数据抓取的Web页面URL、翻页参数、页面编码、页面请
求间隔时间、数据列表展示的排序顺序等参数,用于后台的数据获取;其中数
据抓取的Web页面URL用于获取页面Html结构的链接;翻页参数用于处理存
在多页请求的情况,或通过自动增加页面数不断获取数据;页面编码用于指定
请求时使用的编码,以避免获取的数据产生乱码;页面请求间隔时间用于设置
请求的间隔时间,避免产生被服务器屏蔽的情况;数据展示的排序顺序,存在
正序与倒序两种情况,对于正序的排序,下一次的数据抓取任务要从上一次的
数据抓取最后页面数抓起,对于倒序的排序,下一次的数据抓取任务从第一页
开始抓起。
4.根据权利要求2所述的从Web上自动获取列表数据的方法,其特征在于:
所述的Web页面URL获取了Html数据后,通过系统自动判断存在的数据区域
块,并返回给操作人员选择确定数据的抓取区域块,用于后续的行数据获取。
5.根据权利要求2所述的从Web上自动获取列表数据的方法,其特征在于:
所述的配置从数据抓取数据列表区域块的分行标识,通过截取后的数据抓取区
域块,判断整个数据区域块的分行标识,从而实现整个数据块的行数据分隔,
用于后续的列数据获取。
6.根据权利要求2所述的从Web上自动获取列表数据的方法,其特征在于:
所述的配置数据抓取区域块的行数据的分列标识,通过分行后获取的行数据,
判断每行数据的分行标识,从而实现每行数据中各列数据的分隔,用于最终的
各列数据的抓取。
7.根据权利要求2所述的从Web上自动获取列表数据的方法,其特征在于:
所述的配置数据抓取的列数据的截取值、数据保存字段名称、类型、长度,数
据保存的数据库表,对要数据抓取的列数据进行选择,并对各列通过Html形式
展示的数据可能存在的其他标识进行去除,同时配置数据抓取保存的数据表...
【专利技术属性】
技术研发人员:郑锐韬,季统凯,
申请(专利权)人:国云科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。