一种自动化网络数据采集方法技术

技术编号:33046314 阅读:66 留言:0更新日期:2022-04-15 09:30
本发明专利技术涉及网络数据技术领域,公开了一种自动化网络数据采集方法,所述采集方法包括:S1、对网络数据进行采集,得到原始网页;S2、对原始网页进行数据提取,得到解析后网页;S3、对解析后网页进行去空、去错、去重复、归一化及残缺值补充处理,得到处理后数据;S4、对处理后数据进行存储;S5、对存储的数据进行处理。本发明专利技术的自动化网络数据采集方法能够对第三平台公开的数据进行24小时不间断采集,支持分钟级别第三方平台数据检索同步,多个站点增量部分数据更新能做到秒级更新,无需人工监管,同时通过关键词检索配置,可实现自动化检索的同时过滤掉无关内容,提高精准度,实现无监督、无遗漏、快速可迭代式数据采集。快速可迭代式数据采集。快速可迭代式数据采集。

【技术实现步骤摘要】
一种自动化网络数据采集方法


[0001]本专利技术涉及网络数据
,尤其是涉及一种自动化网络数据采集方法。

技术介绍

[0002]网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。
[0003]目前,在国内外行业10个站点数据获取时,如果通过传统数据搜集整理方式,想要短时间内检索到相关内容并更新到我们的站点,不仅人力成本较大,检索速度也较慢,同时检索频次也较低,无法做到第三方平台数据同步更新,并且可能存在人工采集出的数据出错的情况。

技术实现思路

[0004]本专利技术的目的在于提供一种自动化网络数据采集方法,能够自动无间歇的进行数据采集且检索速度更快。
[0005]本专利技术为了实现上述目的具体采用以下技术方案:一种自动化网络数据采集方法,所述采集方法包括:S1、对网络数据进行采集,得到原始网页;S2、对所述原始网页进行数据提取,得到解析后网页;S3、对所述解析后网页进行去空、去错、去重复、归一化及残缺值补充处理,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自动化网络数据采集方法,其特征在于,所述采集方法包括:S1、对网络数据进行采集,得到原始网页;S2、对所述原始网页进行数据提取,得到解析后网页;S3、对所述解析后网页进行去空、去错、去重复、归一化及残缺值补充处理,得到处理后数据;S4、对所述处理后数据进行存储;S5、对存储的数据进行处理。2.根据权利要求1所述的采集方法,其特征在于,所述S1、对网络数据进行采集,得到原始网页具体包括:S11、通过Spider爬虫引擎发出URL爬虫请求;S12、通过Scheduler任务调度进行自动化任务调度;S13、对采集的URL数据进行解析,并以将解析后的ULR数据以队列的形式进行存储;S14、进行采集配置,并得到原始网页。3.根据权利要求2所述的采集方法,其特征在于,所述S12、通过Scheduler任务调度进行自动化任务调度具体为:配置反爬规则、分布式部署及自动化引擎。4.根据权利要求2所述的采集方法,其特征在于,所述ULR数据包括每个ULR的访问量、有效访问量、正确解析入队次数、是否需要User Agent参数、URL类型及URL平台。5.根据权利要求2所述的采集方法,其特征在于,所述S14、进行采集配置,并得到原始网页具体为:配置爬虫请求头、爬虫代理、爬虫访问频次及爬虫反爬;进行cookie解析、动态破解解析、JS加密破解、CSS加密破解及并发控制。6.根据权利要求1...

【专利技术属性】
技术研发人员:武亚洲王治胜童曦
申请(专利权)人:陕西数图行信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1