一种网络数据采集、存储及处理方法及系统技术方案

技术编号:16427851 阅读:30 留言:0更新日期:2017-10-21 22:39
本发明专利技术涉及一种网络数据采集、存储及处理方法,包括以下步骤:S1:对网络数据进行采集;S2:对采集到的数据进行存储;S3:将存储的数据进行处理。其中,所述步骤S1中具体包括:S11:对URL进行存储管理分析;S12:进行自动化任务调度;S13:生成并行化爬取任务,将抓取的HTML文件进行保存;S14:解析HTML文档树,提取需要的字段信息。本发明专利技术还提供了一种用于实现上述方法的网络数据采集、存储及处理系统。相比于现有技术,本发明专利技术可以实现了对网络信息中有价值数据的采集,并通过离线解析文档提取结构化信息,比现有的网络数据采集装置有更好的采集效率和稳定性。

A network data acquisition, storage and processing method and system

The invention relates to a network data collection, storage and processing method, which comprises the following steps: S1: to collect network data; S2: to store the collected data; S3: the storage of data processing. Among them, the steps of S1 include: S11: storage management analysis of URL; S12: automated task scheduling; S13: generation of parallel crawling task will grab HTML files for S14 preservation; HTML document parsing tree, field information extraction needs. The invention also provides a network data acquisition, storage and processing system for realizing the above method. Compared with the prior art, the invention can realize the value of the data collection of network information, and structured information through off-line analytical document extraction, have better efficiency and stability than the acquisition of existing network data acquisition device.

【技术实现步骤摘要】
一种网络数据采集、存储及处理方法及系统
本专利技术涉及网络数据领域,特别是一种一种网络数据采集、存储及处理方法及系统。
技术介绍
信息网络技术的快速发展,带来了网络信息量的指数性增长。在网络信息资源充足的条件下,为了快速、针对性获取相关网络信息,促使了搜索引擎的诞生。搜索引擎是指运用特定的计算机程序按照一定的策略自动从因特网上搜集信息,在对信息进行组织和处理以后,提供给用户检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎从因特网上搜集信息的过程,依赖于网络蜘蛛对相关网站信息的爬取。网络蜘蛛是一种自动浏览网络,分析网页内容的程序,是搜索引擎的重要组成部分。在现有技术中,对于普通的搜索引擎,网络爬虫从一个或若干初始网页的URL开始,在抓取网页的过程中,不断从当前页面上匹配新的URL放入待抓取URL队列中,直到满足系统特定的停止条件。另外,网络爬虫通过普通请求进行机械式操作不断爬取网站信息,消耗大量网站资源,造成网站负载过大甚至导致网站奔溃。有些网络爬虫并没有使用用户代理(UserAgent)伪装,容易被目标站点列为黑名单。如今网页的结构越来越复杂,有些基于AJAX异步加载的页面数据难以采集。目前的网络爬虫通常不针对特定字段,而是按照整体网页内容进行分门别类;有的爬虫只采集相关的特定字段,但是采集到的信息局限于简化展示,没能很好的融合到自身的业务平台上,对数据信息潜在的价值也没能进行更深一步的挖掘。在大数据信息时代,挖掘数据的潜在价值尤为重要。因此,如何解决现有技术中网络爬虫爬取网站效率低下以及利用采集信息挖掘数据价值,便成为亟待解决的技术问题,如何盘活数据价值,使得数据驱动业务,成了需要研究的行业难题。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供了一种网络数据采集、存储及处理方法及系统。本专利技术通过以下的方案实现:一种网络数据采集、存储及处理方法,包括以下步骤:S1:对网络数据进行采集;S2:对采集到的数据进行存储;S3:将存储的数据进行处理;其中,所述步骤S1中具体包括:S11:对URL进行存储管理分析;S12:进行自动化任务调度;S13:生成并行化爬取任务,将抓取的HTML文件进行保存;S14:解析HTML文档树,提取需要的字段信息;其中,所述步骤S11具体包括以下步骤:S111:通过URL数据库存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要UserAgent参数、URL类型、URL平台;S112:通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;S113:分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。作为本专利技术的进一步改进,所述步骤S112中,在对URL进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。作为本专利技术的进一步改进,所述步骤S12中具体包括:S121:获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;S122:对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。作为本专利技术的进一步改进,所述步骤S13中具体通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监控。作为本专利技术的进一步改进,所述步骤S14中还将HTML内容中的新连接URL传递至URL数据库中。作为本专利技术的进一步改进,所述步骤S2中具体包括:S21:对采集到的信息,进行数据清洗;S22:将清洗完的数据再通过对目标字段进行Hash处理,建立映射后写入原始数据库;S23:取出原始数据库的Hash集合A和业务数据库的Hash集合B;计算需要新添加的数据集合S1,即为A和B的差集计算需要更新的数据集合S2,即为A和B的交集S2={x|x∈A∧x∈B};S24:将集合S1映射的数据插入到业务数据库,将集合S2映射的数据更新到业务数据库;S25:将业务数据库与线上平台数据库进行对比,更新业务数据库中的扩展信息。作为本专利技术的进一步改进,所述步骤S3中包括:S31:进行数据分析,包括对数据可视化展示和进行统计分析;S32:进行数据挖掘,包括根据业务主题进行数据挖掘;S33:进行数据同步处理,以更新本地业务数据库。本专利技术还提供了一种网络数据采集、存储及处理系统,其包括:数据采集装置,用于对网络数据进行采集;数据存储装置,用于对采集到的数据进行存储;数据处理装置,用于将存储的数据进行处理;所述数据采集装置包括:URL存储管理模块,用于对URL进行存储管理分析;任务调度模块,用于进行自动化任务调度;爬取模块,用于生成并行化爬取任务,将抓取的HTML文件进行保存;解析模块,用于解析HTML文档树,提取需要的字段信息;其中,所述URL存储管理模块包括:URL数据库,用于存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要UserAgent参数、URL类型、URL平台;划分模块,用于通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;分析模块,用于分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。作为本专利技术的进一步改进,所述划分模块在对URL进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。作为本专利技术的进一步改进,所述任务调度模块中包括:获取模块,用于获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;任务配置模块,用于对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。作为本专利技术的进一步改进,所述爬取模块通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监控。作为本专利技术的进一步改进,所述解析模块还用于将HTML内容中的新连接URL传递至URL数据库中。作为本专利技术的进一步改进,所述数据存储装置包括:数据清洗模块,用于对采集到的信息,进行数据清洗;Hash处理模块,用于将将清洗完的数据再通过对目标字段进行Hash处理,建立映射后写入原始数据库;提取模块,用于取出原始数据库的Hash集合A和业务数据库的Hash集合B,计算需要新添加的数据集合S1,即为A和B的差集计算本文档来自技高网
...
一种网络数据采集、存储及处理方法及系统

【技术保护点】
一种网络数据采集、存储及处理方法,其特征在于:包括以下步骤:S1:对网络数据进行采集;S2:对采集到的数据进行存储;S3:将存储的数据进行处理;其中,所述步骤S1中具体包括:S11:对URL进行存储管理分析;S12:进行自动化任务调度;S13:生成并行化爬取任务,将抓取的HTML文件进行保存;S14:解析HTML文档树,提取需要的字段信息;其中,所述步骤S11具体包括以下步骤:S111:通过URL数据库存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;S112:通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;S113:分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。

【技术特征摘要】
1.一种网络数据采集、存储及处理方法,其特征在于:包括以下步骤:S1:对网络数据进行采集;S2:对采集到的数据进行存储;S3:将存储的数据进行处理;其中,所述步骤S1中具体包括:S11:对URL进行存储管理分析;S12:进行自动化任务调度;S13:生成并行化爬取任务,将抓取的HTML文件进行保存;S14:解析HTML文档树,提取需要的字段信息;其中,所述步骤S11具体包括以下步骤:S111:通过URL数据库存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要UserAgent参数、URL类型、URL平台;S112:通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;S113:分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。2.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S112中,在对URL进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。3.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S12中具体包括:S121:获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;S122:对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。4.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S13中具体通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监控。5.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S14中还将HTML内容中的新连接URL传递至URL数据库中。6.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S2中具体包括:S21:对采集到的信息,进行数据清洗;S22:将清洗完的数据再通过对目标字段进行Hash处理,建立映射后写入原始数据库;S23:取出原始数据库的Hash集合A和业务数据库的Hash集合B;计算需要新添加的数据集合S1,即为A和B的差集计算需要更新的数据集合S2,即为A和B的交集S2={x|x∈A∧x∈B};S24:将集合S1映射的数据插入到业务数据库,将集合S2映射的数据更新到业务数据库;S25:将业务数据库与线上平台数据库进行对比,更新业务数据库中的扩展信息。7.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S3中包括:S31:进行数据分析,包括对数据可视化展示和进行统计分析;S32:进行数据挖掘,包括根据业务主题进行数据挖掘;S33:进行数据同步处理,以更新本地业务数据库。8.一种网络数据采集、存储及处理系统,其特征在于:包括:数据采集装置,用于对网络数据进行采集;数据存储装置,用于对采集到的数据进行存储;数据处理装置,用于将存储的数据进行处理;所述数据采集装置包括:URL存储管理模块,用于对URL进行存储管理分析;任务调度模块,用于进行自动化任务调度;爬取模块,用于生成并行化爬取任务,将抓取的HTML文件进行保存;解析模块,用于解析HTML文档树,提取需要的字段信息;其中,所述URL存储管理模块包括:URL数据库,用于存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要UserAgent参数、URL类型、URL平台;划分模块,用于通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;分析模块,用于分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。9.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述划分模块在对URL进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。10.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述任务调度模块中包括:获取模块,用于获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;任务配置模块,用于对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。11.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述爬取模块通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监...

【专利技术属性】
技术研发人员:刘冶张允聪莫伟铸曾广健林志远李宏浩郑燕璇印鉴
申请(专利权)人:广州赫炎大数据科技有限公司中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1