数据处理方法和数据处理系统技术方案

技术编号:10489636 阅读:79 留言:0更新日期:2014-10-03 17:44
本发明专利技术提供了一种数据处理方法和一种数据处理系统,包括:设置网络爬虫的特征参数和目标网站;所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;为所述筛选后的非结构化数据和/或半结构化数据创建索引。通过本发明专利技术的技术方案,能对网络爬虫的参数进行设置,并根据目标网站的结构和层级完善任务计划,同时还可以对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析,以保证系统的可用性和高效性。

【技术实现步骤摘要】
数据处理方法和数据处理系统
本专利技术涉及数据处理
,具体而言,涉及一种数据处理方法和一种数据处理系统。
技术介绍
目前,随着互联网在社会上的普及,每天在互联网中传播的信息量都呈爆炸式增长,统计发现,每天有约200万篇博客文章在网上被发布,每天在社交网站被发布的状态更新有约5亿3200万条,面对互联网中浩如烟海的信息,随时了解互联网的所有动态变得愈加艰难。 在现有技术中,一般只能将使用爬虫抓取到的海量数据存储在关系型数据库中,关系型数据库的存储容量会受到单台服务器硬件配置的极大制约,很难或根本无法对系统进行横向扩展,并且,只能存储经过处理后的结构化数据,无法对互联网中大量的非结构化数据进行存储和分析,这导致了部分有价值的数据只能被舍弃,要及时汇总关注的某个领域的信息只能通过耗费大量的人力和时间来实现。另外,现有技术还遭遇了数据量积累到一定程度后出现的查询、分析、知识转移等方面的困难。 因此,提出一种高效且灵活的数据处理方法显得十分必要。
技术实现思路
本专利技术正是基于上述技术问题,提出了一种新的技术方案,能对网络爬虫的参数进行设置,根据目标网站的结构和层级完善任务计划,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性。 有鉴于此,本专利技术提出了一种数据处理方法,包括:根据接收到的设置命令,设置网络爬虫的特征参数和目标网站;所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;为所述筛选后的非结构化数据和/或半结构化数据创建索引。 在该技术方案中,通过Web界面可以对网络爬虫进行多种参数的设置,可以分类大量收集对应每种特征参数的数据信息,通过智能检索目标网站的URL (Uniform ResourceLocator,统一资源定位器)及网站结构和层级来创建完善的执行计划,并依此可以做到对收集到的海量信息进行过滤,还可同时存储采集到的结构化或非结构化数据,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析。这样,利用大数据技术搭建的分布式存储系统来存储和处理采集到的数据,可以横向扩展存储容量和并行数据处理能力,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性,这些都是传统的数据库所无法比拟的,可以应用到舆情监控、商业信息收集、市场行情分析、电子商务推广等领域中去。 在上述技术方案中,优选地,存储所述筛选后的非结构化数据和/或半结构化数据,具体包括:将所述非结构化数据以文件形式存储在分布式文件系统中;以及通过分布式计算框架将所述半结构化数据进行分析后转换为结构化数据,并将所述结构化数据存储在分布式列式存储数据库中。 在该技术方案中,非结构化数据包括图片、视频等,半结构化数据包括html、xml等类型的文件,非结构化数据将会以文件形式存储在分布式文件系统(HDFS)中,利用分布式计算框架(MapReduce)对半结构化数据进行分析,并转换为结构化数据存储在分布式列式存储数据库(HBase)中。这样解决了无法对非结构化数据进行存储和分析的问题,实现了对海量半结构化和非结构化内容的采集,成功保留了有价值的数据。 在上述技术方案中,优选地,还包括:根据所述索引查询所述存储后的数据;以及对所述存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。 在该技术方案中,使用分布式文件系统和分布式列式存储数据库作为搜索引擎技术的底层支撑,利用搜索引擎技术为收集的所有数据建立索引,便于对已有的数据进行快速检索和查询,实现了搜索引擎的分布式索引,用户可以通过Web用户界面对所有采集到的数据进行查询,搜索引擎会快速返回查询结果,还可以对图片、视频等内容进行在线展示,在保证搜索引擎系统高效响应的同时也兼顾了系统整体的易扩容和高可用。另外,数据汇总后会形成有价值的信息,如统计结果和/或分析图表,以供用户读取。 在上述技术方案中,优选地,还包括:根据用户设置的关键词,自动筛选出与所述关键词相关的数据,并为所述筛选后的与所述关键词相关的数据生成统计结果和/或分析图表。 在该技术方案中,用户还可以使用关键词设置功能对自己感兴趣的内容进行定义,系统会利用分词技术自动匹配与用户设置的关键词相关的内容,用户可以根据系统给出的统计结果和/或分析图表作为参考,对商业和市场行为进行更准确的决策。 在上述技术方案中,优选地,还包括:将所述统计结果和/或所述分析图表在指定时间发送给指定用户。 在该技术方案中,系统可以根据用户的设置命令,自动将统计结果和/或所述分析图表通过邮件等方式定时发送给指定用户,提高了用户使用的便利性。 根据本专利技术的另一方面,还提供了一种数据处理系统,包括:设置单元,根据接收到的设置命令,设置网络爬虫的特征参数和目标网站;任务建立单元,所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;执行单元,所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;索引创建单元,用于为所述筛选后的非结构化数据和/或半结构化数据创建索引。 在该技术方案中,通过Web界面可以对网络爬虫进行多种参数的设置,可以分类大量收集对应每种特征参数的数据信息,通过智能检索目标网站的URL (Uniform ResourceLocator,统一资源定位器)及网站结构和层级来创建完善的执行计划,并依此可以做到对收集到的海量信息进行过滤,还可同时存储采集到的结构化或非结构化数据,还可以同时对采集到的结构化数据和非结构化数据进行收集、过滤、存储、检索和分析。这样,利用大数据技术搭建的分布式存储系统来存储和处理采集到的数据,可以横向扩展存储容量和并行数据处理能力,保证系统的可用性和高效性,比现有的爬虫技术更具灵活性,这些都是传统的数据库所无法比拟的,可以应用到舆情监控、商业信息收集、市场行情分析、电子商务推广等领域中去。 在上述技术方案中,优选地,所述执行单元包括:将所述非结构化数据以文件形式存储在分布式文件系统中;以及通过分布式计算框架将所述半结构化数据进行分析后转换为结构化数据,并将所述结构化数据存储在分布式列式存储数据库中。 在该技术方案中,非结构化数据包括图片、视频等,半结构化数据包括html、xml等类型的文件,非结构化数据将会以文件形式存储在分布式文件系统(HDFS)中,利用分布式计算框架(MapReduce)对半结构化数据进行分析,并转换为结构化数据存储在分布式列式存储数据库(HBase)中。这样解决了无法对非结构化数据进行存储和分析的问题,实现了对海量半结构化和非结构化内容的采集,成功保留了有价值的数据。 在上述技术方案中,优选地,还包括:查询单元,用于根据所述索引查询所述存储后的数据;以及分析单元,用于对所述存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。 本文档来自技高网...
数据处理方法和数据处理系统

【技术保护点】
一种数据处理方法,其特征在于,包括:根据接收到的设置命令,设置网络爬虫的特征参数和目标网站;所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列;所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据;为所述筛选后的非结构化数据和/或半结构化数据创建索引。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括: 根据接收到的设置命令,设置网络爬虫的特征参数和目标网站; 所述网络爬虫根据所述特征参数,对所述目标网站的结构和层级进行分析,以生成具有任务计划的爬虫任务队列; 所述网络爬虫根据所述爬虫任务队列中的所述任务计划对所述目标网站的数据进行筛选,并存储所述筛选后的非结构化数据和/或半结构化数据; 为所述筛选后的非结构化数据和/或半结构化数据创建索引。2.根据权利要求1所述的数据处理方法,其特征在于,存储所述筛选后的非结构化数据和/或半结构化数据,具体包括: 将所述非结构化数据以文件形式存储在分布式文件系统中;以及通过分布式计算框架将所述半结构化数据进行分析后转换为结构化数据,并将所述结构化数据存储在分布式列式存储数据库中。3.根据权利要求2所述的数据处理方法,其特征在于,还包括: 根据所述索引查询所述存储后的数据;以及 对所述存储后的数据进行统计和/或分析,并生成统计结果和/或分析图表。4.根据权利要求1所述的数据处理方法,其特征在于,还包括: 根据用户设置的关键词,自动筛选出与所述关键词相关的数据,并为所述筛选后的与所述关键词相关的数据生成统计结果和/或分析图表。5.根据权利要求3或4所述的数据处理方法,其特征在于,还包括: 将所述统计结果和/或所述分析图表在指定时间发送给指定用户。6.一种数据处理系统,其特征在于,包括: 设置...

【专利技术属性】
技术研发人员:张欣
申请(专利权)人:用友软件股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1