基于经济领域数据的分布式提取及可视化分析方法和系统技术方案

技术编号:17407270 阅读:23 留言:0更新日期:2018-03-07 05:01
本申请提供了一种基于经济领域数据的分布式提取及可视化分析方法和系统。其中基于经济领域数据的分布式提取及可视化分析方法,包括:分布式数据提取步骤:后端服务器接收用户提取大数据的指令并发送给主节点,主节点根据接收到的指令按照任务的某个或多个字段维度将提取数据的大任务切分成小任务,并将小任务分配给不同的处理节点,处理节点根据分配的小任务向全文检索系统发起请求,主节点将生成的小任务存储到数据库中,并在运行过程中同步任务的状态;分布式存储步骤;分布式计算和分析步骤;数据加载和缓存步骤;结果可视化展示步骤。本申请通过上述手段,提高了大数据提取的效率,同时降低了用户大数据分析的门槛。

Distributed extraction and visualization analysis method and system based on economic data

This application provides a distributed extraction and visual analysis method and system based on the data of the economic field. The distributed extraction and visualization analysis method, the economic field based on the data including: distributed data extraction steps: the back-end server receives the user extracted data command and sent to the master node, the master node according to the received instruction according to the task of one or more words that Duan Weidu will extract large data segmentation task into small tasks, and the small tasks assigned to different processing nodes, processing nodes according to the small task allocation to the full-text retrieval system request, the master node will generate small tasks stored in the database, and in the process of operation with task state; distributed storage and distributed computing steps; analysis steps; data loading and caching step results; visualization steps. By means of the above means, the efficiency of large data extraction is improved and the threshold of large data analysis is reduced.

【技术实现步骤摘要】
基于经济领域数据的分布式提取及可视化分析方法和系统
本申请涉及数据处理
,特别地,涉及基于经济领域数据的分布式提取及可视化分析方法和系统。
技术介绍
在当今这个数据量极速膨胀的时代,大数据成为了炙手可热的名词。大数据时代不缺乏数量,重要的是我们需要通过数量来发现整体的规律,从而对大数据进行分析。大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。将数据应用到生活生产中,可以有效地帮助人们或企业对信息作出比较准确的判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,并使之成为信息的过程。也就是指个人或者企业为了解决生活生产中的决策或者营销等问题,运用分析方法对数据进行处理的过程。以宏观经济领域数据为例。宏观经济领域数据的分析涉及对微信公众号、学术智库网站、财经资讯网站、产业门户网站等在内的互联网内容进行分析。为政府部门在线服务定位、服务策略以及对业务工作的互联网影响评价提供数据分析支撑。随着技术的快速发展,人们使用大数据可视化分析手段进行数据分析,将数据以更加直观的方式展现出来,从不同的维度观察数据,从而对数据进行更深入的观察和分析。大数据可视化分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及分析过程的人机交互方式和技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。在当前设计构建和实现基于宏观经济领域数据的可视化分析平台时,会遇到了几个技术难题。首先是宏观经济领域数据的提取要求问题,要求是从全文检索系统中根据设置的查询条件(必选条件:关键词组+时间范围)提取出所命中的数据。其次是技术门槛问题(当用户不懂sql查询语句,又要做大数据分析时),最后是用户交互、展示效果和方式问题(自定义展现效果,灵活性和多样化的展现方式)。目前,大数据异构环境数据同步工具DataX与Sqoop,都是解决异构环境的数据交换问题。DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Localfilesystem)之间的数据交换,由淘宝数据平台部门完成。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。但利用上述工具存在以下问题:首先是宏观经济领域数据的提取要求问题,要求是从全文检索系统中根据设置的查询条件(关键词组+时间范围)提取出所命中的数据,宏观经济领域数据与一般舆情类数据最大的不同是宏观经济领域主要研究宏观经济的走势和影响宏观经济的各种因素,因此所提取的数据源时间跨度比较长,涉及的行业领域比较多,数据量比较大,使用开源的DataX和Sqoop工具等无法满足基于宏观经济领域数据的提取要求,所以需要设计一种分布式提取方法来解决这个难题。分布式系统是指多台机器通过网络连接在一起,作为一个整体为上层提供服务。具体地说,将需要海量计算能力才能处理的问题拆分成许多小块,然后将小块分配给同一套系统中不同的计算节点进行处理,最后如有必要将分开计算的结果合并得到最终结果,那么这种系统称为分布式系统。其中节点是指一个可以独立按照分布式协议完成一组逻辑的程序个体,工程中往往指进程。节点之间完全独立互相隔离,通信唯一方式是通过不可靠的网络。hive就是基于分布式系统Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其特点是可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。而SparkSQL,作为ApacheSpark大数据框架的一部分,主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过SparkSQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的查询操作。但是由于hive和sparksql等开源工具提供的用户交互功能需要使用者具备一定的SQL基础,为了实现不具备SQL基础的分析人员仍然能够进行数据分析的问题,所以需要设计一种新的分布式可视化分析方法来解决这个难题。
技术实现思路
本申请提供基于经济领域数据的分布式提取及可视化分析方法和系统,用于解决现有技术中提取大数据效率较低、用户操作难度过高以及数据分析不够直观的问题。本申请公开的基于经济领域数据的分布式提取及可视化分析方法,包括:分布式数据提取步骤:后端服务器接收用户提取大数据的指令并发送给主节点,主节点根据接收到的指令按照任务的某个或多个字段维度将提取数据的大任务切分成小任务,并将小任务分配给不同的处理节点,处理节点根据分配的小任务向全文检索系统发起请求,主节点将生成的小任务存储到数据库中,并在运行过程中同步任务的状态;分布式存储步骤:处理节点将全文检索系统返回的数据集存入数据库集群中;分布式计算和分析步骤:后台服务端接收用户的指令并根据其从数据库集群中加载需要的数据集,然后过滤数据、分析数据和统计分析,然后把结果集写入数据库集群中;数据加载和缓存步骤:后台服务端接收客户端加载数据的请求后,根据请求从数据库中读取任务的相关元数据,创建内存表,根据参数并从数据库集群中加载数据到内存表中,加载完成后反馈结果;结果可视化展示步骤:将数据通过图表等直观的展现方式呈现出来。优选的,分布式数据提取步骤中,生成的小任务按照一定比例赋予任务的优先级,任务优先级越高越优先运行,相同等级的任务按照FIFO先到先得调度策略执行,根据处理节点的配置参数,将优先级不同的任务按比例分给不同的处理节点;处理节点的接收线程接收到任务后,调度线程使用优先级调度、FIFO调度和公平调度相结合的调度算法将接收到的任务加入任务队列中,根据任务的参数执行提取数据操作并接收数据。优选的,分布式计算和分析步骤中,在接收到用户带有查询参数的分析任务指令后,根据表字段和实体字段的映射关系解析参数并拼接组装成sql查询语句。优选的,可视化展示步骤中,通过前端按需加载的方式请求当前阶段需要的数据,并通过前端缓存机制将已请求的数据进行缓存。优选的,可视化展示步骤,包括以下细分步骤,根据用户拖拽分析字段到维度或数值轴的指令向后台发送请求获取该字段对应的数据;获取到数据后以表格的形式显示;根据维度轴字段的个数和数值轴字段的个数进行判断并展示出可以选择的图表类型;根据用户的选择的图表类型显示该类型的可配置参数,根据用户配置的参数生成图表并予以显示。本申请公开的基于经济领域数据的分布式提取及可视化分析系统,包括:分布式数据提取模块:用于接收用户提取大数据的指令并发送给主节点,主节点根据接收本文档来自技高网
...
基于经济领域数据的分布式提取及可视化分析方法和系统

【技术保护点】
基于经济领域数据的分布式提取及可视化分析方法,其特征在于,包括:分布式数据提取步骤:后端服务器接收用户提取大数据的指令并发送给主节点,主节点根据接收到的指令按照任务的某个或多个字段维度将提取数据的大任务切分成小任务,并将小任务分配给不同的处理节点,处理节点根据分配的小任务向全文检索系统发起请求,主节点将生成的小任务存储到数据库中,并在运行过程中同步任务的状态;分布式存储步骤:处理节点将全文检索系统返回的数据集存入数据库集群中;分布式计算和分析步骤:后台服务端接收用户的指令并根据其从数据库集群中加载需要的数据集,然后过滤数据、分析数据和统计分析,然后把结果集写入数据库集群中;数据加载和缓存步骤:后台服务端接收客户端加载数据的请求后,根据请求从数据库中读取任务的相关元数据,创建内存表,根据参数并从数据库集群中加载数据到内存表中,加载完成后反馈结果;结果可视化展示步骤:将数据通过图表等直观的展现方式呈现出来。

【技术特征摘要】
1.基于经济领域数据的分布式提取及可视化分析方法,其特征在于,包括:分布式数据提取步骤:后端服务器接收用户提取大数据的指令并发送给主节点,主节点根据接收到的指令按照任务的某个或多个字段维度将提取数据的大任务切分成小任务,并将小任务分配给不同的处理节点,处理节点根据分配的小任务向全文检索系统发起请求,主节点将生成的小任务存储到数据库中,并在运行过程中同步任务的状态;分布式存储步骤:处理节点将全文检索系统返回的数据集存入数据库集群中;分布式计算和分析步骤:后台服务端接收用户的指令并根据其从数据库集群中加载需要的数据集,然后过滤数据、分析数据和统计分析,然后把结果集写入数据库集群中;数据加载和缓存步骤:后台服务端接收客户端加载数据的请求后,根据请求从数据库中读取任务的相关元数据,创建内存表,根据参数并从数据库集群中加载数据到内存表中,加载完成后反馈结果;结果可视化展示步骤:将数据通过图表等直观的展现方式呈现出来。2.根据权利要求1所述的基于经济领域数据的分布式提取及可视化分析方法,其特征在于,所述分布式数据提取步骤中,生成的小任务按照一定比例赋予任务的优先级,任务优先级越高越优先运行,相同等级的任务按照FIFO先到先得调度策略执行,根据处理节点的配置参数,将优先级不同的任务按比例分给不同的处理节点;处理节点的接收线程接收到任务后,调度线程使用优先级调度、FIFO调度和公平调度相结合的调度算法将接收到的任务加入任务队列中,根据任务的参数执行提取数据操作并接收数据。3.根据权利要求1或2所述的基于经济领域数据的分布式提取及可视化分析方法,其特征在于,所述分布式计算和分析步骤中,在接收到用户带有查询参数的分析任务指令后,根据表字段和实体字段的映射关系解析参数并拼接组装成sql查询语句。4.根据权利要求1或2所述的基于经济领域数据的分布式提取及可视化分析方法,其特征在于,所述可视化展示步骤中,通过前端按需加载的方式请求当前阶段需要的数据,并通过前端缓存机制将已请求的数据进行缓存。5.根据权利要求1或2所述的基于经济领域数据的分布式提取及可视化分析方法,其特征在于,所述可视化展示步骤,包括以下细分步骤,根据用户拖拽分析字段到维度或数值轴的指令向后台发送请求获取该字段对应的数据;获取到数据后以表格的形式显示;根据维度轴字段的个数和数值轴字段的个数进行判断并展示出可以选择的图表类型;根据用户的选择的图表类型显示该类型的可配置参数,根据用户配置的参数生成图表并予以显示。...

【专利技术属性】
技术研发人员:刘银林杨阳刘建华丁文豪
申请(专利权)人:北京国信宏数科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1