This application provides a distributed extraction and visual analysis method and system based on the data of the economic field. The distributed extraction and visualization analysis method, the economic field based on the data including: distributed data extraction steps: the back-end server receives the user extracted data command and sent to the master node, the master node according to the received instruction according to the task of one or more words that Duan Weidu will extract large data segmentation task into small tasks, and the small tasks assigned to different processing nodes, processing nodes according to the small task allocation to the full-text retrieval system request, the master node will generate small tasks stored in the database, and in the process of operation with task state; distributed storage and distributed computing steps; analysis steps; data loading and caching step results; visualization steps. By means of the above means, the efficiency of large data extraction is improved and the threshold of large data analysis is reduced.
【技术实现步骤摘要】
基于经济领域数据的分布式提取及可视化分析方法和系统
本申请涉及数据处理
,特别地,涉及基于经济领域数据的分布式提取及可视化分析方法和系统。
技术介绍
在当今这个数据量极速膨胀的时代,大数据成为了炙手可热的名词。大数据时代不缺乏数量,重要的是我们需要通过数量来发现整体的规律,从而对大数据进行分析。大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。将数据应用到生活生产中,可以有效地帮助人们或企业对信息作出比较准确的判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,并使之成为信息的过程。也就是指个人或者企业为了解决生活生产中的决策或者营销等问题,运用分析方法对数据进行处理的过程。以宏观经济领域数据为例。宏观经济领域数据的分析涉及对微信公众号、学术智库网站、财经资讯网站、产业门户网站等在内的互联网内容进行分析。为政府部门在线服务定位、服务策略以及对业务工作的互联网影响评价提供数据分析支撑。随着技术的快速发展,人们使用大数据可视化分析手段进行数据分析,将数据以更加直观的方式展现出来,从不同的维度观察数据,从而对数据进行更深入的观察和分析。大数据可视化分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及分析过程的人机 ...
【技术保护点】
基于经济领域数据的分布式提取及可视化分析方法,其特征在于,包括:分布式数据提取步骤:后端服务器接收用户提取大数据的指令并发送给主节点,主节点根据接收到的指令按照任务的某个或多个字段维度将提取数据的大任务切分成小任务,并将小任务分配给不同的处理节点,处理节点根据分配的小任务向全文检索系统发起请求,主节点将生成的小任务存储到数据库中,并在运行过程中同步任务的状态;分布式存储步骤:处理节点将全文检索系统返回的数据集存入数据库集群中;分布式计算和分析步骤:后台服务端接收用户的指令并根据其从数据库集群中加载需要的数据集,然后过滤数据、分析数据和统计分析,然后把结果集写入数据库集群中;数据加载和缓存步骤:后台服务端接收客户端加载数据的请求后,根据请求从数据库中读取任务的相关元数据,创建内存表,根据参数并从数据库集群中加载数据到内存表中,加载完成后反馈结果;结果可视化展示步骤:将数据通过图表等直观的展现方式呈现出来。
【技术特征摘要】
1.基于经济领域数据的分布式提取及可视化分析方法,其特征在于,包括:分布式数据提取步骤:后端服务器接收用户提取大数据的指令并发送给主节点,主节点根据接收到的指令按照任务的某个或多个字段维度将提取数据的大任务切分成小任务,并将小任务分配给不同的处理节点,处理节点根据分配的小任务向全文检索系统发起请求,主节点将生成的小任务存储到数据库中,并在运行过程中同步任务的状态;分布式存储步骤:处理节点将全文检索系统返回的数据集存入数据库集群中;分布式计算和分析步骤:后台服务端接收用户的指令并根据其从数据库集群中加载需要的数据集,然后过滤数据、分析数据和统计分析,然后把结果集写入数据库集群中;数据加载和缓存步骤:后台服务端接收客户端加载数据的请求后,根据请求从数据库中读取任务的相关元数据,创建内存表,根据参数并从数据库集群中加载数据到内存表中,加载完成后反馈结果;结果可视化展示步骤:将数据通过图表等直观的展现方式呈现出来。2.根据权利要求1所述的基于经济领域数据的分布式提取及可视化分析方法,其特征在于,所述分布式数据提取步骤中,生成的小任务按照一定比例赋予任务的优先级,任务优先级越高越优先运行,相同等级的任务按照FIFO先到先得调度策略执行,根据处理节点的配置参数,将优先级不同的任务按比例分给不同的处理节点;处理节点的接收线程接收到任务后,调度线程使用优先级调度、FIFO调度和公平调度相结合的调度算法将接收到的任务加入任务队列中,根据任务的参数执行提取数据操作并接收数据。3.根据权利要求1或2所述的基于经济领域数据的分布式提取及可视化分析方法,其特征在于,所述分布式计算和分析步骤中,在接收到用户带有查询参数的分析任务指令后,根据表字段和实体字段的映射关系解析参数并拼接组装成sql查询语句。4.根据权利要求1或2所述的基于经济领域数据的分布式提取及可视化分析方法,其特征在于,所述可视化展示步骤中,通过前端按需加载的方式请求当前阶段需要的数据,并通过前端缓存机制将已请求的数据进行缓存。5.根据权利要求1或2所述的基于经济领域数据的分布式提取及可视化分析方法,其特征在于,所述可视化展示步骤,包括以下细分步骤,根据用户拖拽分析字段到维度或数值轴的指令向后台发送请求获取该字段对应的数据;获取到数据后以表格的形式显示;根据维度轴字段的个数和数值轴字段的个数进行判断并展示出可以选择的图表类型;根据用户的选择的图表类型显示该类型的可配置参数,根据用户配置的参数生成图表并予以显示。...
【专利技术属性】
技术研发人员:刘银,林杨阳,刘建华,丁文豪,
申请(专利权)人:北京国信宏数科技有限责任公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。