基于大数据的发票数据实时聚合装置制造方法及图纸

技术编号:18497173 阅读:60 留言:0更新日期:2018-07-21 20:13
本发明专利技术实施例提供一种基于大数据的发票数据实时聚合装置,包括:数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据;数据处理模块对目标数据进行预处理,得到预处理数据;数据聚合模块对预处理数据进行聚合,得到结果数据;数据维度展现模块展现结果数据。本发明专利技术实施例的基于大数据的发票数据实时聚合装置,数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据,数据处理模块对目标数据进行预处理,得到预处理数据,数据聚合模块对预处理数据进行聚合,得到结果数据,数据维度展现模块展现结果数据,从而实现对电子发票数据的处理分析。

A real-time aggregator of invoice data based on large data

The invention provides a real-time aggregator of invoice data based on large data, including data acquisition module collecting electronic invoice data processing task, collecting corresponding target data according to the data processing task, preprocessing the target data by the data processing module, obtaining the preprocessed data, and the data aggregation module. The preprocessed data are aggregated to get the result data; the data dimension display module displays the result data. The data processing module collects the data processing task of the electronic invoice and collects the corresponding target data according to the data processing task. The data processing module preprocesses the target data, gets the preprocessed data, and the data aggregation module makes the pre processed data into the example. Data aggregation is performed to get the result data, and the data dimension module displays the result data, so as to realize the analysis and processing of the electronic invoice data.

【技术实现步骤摘要】
基于大数据的发票数据实时聚合装置
本专利技术涉及金融领域,特别是涉及一种基于大数据的发票数据实时聚合装置。
技术介绍
电子发票是信息时代的产物,同普通发票一样,采用税务局统一发放的形式给商家使用,发票号码采用全国统一编码,采用统一防伪技术,分配给商家,在电子发票上附有电子税局的签名机制。随着电子发票数量的增长,电子发票数据分析可以得出消费者消费习惯、产品销售情况等信息,如何进行电子发票数据进行分析是当前需要解决的技术问题。
技术实现思路
本专利技术实施例提供一种基于大数据的发票数据实时聚合装置,能够进行电子发票数据进行分析。本专利技术实施例采用如下技术方案:一种基于大数据的发票数据实时聚合装置,包括:数据采集模块、数据处理模块、数据聚合模块、数据维度展现模块;所述数据采集模块采集电子发票数据处理任务,根据所述数据处理任务采集对应的目标数据;所述数据处理模块对所述目标数据进行预处理,得到预处理数据;所述数据聚合模块对所述预处理数据进行聚合,得到结果数据;所述数据维度展现模块展现所述结果数据。可选的,还包括:数据缓存模块,所述数据缓存模块将所述目标数据缓存之内存中。可选的,还包括:结果数据存储模块,所述结果数据存储模块将所述结果数据存储至mysql数据库中。可选的,所述数据采集模块应用Flume采集所述电子发票数据处理任务。可选的,所述数据处理模块采用Spark对所述目标数据进行预处理,得到所述预处理数据。可选的,所述数据聚合模块采用Spark对所述预处理数据进行聚合,得到所述结果数据。可选的,所述数据维度展现模块应用spring-mvc框架结合echarts展现所述结果数据。本专利技术实施例的基于大数据的发票数据实时聚合装置,数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据,数据处理模块对目标数据进行预处理,得到预处理数据,数据聚合模块对预处理数据进行聚合,得到结果数据,数据维度展现模块展现结果数据,从而实现对电子发票数据的处理分析。附图说明图1示意性示出了本专利技术一实施例的基于大数据的发票数据实时聚合装置结构示意图之一;图2示意性示出了本专利技术一实施例的基于大数据的发票数据实时聚合装置结构示意图之二。具体实施方式以下对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。如图1所示,本专利技术实施例提供一种基于大数据的发票数据实时聚合装置,包括:数据采集模块11、数据处理模块12、数据聚合模块13、数据维度展现模块14;数据采集模块11采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据;数据处理模块12对目标数据进行预处理,得到预处理数据;数据聚合模块13对预处理数据进行聚合,得到结果数据;数据维度展现模块14展现结果数据。在一个实施例中,如图2所示,该装置还包括:数据缓存模块15,数据缓存模块将目标数据缓存之内存中。在一个实施例中,如图2所示,该装置还包括:结果数据存储模块16,结果数据存储模块将结果数据存储至mysql数据库中。在一个实施例中,数据采集模块11应用Flume采集电子发票数据处理任务。在一个实施例中,数据处理模块12采用Spark对目标数据进行预处理,得到预处理数据。在一个实施例中,数据聚合模块13采用Spark对预处理数据进行聚合,得到结果数据。在一个实施例中,数据维度展现模块14应用spring-mvc框架结合echarts展现结果数据。本专利技术实施例中,Flume主要负责数据采集模块,Kafka主要负责数据缓存模块(将数据缓存在内存中)、Spark负责数据预处理以及实时聚合计算、Mysql负责存储结果数据,Echarts负责web层的图表展示。本专利技术实施例中,Flume(分布式数据采集工具)中采集的数据主要来自于RabitMQ(数据消息队列)消息队列中,主动去消费队列中的数据,队列中的数据包括原始数据,Flume主要负责采集这些数据到kafka队列中,其中flume扮演一个kafka的生产者;Kafka(分布式消息队列)在整个项目中主要负责将原始数据缓存在一个topic中,作为spark(分布式内存计算引擎)的数据源;Spark作为一个最重要的消费者来消费kafka中缓存的原始数据,使用sparkstreaming(java版本)对缓存中的实时数据在基础数据的基础上做统计操作,例如,统计行业分布情况等,并且展示分布图;Mysql(关系型数据库)是本项目中的存储层,其中表的设计是比较关键的部分,其中主要分主表和结果表,主键关联方便查询。Echarts(图形化展示工具)为展示层,主要实时从MySQL查询数据展示在页面中,包括柱状图,环形图,折线图,地图,滚动数据(数字滚动实时递增)。本专利技术实施例中,数据源可以在RabitMQ消息队列中,采用了一个别人的中间件使用flume将消息队列中的数据采集到我们负责缓存的kafka中,并对数据进行去重等预处理操作。本专利技术实施例中对Kafka(分布式消息队列)数据重复消费和数据丢失解决:记录offset,下一个groupconsumer(组内消费者)可以接着记录的offset位置继续消费。其中,offset记录方案:每次消费时更新每个topic+partition(主题分区)位置的offset在内存中,Map<key,value>,key=topic+′-′+partition,value=offset,当调用关闭consumer(消费者)线程时,把上面Map(一种缓存数据的k-v存储的集合)的offset数据记录到文件中。下一次启动consumer,需要读取上一次的offset信息,方法是以当前的topic+partition为key,从上次的Map中去寻找offset。然后使用consumer.seek()(消费者的一个方法)方法指定到上次的offset位置。本专利技术实施例应用spark消费kafka对列中的数据,并对各个指标和维度进行实时的计算聚合操作,将计算好的结果数据放置在预先设计好的mysql数据库中,利用spring-mvc框架结合echarts进行前端数据图表的展示。本专利技术实施例可以实现将电子发票以图表的形式进行实时聚合计算,实时掌握发票流动、时间地域分布等,通过某些维度,对企业运营以及产品的输出带来决策引导。如下就本专利技术实施例中发票数据的时间地域做详细介绍:MySQL中会存储根据时间地域维度使用spark(分布式内存计算引擎)计算好的实时数据,例如:数量展示柱状图,地区分布地图,以颜色深浅为例,颜色越深表示该地区数据量越大;MySQL中会存储一天中当前时刻的统计数量,展示一天中24个小时每个小时的统计,从中观察变化趋势。本专利技术实施例中Spark实时计算详解如下:SparkStreaming(实时计算框架)是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是SparkCore,即将SparkStreaming的输入数据按照batchsize(如1秒)分成一段一段的数据(DiscretizedStream),每一段数据都转换成Spark中的RDD(ResilientDistributedDataset),然后将SparkStreaming中对DStream的Transformati本文档来自技高网...

【技术保护点】
1.一种基于大数据的发票数据实时聚合装置,其特征在于,包括:数据采集模块、数据处理模块、数据聚合模块、数据维度展现模块;所述数据采集模块采集电子发票数据处理任务,根据所述数据处理任务采集对应的目标数据;所述数据处理模块对所述目标数据进行预处理,得到预处理数据;所述数据聚合模块对所述预处理数据进行聚合,得到结果数据;所述数据维度展现模块展现所述结果数据。

【技术特征摘要】
2017.11.27 CN 20171121030551.一种基于大数据的发票数据实时聚合装置,其特征在于,包括:数据采集模块、数据处理模块、数据聚合模块、数据维度展现模块;所述数据采集模块采集电子发票数据处理任务,根据所述数据处理任务采集对应的目标数据;所述数据处理模块对所述目标数据进行预处理,得到预处理数据;所述数据聚合模块对所述预处理数据进行聚合,得到结果数据;所述数据维度展现模块展现所述结果数据。2.根据权利要求1所述的装置,其特征在于,还包括:数据缓存模块,所述数据缓存模块将所述目标数据缓存之内存中。3.根据权利要求1所述的装置,其特征在于,还包括...

【专利技术属性】
技术研发人员:李浩浩李泽然王春波张泽白光佩刘冬娜王彤
申请(专利权)人:大象慧云信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1