当前位置: 首页 > 专利查询>杭州富阳富创大数据产业创新研究院有限公司专利>正文

基于SparkStreaming的流式统计框架及其应用制造技术

技术编号：32209579 阅读：19 留言：0更新日期：2022-02-09 17:15

本发明专利技术公开了基于Spark Streaming的流式统计框架及其应用，包括数据获取计算模块和数据展示模块，数据获取计算模块的设计方法包括以下步骤：S11，基于TCP的Java Socket设置服务端，服务端从本地测试文件获取数据；S12，TCP Socket服务端利用线程控制，按照每秒50至100条交易记录的随机速度，发送给以Spark Streaming客户端进行数据实时计算处理；S13，客户端接收到数据利用MapToPair算子进行数据分组，再利用updateStateByKey算子进行数据有状态计算；当下一批数据计算完后，更新在缓存区与其key相同的状态的值；S14，由客户端将计算的数据按批次写入数据库，并且数据库按照key持续更新状态值。key持续更新状态值。key持续更新状态值。

全部详细技术资料下载

【技术实现步骤摘要】
基于Spark Streaming的流式统计框架及其应用

[0001]本专利技术属于数据流
，涉及一种基于Spark Streaming的流式统计框架及其应用。

技术介绍

[0002]随着互联网的急速发展，越来越多的人通过网络进行活动，例如，购物，炒股，聊天，搜索自己想要的信息，一旦网络用户越来越多也会导致用户通过网络产生的数据也会越来越大，这就驱动着大数据时代的来临，而流式数据是大数据的一个重要数据类型，随着网络程序，平台的占比越来越重，流式数据的分析能够显示数据的变化趋势，让人们能够对行情走势进行预测，所以它具有不一般的意义。
[0003]流式数据可以这样理解，它是海量，不断到达的数据流，随着时间的增长，它也跟着不断增长的实时的动态的集合。
[0004]流式数据有着以下特点：
[0005](1)无限性，数据是实时的，只需数据源开启，数据就会持续不断地出现；
[0006](2)波动性，数据产生的速度不是恒定不变的，这个取决于数据源，不同时刻数据的产生速度可能会有比较大的区别；
[0007](3)时效性，产生的实时数据需要在一定时间内处理，不然等时间慢慢过去，其数据往往会越来越不保值，会失去它所代表的意义；
[0008](4)易失性，流式数据在经过获取和计算过后就会失去作用，除了利用数据或持久化操作对其进行保存，否则数据很难再现。

技术实现思路

[0009]本专利技术使用收集好的股票数据通过TCP Socket模拟股票数据流，而后使用Spark S...

【技术保护点】

【技术特征摘要】
1.基于Spark Streaming的流式统计框架，其特征在于，包括数据获取计算模块和数据展示模块，其中，所述数据获取计算模块的设计方法包括以下步骤：S11，基于TCP的Java Socket设置服务端，服务端从本地测试文件获取数据；S12，TCP Socket服务端利用线程控制，按照每秒50至100条交易记录的随机速度，发送给以Spark Streaming客户端进行数据实时计算处理；S13，客户端接收到数据利用MapToPair算子进行数据分组，再利用updateStateByKey算子进行数据有状态计算；当下一批数据计算完后，更新在缓存区与其key相同的状态的值；S14，由客户端将计算的数据按批次写入数据库，并且数据库按照key持续更新状态值；所述数据展示模块的设计方法包括以下步骤：S21，MySql存储数据；S22，后端通过逻辑将数据取出。S23，前端通过Echart将数据异步加载动态可视化。2.基于Spark Streaming的流式统计框架的应用，其特征在于，基于权利要求1所述的框架，模拟流处理包括以下步骤：S31，在离线的状态下读取本地系统文件内容，将文件的内容调用dataInputStreaming.read(bytes)方法按字节读取，再将读取的内容写入字节数组bytes输出；S32，调用Thread.sleep()方法，使用线程控制向客户端发送数据的速度，按照每秒50至100条交易记录的随机速度发送，用socket.getOutputStream()方法发送给客户端，实现模拟一个不断发生的股票交易。3.根据权利要求2所述的基于Spark Streaming的流式统计框架的应用，其特征在于，后端流统计包括：S41，每10分钟发生的股票总交易数/买入次数/卖出次数的统计方法；S42，每10分钟内股票最高单价/最低单价/最高交易额前5名的统计方法；后端流统计前进行环境搭建，首先创建Spark Streaming技术流，创建SparkConf进行配置CPU的核心数，采用本地文件的规格进行计算和调度；然后配置赋予JavaSparkContext值，再将其赋予JavaStreamingContext，设置它的第二个参数为1s；最后利用系统的socketTextSt...

【专利技术属性】
技术研发人员：张继勇，舒洪睿，陈兴颖，
申请(专利权)人：杭州富阳富创大数据产业创新研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人