【技术实现步骤摘要】
一种基于PySpark和Pandas融合的大数据时序分析方法
本专利技术属于大数据分析
,具体涉及一种基于PySpark和Pandas融合的大数据时序分析方法。
技术介绍
Python和R语言是数据分析中的主流编程语言,由于Python的Pandas库的流行,Python成为数据分析的热门编程语言。使用Pandas进行数据分析适用于单机小规模数据分析场景,无法适应大规模数据处理和计算要求。Spark则是大数据处理和迭代计算的主流计算平台,支持Python语言,PySpark即是SparkAPI的Python语言接口。原生的Spark在时序分析方面提供了较少的时序分析功能和算法,虽然第三方库spark-timeseries提供了基于Spark时间序列分析算法库,但是其从功能和生态上看并不及Pandas库的时间序列分析模块。而Pandas库只适用于单机小规模数据量的处理,无法运行于分布式系统环境中以处理大规模数据。随着信息化产业的不断发展,大型流程工业企业在生产信息化过程中会产生越来越多的海量历史时序数据。 ...
【技术保护点】
1.一种基于PySpark和Pandas融合的大数据时序分析方法,其特征在于,包括以下步骤:/n步骤1:通过数据采集模块抓取来海量数据;/n步骤2:利用Spark对海量数据进行补全、统一时间字段等格式标准化操作,得到大规模时序数据。/n步骤3:通过过滤、聚合等变换操作把大规模时序数据降采样为小规模均匀等距时序数据;/n步骤4:基于PySpark将得到的小规模均匀等距时序数据转化为Pandas数据;/n步骤5:利用Pandas库中的时序分析函数对得到的Pandas数据进行时序分析,从而得到时序数据。/n
【技术特征摘要】
1.一种基于PySpark和Pandas融合的大数据时序分析方法,其特征在于,包括以下步骤:
步骤1:通过数据采集模块抓取来海量数据;
步骤2:利用Spark对海量数据进行补全、统一时间字段等格式标准化操作,得到大规模时序数据。
步骤3:通过过滤、聚合等变换操作把大规模时序数据降采样为小规模均匀等距时序数据;
步骤4:基于PySpark将得到的小规模均匀等距时序数据转化为Pandas数据;
步骤5:利用Pandas库中的时序分析函数对得到的Pandas数据进行时序分析,从而得到时序数据。
2.根据权利要求1所述的一种基于PySpark和Pandas融合的大数据时序分析方法,其特征在于,步骤3的具体操作步骤包括:
步骤31:待处理时序数据中的每条记录为事件记录信息,其包括编号id、时间戳timestamp、事件名event以及相应的值value;
步骤32:通过时间范围(t_start,t_end)和事件名筛选出事件A对应的SparkDataFramedf_A;
步骤33:为df_A添加粗粒度时间点列new_time...
【专利技术属性】
技术研发人员:黄必栋,
申请(专利权)人:南京铁道职业技术学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。