一种数据处理方法、装置及存储介质制造方法及图纸

技术编号:28295438 阅读:19 留言:0更新日期:2021-04-30 16:19
本申请实施例公开了一种数据处理方法,所述方法包括:基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集(RDD);基于与所述数据源对应的RDD生成第一注册临时表;构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。本申请还公开了一种数据处理装置及存储介质。通过本申请实施例能够缩小数据处理周期,提高数据查询效率。

【技术实现步骤摘要】
一种数据处理方法、装置及存储介质
本申请涉及数据处理技术,尤其涉及一种数据处理方法、装置及存储介质。
技术介绍
现有技术中,对大数据进行分析时,首先技术人员要使用专业工具从数据源中抽取出所需的数据,经过数据的转换和清洗等,将数据加载到一个数据仓库中,然后建立分析数据模型,用户才能够根据模型进行数据分析。由于无法直接对各类数据源进行查询,也不能直接分析数据,造成数据处理周期过长,降低数据查询效率。
技术实现思路
为解决现有存在的技术问题,本申请实施例提供了一种数据处理方法、装置及存储介质,能至少解决现有技术中存在的上述问题。本申请实施例提供一种数据处理方法,所述方法包括:基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集(ResilientDistributedDatasets,RDD);基于与所述数据源对应的RDD生成第一注册临时表;构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。上述方案中,所述构建至少两个第一注册临时表之间的关联关系之后,所述方法还包括:基于所述第一数据模型获取数据查询的维度和数据模型的度量;将所述第一注册临时表映射为数据库表;基于所述数据库表、所述数据查询的维度和所述数据模型的度量,生成数据立方。上述方案中,所述生成第一数据模型之后,所述方法还包括:基于所述至少两个第一注册临时表之间的关联关系,获取与所述关联关系对应的数据的RDD;基于所述与所述关联关系对应的数据的RDD,生成第二注册临时表;接收第一查询参数;基于所述第一查询参数和所述第二注册临时表,获得第一数据查询结果。上述方案中,所述生成第一数据模型之后,所述方法还包括:基于所述数据立方,确定至少一个第二数据查询结果;存储所述至少一个第二数据查询结果。上述方案中,所述存储所述第二数据查询结果之后,所述方法还包括:接收第二查询参数;在所述至少一个第二数据查询结果中,确定与所述第二查询参数对应的目标查询结果。上述方案中,所述基于Spark获取至少一种数据源的数据,形成与所述数据源对应的RDD,包括:获取逗号分隔值(CommaSeparatedValues,CSV)文件数据源中的有效数据;确定所述CSV文件的分隔符;基于所述CSV文件的分隔符和所述有效数据的属性,获取第一数据;基于所述第一数据,形成与所述CSV文件数据源对应的RDD。上述方案中,所述基于Spark获取至少一种数据源的数据,形成与所述数据源对应的RDD,包括:确定Java数据库连接(JavaDataBaseConnectivity,JDBC)数据源对应的数据库;基于所述JDBC数据源对应的数据库,确定JDBC连接字符串属性;连接所述JDBC数据源对应的数据库,获取第二数据;基于所述第二数据,形成与所述JDBC数据源对应的RDD。上述方案中,所述基于Spark获取至少一种数据源的数据,形成与所述数据源对应的RDD,包括:确定Java脚本对象简谱(JavaScriptObjectNotation,JSON)数据源的统一资源定位符和编码;基于所述JSON数据源的统一资源定位符和编码,获取所述JSON数据源对应的数据;添加所述JSON数据源对应的数据的时间格式和类型,生成第三数据;基于所述第三数据,形成与所述JSON数据源对应的RDD。本申请实施例提供一种数据处理装置,所述数据处理装置包括:获取单元,用于基于Spark获取至少一种数据源的数据;处理单元,用于形成与所述数据源对应的RDD;生成单元,还用于基于与所述数据源对应的RDD生成第一注册临时表;构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。上述方案中,所述获取单元,还用于基于所述第一数据模型获取数据查询的维度和数据模型的度量;所述生成单元,还用于将所述第一注册临时表映射为数据库表;基于所述数据库表、所述数据查询的维度和所述数据模型的度量,生成数据立方。上述方案中,所述获取单元,还用于基于所述至少两个第一注册临时表之间的关联关系,获取与所述关联关系对应的数据的RDD;所述生成单元,还用于基于所述与所述关联关系对应的数据的RDD,生成第二注册临时表;所述获取单元,还用于接收第一查询参数;所述处理单元,还用于基于所述第一查询参数和所述第二注册临时表,获得第一数据查询结果。上述方案中,所述第处理单元,还用于基于所述数据立方,确定至少一个第二数据查询结果;存储所述至少一个第二数据查询结果。上述方案中,所述获取单元,还用于接收第二查询参数;所述处理单元,还用于在所述至少一个第二数据查询结果中,确定与所述第二查询参数对应的目标查询结果。上述方案中,所述获取单元,用于获取CSV文件数据源中的有效数据;确定所述CSV文件的分隔符;基于所述CSV文件的分隔符和所述有效数据的属性,获取第一数据;所述处理单元,基于所述第一数据,形成与所述CSV文件数据源对应的RDD。上述方案中,所述获取单元,用于确定JDBC数据源对应的数据库;基于所述JDBC数据源对应的数据库,确定JDBC连接字符串属性;连接所述JDBC数据源对应的数据库,获取第二数据;所述处理单元,用于基于所述第二数据,形成与所述JDBC数据源对应的RDD。上述方案中,所述获取单元,用于确定JSON数据源的统一资源定位符和编码;基于所述JSON数据源的统一资源定位符和编码,获取所述JSON数据源对应的数据;添加所述JSON数据源对应的数据的时间格式和类型,生成第三数据;所述处理单元,用于基于所述第三数据,形成与所述JSON数据源对应的RDD。本申请实施例提供一种数据处理装置,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行上述的数据处理方法的步骤。本申请实施例提供一种存储介质,存储有可执行程序,所述可执行程序被处理器执行时,实现上述的数据处理方法。本申请实施例提供的数据处理方法、数据处理装置及存储介质,基于Spark获取至少一种数据源的数据,形成与所述数据源对应的RDD;基于与所述数据源对应的RDD生成第一注册临时表;构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。由于基于Spark获取的数据源可以是同构数据源,也可以是异构数据源;因此本申请生成的数据模型适用于各种数据,具有较好的适应性。基于Spark获取的数据源中的数据,无需进行数据清洗等前期处理,节省了操作流程。通过获取各个数据源对应的RDD对应的第一注册本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集RDD;/n基于与所述数据源对应的RDD生成第一注册临时表;/n构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集RDD;
基于与所述数据源对应的RDD生成第一注册临时表;
构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。


2.根据权利要求1所述的数据处理方法,其特征在于,所述构建至少两个第一注册临时表之间的关联关系之后,所述方法还包括:
基于所述第一数据模型获取数据查询的维度和数据模型的度量;
将所述第一注册临时表映射为数据库表;
基于所述数据库表、所述数据查询的维度和所述数据模型的度量,生成数据立方。


3.根据权利要求1所述的数据处理方法,其特征在于,所述生成第一数据模型之后,所述方法还包括:
基于所述至少两个第一注册临时表之间的关联关系,获取与所述关联关系对应的数据的RDD;
基于所述与所述关联关系对应的数据的RDD,生成第二注册临时表;
接收第一查询参数;
基于所述第一查询参数和所述第二注册临时表,获得第一数据查询结果。


4.根据权利要求2所述的数据处理方法,其特征在于,所述生成第一数据模型之后,所述方法还包括:
基于所述数据立方,确定至少一个第二数据查询结果;
存储所述至少一个第二数据查询结果。


5.根据权利要求4所述的方法,其特征在于,所述存储所述第二数据查询结果之后,所述方法还包括:
接收第二查询参数;
在所述至少一个第二数据查询结果中,确定与所述第二查询参数对应的目标查询结果。


6.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述基于Spark获取至少一种数据源的数据,形成与所述数据源对应的RDD,包括:
获取逗号分隔值CSV文件数据源中的有效数据;确定所述CSV文件的分隔符;基于所述CSV文件的分隔符和所述有效数据的属性,获取第一数据;基于所述第一数据,形成与所述CSV文件数据源对应的RDD;
或者,确定Java数据库连接JDBC数据源对应的数据库;基于所述JDBC数据源对应的数据库,确定JDBC连接字符串属性;连接所述JDBC数据源对应的数据库,获取第二数据;基于所述第二数据,形成与所述JDBC数据源对应的RDD;
或者,确定Java脚本对象简谱JSON数据源的统一资源定位符和编码;基于所述JSON数据源的统一资源定位符和编码,获取所述JSON数据源对应的数据;添加所述JSON数据源对应的数据的时间格式和类型,生成第三数据;基于所述第三数据,形成与所述JSON数据源对应的RDD。


7.一种数据处理装置,其特征在于,所述数据处理装置包括:
获取单元,用于基于Spark获取至少一种数据源的数据;
处理单元,用于形成与所述数据源对应的RDD;...

【专利技术属性】
技术研发人员:杨文峰
申请(专利权)人:中移苏州软件技术有限公司中国移动通信集团有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1