【技术实现步骤摘要】
一种数据处理方法、装置及存储介质
本申请涉及数据处理技术,尤其涉及一种数据处理方法、装置及存储介质。
技术介绍
现有技术中,对大数据进行分析时,首先技术人员要使用专业工具从数据源中抽取出所需的数据,经过数据的转换和清洗等,将数据加载到一个数据仓库中,然后建立分析数据模型,用户才能够根据模型进行数据分析。由于无法直接对各类数据源进行查询,也不能直接分析数据,造成数据处理周期过长,降低数据查询效率。
技术实现思路
为解决现有存在的技术问题,本申请实施例提供了一种数据处理方法、装置及存储介质,能至少解决现有技术中存在的上述问题。本申请实施例提供一种数据处理方法,所述方法包括:基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集(ResilientDistributedDatasets,RDD);基于与所述数据源对应的RDD生成第一注册临时表;构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。上述方案中,所述构建至少两个第一注册临时表之间的关联关系之后,所述方法还包括:基于所述第一数据模型获取数据查询的维度和数据模型的度量;将所述第一注册临时表映射为数据库表;基于所述数据库表、所述数据查询的维度和所述数据模型的度量,生成数据立方。上述方案中,所述生成第一数据模型之后,所述方法还包括:基于所述至少两个第一注册临时表之间的关联关系,获取与所述关联关系对应的数据的RD ...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集RDD;/n基于与所述数据源对应的RDD生成第一注册临时表;/n构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
基于Spark获取至少一种数据源的数据,形成与所述数据源对应的弹性分布式数据集RDD;
基于与所述数据源对应的RDD生成第一注册临时表;
构建至少两个第一注册临时表之间的关联关系,生成第一数据模型;所述第一数据模型用于数据查询。
2.根据权利要求1所述的数据处理方法,其特征在于,所述构建至少两个第一注册临时表之间的关联关系之后,所述方法还包括:
基于所述第一数据模型获取数据查询的维度和数据模型的度量;
将所述第一注册临时表映射为数据库表;
基于所述数据库表、所述数据查询的维度和所述数据模型的度量,生成数据立方。
3.根据权利要求1所述的数据处理方法,其特征在于,所述生成第一数据模型之后,所述方法还包括:
基于所述至少两个第一注册临时表之间的关联关系,获取与所述关联关系对应的数据的RDD;
基于所述与所述关联关系对应的数据的RDD,生成第二注册临时表;
接收第一查询参数;
基于所述第一查询参数和所述第二注册临时表,获得第一数据查询结果。
4.根据权利要求2所述的数据处理方法,其特征在于,所述生成第一数据模型之后,所述方法还包括:
基于所述数据立方,确定至少一个第二数据查询结果;
存储所述至少一个第二数据查询结果。
5.根据权利要求4所述的方法,其特征在于,所述存储所述第二数据查询结果之后,所述方法还包括:
接收第二查询参数;
在所述至少一个第二数据查询结果中,确定与所述第二查询参数对应的目标查询结果。
6.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述基于Spark获取至少一种数据源的数据,形成与所述数据源对应的RDD,包括:
获取逗号分隔值CSV文件数据源中的有效数据;确定所述CSV文件的分隔符;基于所述CSV文件的分隔符和所述有效数据的属性,获取第一数据;基于所述第一数据,形成与所述CSV文件数据源对应的RDD;
或者,确定Java数据库连接JDBC数据源对应的数据库;基于所述JDBC数据源对应的数据库,确定JDBC连接字符串属性;连接所述JDBC数据源对应的数据库,获取第二数据;基于所述第二数据,形成与所述JDBC数据源对应的RDD;
或者,确定Java脚本对象简谱JSON数据源的统一资源定位符和编码;基于所述JSON数据源的统一资源定位符和编码,获取所述JSON数据源对应的数据;添加所述JSON数据源对应的数据的时间格式和类型,生成第三数据;基于所述第三数据,形成与所述JSON数据源对应的RDD。
7.一种数据处理装置,其特征在于,所述数据处理装置包括:
获取单元,用于基于Spark获取至少一种数据源的数据;
处理单元,用于形成与所述数据源对应的RDD;...
【专利技术属性】
技术研发人员:杨文峰,
申请(专利权)人:中移苏州软件技术有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。