【技术实现步骤摘要】
数据处理的方法和装置
本专利技术涉及计算机
,尤其涉及一种基于分布式环境及内存计算的、用于基于传统数据库的大数据量系统的数据处理方法、数据处理装置、电子设备和存储介质。
技术介绍
随着计算机技术的发展,数据存储呈现出多样性,所涉及的数据量也持续快速增长,对于数据分析、挖掘提出的诸多挑战。为了处理这些数据,使用诸如MySQL的传统关系型数据库,其通过诸如join、groupby、orderby等操作对数据进行处理。然而,诸如MySQL的传统关系型数据库的缺点在于,其数据处理能力有限,随着数据量的增加,join、groupby、orderby等操作出现速度极慢,甚至将机器资源耗尽、不能运行的情况。为了解决大数据存储和计算的问题,现有的可行且普遍的方案是分布式计算和分布式存储。这些现有解决方案将传统数据库的数据转移到分布式系统中,进而使用分布式系统的计算框架来解决运行慢的问题。然而,这些现有解决方案的缺点是:1)数据转移成本太大。这主要表现在保证数据准确性方面,例如在处理不同数据类型的转换及换行符等处理方面,需要耗费极大的人力成本;2)数据处理有延迟。传统数据库的 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:将来自一个或多个数据源的数据转化为Spark Dataframe,所述数据源包括文本数据源、关系型数据库和分布式集群中的一种或多种;将转化的所述Spark Dataframe注册为Spark临时表;并且根据用户以sql方式进行的输入,跨所述数据源对所述Spark临时表执行查询。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:将来自一个或多个数据源的数据转化为SparkDataframe,所述数据源包括文本数据源、关系型数据库和分布式集群中的一种或多种;将转化的所述SparkDataframe注册为Spark临时表;并且根据用户以sql方式进行的输入,跨所述数据源对所述Spark临时表执行查询。2.根据权利要求1所述的数据处理方法,其中,当所述数据源是关系型数据库时,所述数据处理方法还包括:定期地将转化的所述SparkDataframe导入分布式集群。3.根据权利要求1所述的数据处理方法,其中,当所述数据源是文本数据源时,所述数据处理方法还包括:对每个数据源定义正则表达式与临时表schema;通过所述正则表达式来将所述文本数据转化为SparkRDD;以及结合所述临时表schema将所述SparkRDD转化为所述SparkDataframe。4.根据权利要求1-3所述的数据处理方法,还包括:将查询结果以中间表形式保存至关系型数据库或分布式集群。5.一种数据处理装置,其特征在于,包括:数据转化模块,用于将来自一个或多个数据源的数据转化为SparkDataframe,所述数据源包括文本数据源、关系型数据库和分布式集群中的一种或多种;表注册模块,用于将转化的所述Sp...
【专利技术属性】
技术研发人员:陈芳芳,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。