数据处理方法和装置制造方法及图纸

技术编号:21628187 阅读:39 留言:0更新日期:2019-07-17 10:51
本发明专利技术公开了一种数据处理方法和装置。该方法包括:读取结构化查询语句包含的查询特征;将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果,其中,内存预测模型是根据历史数据训练得到的,历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量;根据预测结果确定结构化查询语句执行时所需的资源数量;将结构化查询语句存入与资源数量对应的资源池中运行。通过本发明专利技术,达到了对数据库的资源估计数量更准确的效果。

Data Processing Method and Device

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及计算机领域,具体而言,涉及一种数据处理方法和装置。
技术介绍
Impala是一个基于分布式文件系统(HadoopDistributeFileSystem,简称为HDFS)或HBase存储系统的分布式、交互式数据库。因为impala的资源估计方式误差太大,为了集群能够稳定的运行,只能通过默认的设置控制每个sql(StructuredQueryLanguage,结构化查询语句)的资源数量,当sql实际需要的资源大于impala估计的资源数量时,sql将会被自动取消。若同一个资源池并行执行的某个sql实际所需资源特别大,这也会影响该资源池中其它sql的执行。现有的资源估计方法存在这样的问题:资源数量估计误差太大,不能合理的调度sql到合适的资源池内运行。针对相关技术中数据库的资源估计数量误差大导致集群不稳定的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种数据处理方法和装置,以解决数据库的资源估计数量误差大导致集群不稳定的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种数据处理方法,该方法包括:读取结构化查询语句包含的查询特征;将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果,其中,内存预测模型是根据历史数据训练得到的,历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量;根据所述预测结果确定所述结构化查询语句执行时所需的资源数量;将所述结构化查询语句存入与所述资源数量对应的资源池中运行。进一步地,在将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前,所述方法还包括:获取历史数据,其中,所述历史数据包括多组结构化查询语句的查询特征与所述多组结构化查询语句所需的资源数量;根据所述历史数据建立所述内存预测模型。进一步地,所述资源数量对应于多个等级,将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果包括:将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测的资源数量的等级。进一步地,读取结构化查询语句包含的查询特征包括:在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时,读取所述结构化查询语句包含的查询特征,其中,所述查询特征包括join特征和select特征。为了实现上述目的,根据本专利技术的另一方面,还提供了一种数据处理装置,该装置包括:读取单元,用于读取结构化查询语句包含的查询特征;输入单元,用于将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果,其中,内存预测模型是根据历史数据训练得到的,历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量;确定单元,用于根据所述预测结果确定所述结构化查询语句执行时所需的资源数量;运行单元,用于将所述结构化查询语句存入与所述资源数量对应的资源池中运行。进一步地,所述装置还包括:获取单元,用于在将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前,获取历史数据,其中,所述历史数据包括多组结构化查询语句的查询特征与所述多组结构化查询语句所需的资源数量;建立单元,用于根据所述历史数据建立所述内存预测模型。进一步地,所述资源数量对应于多个等级,所述输入单元用于:将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测的资源数量的等级。进一步地,所述读取单元用于:在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时,读取所述结构化查询语句包含的查询特征,其中,所述查询特征包括join特征和select特征。为了实现上述目的,根据本专利技术的另一方面,还提供了一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行本专利技术所述的数据处理方法。为了实现上述目的,根据本专利技术的另一方面,还提供了一种处理器,用于运行程序,其中,所述程序运行时执行本专利技术所述的数据处理方法。本专利技术通过读取结构化查询语句包含的查询特征;将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果,其中,内存预测模型是根据历史数据训练得到的,历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量;根据预测结果确定结构化查询语句执行时所需的资源数量;将结构化查询语句存入与资源数量对应的资源池中运行,解决了数据库的资源估计数量误差大导致集群不稳定的问题,进而达到了对数据库的资源估计数量更准确的效果。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的数据处理方法的流程图;图2是根据本专利技术实施例的数据处理装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了便于描述,以下对本申请实施例涉及的几个术语进行说明:Impala是一个基于HDFS或HBase存储系统的分布式、交互式数据库。特征提取是指根据样本提取出描述样本的相关属性。本专利技术实施例提供了一种数据处理方法。图1是根据本专利技术实施例的数据处理方法的流程图,如图1所示,该方法包括以下步骤:步骤S102:读取结构化查询语句包含的查询特征;步骤S104:将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果,其中,内存预测模型是根据历史数据训练得到的,历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量;步骤S106:根据预测结果确定结构化查询语句执行时所需的资源数量;步骤S108:将结构化查询语句存入与资源数量对应的资源池中运行。该实施例采用读取结构化查询语句包含的查询特征;将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果,其中,内存预测模型是根据历史数据训练得到的,历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量;根据预测结果确定结构化查询语句执行时所需的资源数量;将结构化查询语句存入与资源数量对应的资源池中运行,解决了数据库的资源估计数量误差大导致集群不稳定的问题,进而达到本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:读取结构化查询语句包含的查询特征;将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果,其中,所述内存预测模型是根据历史数据训练得到的,所述历史数据包括结构化查询语句包含的查询特征和所述结构化查询语句所需的资源数量;根据所述预测结果确定所述结构化查询语句执行时所需的资源数量;将所述结构化查询语句存入与所述资源数量对应的资源池中运行。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:读取结构化查询语句包含的查询特征;将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果,其中,所述内存预测模型是根据历史数据训练得到的,所述历史数据包括结构化查询语句包含的查询特征和所述结构化查询语句所需的资源数量;根据所述预测结果确定所述结构化查询语句执行时所需的资源数量;将所述结构化查询语句存入与所述资源数量对应的资源池中运行。2.根据权利要求1所述的方法,其特征在于,在将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前,所述方法还包括:获取历史数据,其中,所述历史数据包括多组结构化查询语句的查询特征与所述多组结构化查询语句所需的资源数量;根据所述历史数据建立所述内存预测模型。3.根据权利要求1所述的方法,其特征在于,所述资源数量对应于多个等级,将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测结果包括:将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中,得到预测的资源数量的等级。4.根据权利要求1所述的方法,其特征在于,读取结构化查询语句包含的查询特征包括:在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时,读取所述结构化查询语句包含的查询特征,其中,所述查询特征包括join特征和select特征。5.一种数据处理装置,其特征在于,包括:读取单元,用于读取结构化查询语句包含的查询特征;输入单元,用于将所述结构化查询语句包含的查询特征...

【专利技术属性】
技术研发人员:黄鹏波
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1