数据处理方法和装置制造方法及图纸

技术编号：21628187 阅读：39 留言：0更新日期：2019-07-17 10:51

本发明专利技术公开了一种数据处理方法和装置。该方法包括：读取结构化查询语句包含的查询特征；将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；根据预测结果确定结构化查询语句执行时所需的资源数量；将结构化查询语句存入与资源数量对应的资源池中运行。通过本发明专利技术，达到了对数据库的资源估计数量更准确的效果。

Data Processing Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及计算机领域，具体而言，涉及一种数据处理方法和装置。
技术介绍
Impala是一个基于分布式文件系统(HadoopDistributeFileSystem，简称为HDFS)或HBase存储系统的分布式、交互式数据库。因为impala的资源估计方式误差太大，为了集群能够稳定的运行，只能通过默认的设置控制每个sql(StructuredQueryLanguage，结构化查询语句)的资源数量，当sql实际需要的资源大于impala估计的资源数量时，sql将会被自动取消。若同一个资源池并行执行的某个sql实际所需资源特别大，这也会影响该资源池中其它sql的执行。现有的资源估计方法存在这样的问题：资源数量估计误差太大，不能合理的调度sql到合适的资源池内运行。针对相关技术中数据库的资源估计数量误差大导致集群不稳定的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种数据处理方法和装置，以解决数据库的资源估计数量误差大导致集群不稳定的问题。为了实现上述目的，根据本专利技术的一个方面，提供了一种数据处理方法，该方法包括：读取结构化查询语句包含的查询特征；将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；根据所述预测结果确定所述结构化查询语句执行时所需的资源数量；将所述结构化查询语句存入与所述资源数量对应的资源池中运行。进一步地，在将所述结构化查询语句包含的查询特征输入到...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：读取结构化查询语句包含的查询特征；将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，所述内存预测模型是根据历史数据训练得到的，所述历史数据包括结构化查询语句包含的查询特征和所述结构化查询语句所需的资源数量；根据所述预测结果确定所述结构化查询语句执行时所需的资源数量；将所述结构化查询语句存入与所述资源数量对应的资源池中运行。

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：读取结构化查询语句包含的查询特征；将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，所述内存预测模型是根据历史数据训练得到的，所述历史数据包括结构化查询语句包含的查询特征和所述结构化查询语句所需的资源数量；根据所述预测结果确定所述结构化查询语句执行时所需的资源数量；将所述结构化查询语句存入与所述资源数量对应的资源池中运行。2.根据权利要求1所述的方法，其特征在于，在将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前，所述方法还包括：获取历史数据，其中，所述历史数据包括多组结构化查询语句的查询特征与所述多组结构化查询语句所需的资源数量；根据所述历史数据建立所述内存预测模型。3.根据权利要求1所述的方法，其特征在于，所述资源数量对应于多个等级，将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果包括：将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测的资源数量的等级。4.根据权利要求1所述的方法，其特征在于，读取结构化查询语句包含的查询特征包括：在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时，读取所述结构化查询语句包含的查询特征，其中，所述查询特征包括join特征和select特征。5.一种数据处理装置，其特征在于，包括：读取单元，用于读取结构化查询语句包含的查询特征；输入单元，用于将所述结构化查询语句包含的查询特征...

【专利技术属性】
技术研发人员：黄鹏波，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人