The invention proposes a data mining method based on Spark's large data of oil and gas exploitation, which includes data pre-processing module, model training and model application module, including the following steps: data pre-processing, data pre-processing through data pre-processing module; model training, corresponding algorithm training, and the final model; model application, using the trained model. Type analysis and prediction; results display, the results will be presented to users. The framework of large data mining analysis and knowledge discovery model is established, and a general model of large data analysis is established to support the knowledge mining of large data of oil and gas exploitation. The data mining method based on Spark for large data of oil and gas exploitation combines the data mining method with the large data of oil and gas exploitation, parallelizes the algorithm through Spark, and utilizes the cooperative computing ability of CPU GPU to carry out high-efficiency data mining and speed up the algorithm.
【技术实现步骤摘要】
一种基于Spark的油气开采大数据的数据挖掘方法
本专利技术涉及Spark、数据挖掘和油气开采大数据,具体涉及到一种基于Spark的油气开采大数据的数据挖掘方法。
技术介绍
知识发现(KnowledgeDiscoveryinDatabase,KDD),是所谓"数据挖掘"的一种更广义的说法,即从各种媒体表示的信息中,根据不同的需求获得知识。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有意义的、简洁的知识,直接向使用者报告。通用的过程应该接收原始数据输入,选择重要的数据项,缩减、预处理和浓缩数据组,将数据转换为合适的格式,从数据中找到模式,评价解释发现结果。知识发现的主要任务包括分类、聚类、预测、关联分析等,涉及的核心技术包括知识表达与推理、挖掘算法等。数据挖掘是知识发现过程的核心,数据挖掘是从大量的数据中挖掘出有用的信息,用以做决策支持。大数据环境下,由于要挖掘的信息源中的数据都是海量的,传统的集中式串行数据挖掘方法不再是可取方式。因此扩展数据挖掘算法处理大规模数据的能力,并提高运行速度和效率,已经成了一个不可忽视的问题,并行化的数据挖掘成为一 ...
【技术保护点】
1.一种基于Spark的油气开采大数据的数据挖掘方法,其包括数据预处理模块、模型训练和模型应用模块,包括以下步骤:步骤(1)、通过数据预处理模块对数据进行相应的处理得到期望的格式,以便进行训练,其中数据预处理模块包括数据降维、数据去重、文本向量化、数据归一化、缺失值处理等;步骤(2)、当数据预处理完毕后,对数据进行相应算法的训练,并采用实验集进行测试与验证,不断调优得到最终模型;步骤(3)、模型复现,可以利用训练好的模型进行分析与预测,并将结果保存到HDFS、Hbase等用于结果的可视化展示;步骤(4)、将得到的结果通过图表等直观的形式展示给用户,为用户提供生产优化的决策支持。
【技术特征摘要】
1.一种基于Spark的油气开采大数据的数据挖掘方法,其包括数据预处理模块、模型训练和模型应用模块,包括以下步骤:步骤(1)、通过数据预处理模块对数据进行相应的处理得到期望的格式,以便进行训练,其中数据预处理模块包括数据降维、数据去重、文本向量化、数据归一化、缺失值处理等;步骤(2)、当数据...
【专利技术属性】
技术研发人员:张卫山,仵海云,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。