油田综合研究大数据样本标注方法技术

技术编号:35846418 阅读:12 留言:0更新日期:2022-12-07 10:26
本发明专利技术提供一种油田综合研究大数据样本标注方法,该油田综合研究大数据样本标注方法包括:步骤1,提取油田勘探开发业务相关的结构化数据;步骤2,对原始的结构化数据进行预处理;步骤3,根据业务需求,以曲线、图、表这些形式直观展示数据;步骤4,在数据可视化展示界面下,进行样本标注;步骤5,基于标注完成的基础样本集,构建全量样本集;步骤6,对于已标定的样本集,进行样本的维护。该油田综合研究大数据样本标注方法技术思路清楚,标注方法具有创新性,而且标注工具应用简单、方便,实现了油田勘探开发综合研究领域大数据样本采集的智能化、便捷化,具有两项明显的效果。具有两项明显的效果。具有两项明显的效果。

【技术实现步骤摘要】
油田综合研究大数据样本标注方法


[0001]本专利技术涉及油田数据处理
,特别是涉及到一种油田综合研究大数据样本标注方法。

技术介绍

[0002]开展油田勘探开发综合研究大数据技术研究,利用SVM、随机森林等机器学习算法和CNN、RNN等深度学习算法建立识别或预测模型,实现大数据应用场景,需要用到大量的样本数据。人工标注样本存在工作量大,标注成果分散在个人手中,无法共享应用等问题,因此,建立通用的样本数据标注方法,研发可视化标注工具,从海量数据中快速对数据进行样本标注,实现数据和专家经验的融合,构建高质量、标准化的油气大数据样本集,并对这些宝贵样本资源进行有效管理是实现大数据场景的基石。
[0003]随着人工智能的发展,机器学习、深度学习等对数据标注的需求越来越高。样本数据标注的越精准,算法模型训练的效果就越好,能否建立足够的、高质量的样本数据是制约模型和算法突破瓶颈的关键。正是由于样本数据标注的重要性,在AI传统行业已经形成了一条数据标注产业链。比较著名的标注平台有京东众智、腾讯云数据采集标注服务、百度数据众包、数据堂等。目前市面上的数据标注存在以下问题:(1)现有的数据标注平台大都采用众包模式分配任务,导致标注结果质量层次不齐,从而影响模型训练的准确性。(2)数据标注产业主要面向个人或企业的项目需求,针对不同的行业应用对数据标注的任务存在一定的差异性,传统行业的数据标注方法主要面向的是互联网数据,与油田专业数据类型差异大,难以满足油田勘探开发专业大数据标注需求,细化标注任务。(3)标注过程无法针对油田勘探开发数据形成可视化成图,实现人工交互标注。(4)标注结果无法进行有效的管理和共享应用。
[0004]在申请号:CN201811175992.6的中国专利申请中,涉及到一种基于大数据技术的石油化工装置产品收率优化方法,包括:收集装置的历史生产数据,并对收集的数据进行清洗和整定,获得用于优化产品收率的数据样本;对所述数据样本进行相关性分析,筛选出与产品收率相关的工艺参数;利用神经网络算法建立用于描述产品收率与相关工艺参数关系的神经网络模型,以所述数据样本为训练样本,利用遗传算法训练所述神经网络模型的系数,生成产品收率预测模型;在装置约束条件下,以经济效益最大化为目标,利用所述产品收率预测模型确定最佳产品收率以及生产中可调控的操作变量在此最佳产品收率下的取值。
[0005]在申请号:CN202011331925.6的中国专利申请中,涉及到一种基于大数据的深度学习样本标注方法,该方法包括:接收与样本库中的第一组样本对象相关的用户标注输入;训练包含权值向量的偏好预测模型,所述权值向量包含与样本库相关联的多个特征中的每个特征的加权值,该样本库包括向用户呈现的第一组样本对象,利用所接收的用户标注输入来训练每个特征的加权值;选择要提供至用户的第二组样本对象,所述第二组样本对象相对于样本库中其他未被标识的样本对象,提供从用户标注输入获取的更多的先验知识;
以及根据训练后的偏好预测模型,推送预设数量的偏好对象以提供至用户。
[0006]在申请号:CN202011323996.1的中国专利申请中,涉及到一种用于内容推荐的基于大数据的深度学习样本标注方法,该方法包括:接收与样本库中的第一组样本对象相关的用户标注输入;训练包含权值向量的偏好预测模型,所述权值向量包含与样本库相关联的多个特征中的每个特征的加权值,该样本库包括向用户呈现的第一组样本对象,利用所接收的用户标注输入来训练每个特征的加权值;选择要提供至用户的第二组样本对象,所述第二组样本对象相对于样本库中其他未被标识的样本对象,提供从用户标注输入获取的更多的先验知识;以及根据训练后的偏好预测模型,推送预设数量的偏好对象以提供至用户。
[0007]以上现有技术均与本专利技术有较大区别,未能解决我们想要解决的技术问题,为此我们专利技术了一种新的油田综合研究大数据样本标注方法。

技术实现思路

[0008]本专利技术的目的是提供一种实现油田勘探开发综合研究大数据样本的采集,细化本专业的标注任务,解决了油田大数据样本高效标注与采集问题的油田综合研究大数据样本标注方法。
[0009]本专利技术的目的可通过如下技术措施来实现:油田综合研究大数据样本标注方法,该油田综合研究大数据样本标注方法包括:
[0010]步骤1,提取油田勘探开发业务相关的结构化数据;
[0011]步骤2,对原始的结构化数据进行预处理;
[0012]步骤3,根据业务需求,以曲线、图、表这些形式直观展示数据;
[0013]步骤4,在数据可视化展示界面下,进行样本标注;
[0014]步骤5,基于标注完成的基础样本集,构建全量样本集;
[0015]步骤6,对于已标定的样本集,进行样本的维护。
[0016]本专利技术的目的还可通过如下技术措施来实现:
[0017]在步骤1中,根据大数据业务场景需求,提取深度域、时间域和常规二维表这些结构化数据,支持本地文件提取、数据库配置提取、分布式文件系统直接提取三种数据源提取方式。
[0018]在步骤1中,提取测井、岩心这些深度域数据,并进行测井曲线数据体的解析。
[0019]在步骤1中,提取基于油田开发生产时间序列的数据,包括生产、监测数据。
[0020]在步骤1中,提取油田其他结构化数据,包括与区域、井、措施、油藏类型相关的数据。
[0021]在步骤2中,通过对提取的结构化数据进行异常分析、空值处理规则的制定,完成对原始数据的预处理,为后面的样本标定提供准确可靠的数据基础。
[0022]在步骤3中,通过灵活的方式,根据不同类型样本库构建需求,自定义选择要展示的数据,并进行相应的深度、时间匹配,也可以基于系统已经设定好的样本模板进行样本集的可视化展示。
[0023]在步骤3中,结合实际需求,采用曲线读取与传输数据分离、压缩、分屏读取这些方法,优化系统性能,提高响应速度,实现了浏览器/服务器端的高效成图。
[0024]在步骤4中,在数据可视化展示界面下,用户选择不同深度或者时间段,通过拖动、框选、标注文字这些交互操作完成样本标注,标注结果可选择以数据或图像进行存储,分布生成图像样本和数值数据样本。
[0025]在步骤5中,基于标注完成的基础样本集,通过定制界面,通过井、层位、时间、深度这些不同对象关联其他专业数据,补充特征属性,构建全量样本集。
[0026]在步骤6中,对于已标定的样本集,进行样本的总体分布情况的查看、维护和审核,实现同一样本库不同类型样本数量的统计、批量删除这些功能。
[0027]该油田综合研究大数据样本标注方法还包括,在步骤6之后,将审核后的高质量样本集进行发布,提供给数据建模和算法建模人员共享应用。
[0028]本专利技术中的油田综合研究大数据样本标注方法,油田勘探开发大数据主要涉及深度域、时间域及其他二维表结构数据,用于油田勘探开发综合研究领域大数据样本的标注。该油田综合研究大数据样本标注方法充分利用油田勘本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.油田综合研究大数据样本标注方法,其特征在于,该油田综合研究大数据样本标注方法包括:步骤1,提取油田勘探开发业务相关的结构化数据;步骤2,对原始的结构化数据进行预处理;步骤3,根据业务需求,以曲线、图、表这些形式直观展示数据;步骤4,在数据可视化展示界面下,进行样本标注;步骤5,基于标注完成的基础样本集,构建全量样本集;步骤6,对于已标定的样本集,进行样本的维护。2.根据权利要求1所述的油田综合研究大数据样本标注方法,其特征在于,在步骤1中,根据大数据业务场景需求,提取深度域、时间域和常规二维表这些结构化数据,支持本地文件提取、数据库配置提取、分布式文件系统直接提取等三种数据源提取方式。3.根据权利要求2所述的油田综合研究大数据样本标注方法,其特征在于,在步骤1中,提取测井、岩心这些深度域数据,并进行测井曲线数据体的解析。4.根据权利要求2所述的油田综合研究大数据样本标注方法,其特征在于,在步骤1中,提取基于油田开发生产时间序列的数据,包括生产、监测数据。5.根据权利要求2所述的油田综合研究大数据样本标注方法,其特征在于,在步骤1中,提取油田其他结构化数据,包括与区域、井、措施、油藏类型相关的数据。6.根据权利要求1所述的油田综合研究大数据样本标注方法,其特征在于,在步骤2中,通过对提取的结构化数据进行异常分析、空值处理规则的制定,完成对原始数据的预处理,为后面的样本标定提供准确可靠的数据基础。7.根据权利要求1所述的油田综合研究大数据样...

【专利技术属性】
技术研发人员:张世明孙业恒李春雷张林凤姜兴兴杨河山刘建涛马青靳彩霞车慧翠
申请(专利权)人:中国石油化工股份有限公司胜利油田分公司勘探开发研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1