System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种地质文档关键信息自动提取及报告生成方法技术_技高网

一种地质文档关键信息自动提取及报告生成方法技术

技术编号:40239955 阅读:9 留言:0更新日期:2024-02-02 22:38
本发明专利技术公开了一种地质文档关键信息自动提取及报告生成方法,属于钻井设计与地质设计技术领域,包括以下步骤:创建地址文档专业词典库;建立不同地区、不同区块地质文档关键信息模板库;基于专业词典库将地质报告文档中的信息及关键数据提取出来;将提取到的地质信息转换为结构化数据存放到业务数据库中;选择报告模板库中相应的报告章节模板,逐一将业务数据库中的数据自动填入需要填写数据的章节域中,生成钻井设计报告。本发明专利技术实现了将地质设计文档中一些非结构化数据转变为结构化数据并存储至数据库,供其他专业查询,大幅缩减了数据查询及录入时间,解决了石油工程地质一体化基础信息关联性及实时交互性较差的问题。

【技术实现步骤摘要】

本专利技术属于钻井设计与地质设计,具体涉及一种地质文档关键信息自动提取及报告生成方法


技术介绍

1、石油勘探与开发经过百年探索和发展,在历经经验-科学-自动化的发展过程后,形成了以原理、方法为指导,以软件为载体,以装备工具为手段的工程技术体系。相关软件推动了本行业从经验步入科学化阶段,目前正处于自动化与智能化交融发展阶段。随着勘探向纵深方向发展,勘探开发深度逐年增加、深井超深井“深、陡、窄、厚、难、高”等带来的钻井风险也不断增加。在工程技术难度不断加大的情况下,有必要对相关软件的信息化和自动化开展研究,提高相关软件效率。

2、石油钻井工程设计是指导钻井作业石油的科学指导。目前钻井工程设计过程中,地质信息关键信息提取依靠人工逐个查询并录入,耗时较长,完成设计需3-4天,为提高设计效率,通过文档智能识别与处理技术,减少地质信录入时间,提高钻井设计效率。目前国内成熟的专业软件各软件系统几乎都以c/s架构为主,各系统数据库接口不统一,封装后的系统无法互联互通;专业软件分析结果手工录入到设计软件或文档中,效率低,设计流程缺乏连贯性,也不利于结构化数据管理。国外以兰德马克dwp、斯伦贝谢delfi等为代表,开发了工程设计软件、一体化平台,基于云技术研发应用部署,具有规范化的数据基础与交互体系,从设计到优化,全面的数据分析与认知技术,开放、可扩展的软件生态平台等,实现了钻井工程设计、优化效率和准确度的大幅提升。近年来随着川庆公司一体化平台eiss的不断完善,钻完井软件数据结构日趋成熟,围绕钻、完、测、录井软件生态链的开放式平台逐步形成,实现了钻完井作业数据实时交互,数据挖掘、资源实时配置,成果实时共享、远程实时技术支撑的目标。

3、全球进入信息化时代以来,随着信息技术的爆炸式发展,信息基础设施和技术水平获得了极大提升,国际知名油公司加速与数字技术深度融合,如美孚与微软合作,通过“数据湖”平台提升上游生产效率;bp与谷歌合作,利用孪生模拟技术,预测井筒复杂,设备故障等风险,旨在提质增效。斯伦贝谢、哈里伯顿等油服公司加大软件研发投入,持续完善钻完井软件产品,致力油气领域认知计算技术研究,打造开放、可扩展的云生态平台,全面提升工程技术企业一体化服务能力。利用信息行业最先进的云计算、人工智能等先进方法、设计思想和架构理念,不断探索实践并重构其钻完井信息技术体系,研发颠覆性的新产品,意图推动工程技术向信息化、智能化的方向不断发展。国外正在打造钻完井设计、监控、优化一体化平台,软件平台向小前端、大中台、松耦合发展,模型方法向多场、多元耦合建模发展,软件算法向自适应表征发展,正在形成数字化应用生态系统。在钻完井工程设计方面,新的产品方向注重于提供建井设计的过程信息,优化建井的各个环节;协同优化方面,主要向海量数据标准化处理,钻机、井下工具协同优化参数,实现地面井下闭环控制方向发展;复杂预警方面,主要向基于大数据分析和ai方法融合,实现井下复杂工况早期识别、自动预警方向发展。


技术实现思路

1、为解决石油地质设计文档与钻井设计文档的基础信息交互性较差,许多基础信息需人工查阅后录入,耗时且严重影响工作效率,本专利技术提供了一种地质文档关键信息自动提取及报告生成方法,实现了将地质设计文档中一些非结构化数据转变为结构化数据并存储至数据库,供其他专业查询,大幅缩减了数据查询及录入时间,解决了石油工程地质一体化基础信息关联性及实时交互性较差的问题。

2、本专利技术的目的是通过以下技术方案实现的:

3、一种地质文档关键信息自动提取及报告生成方法,包括以下步骤:

4、步骤1、创建地址文档专业词典库;

5、步骤2、根据不同地区、不同区块地质文档的特点,建立不同地区、不同区块地质文档关键信息模板库;

6、步骤3、基于专业词典库将地质报告文档中的信息及关键数据提取出来;

7、步骤4、将提取到的地质信息转换为结构化数据存放到业务数据库中;

8、步骤5、选择报告模板库中相应的报告章节模板,逐一将业务数据库中的数据自动填入需要填写数据的章节域中,生成钻井设计报告。

9、优选的,所述步骤1中,专业词典库以词义的方式对词元进行管理,按照词元与词元的业务意义组成一个“词元的网络”,形成覆盖地质设计与钻井设计范围的专业词汇语义网;词元包括名词、动词、形容词、数词、量词和代词各自被组织成一个同义词的网络,根据这些同义词词义及关联关系,通过键值关系连接,得到描述各种石油地质以及钻井工程相关的术语以及描述它们之间的关联关系。

10、优选的,所述步骤1中,所述专业词典库包括描述词元概念、词元关系、词组语义类型、唯一标识id和词组语义链。

11、优选的,所述步骤3中,基于专业词典库将地质报告文档中的信息及关键数据提取出来时数据分析提取算法的核心是进行语义相似度计算,通过结合专业词典库中的词元相似度以及词组语义链,判断报告中的信息的语义,再根据提取规则进行信息获取。

12、优选的,所述数据分析提取算法采用采用自然语言处理(nlp)相似度计算方法中的任一种,作为举例,如采用余弦相似度算法,计算提取信息与字典库对应信息的相似度,相似度最高的。

13、

14、优选的,所述步骤4中,所述业务数据库采用posc国际标准业务模型方法建模,在数据建模方面强调按照面向对象的方式进行分析,而对象根据油田的实际划分成不可再分的单元,每个单元相互之间建立关系,就形成了一个网状数据模型。

15、优选的,所述步骤4中,所述业务数据库采用“业务域-业务-业务活动”的业务分类方法,业务域及业务是对业务活动的一种面向对象或主题的归类方法;业务活动是组成业务的最基本单元,在整个模型中不重复、不遗漏,可以跨域组合来完整的描述业务流和数据流。

16、优选的,所述步骤4中,所述业务数据库基于领域驱动方式设计,针对石油工程领域里关键思维及其关系的可视化表现,准确定义解决问题而构造的抽象模型,是业务功能场景在软件系统里的映射转换;领域驱动设计关心的是业务中的领域划分和领域建模,关注业务语义表达,领域模型面向对象分析、对事物的抽象能力。

17、优选的,所述步骤4中,所述业务数据库最终通过表结构和字段将基本实体及各个领域的数据模型逐一实现。

18、优选的,所述步骤5中,所述报告模板库包含钻井设计报告中各个大章节以及其下的子章节,钻井设计报告以office word文件格式保存。

19、优选的,所述报告模板包括六个大章节,分别为技术指标及质量要求、工程设计、健康安全与环境管理、生产信息及完井提交资料、附则、附件。

20、本技术方案的有益效果如下:

21、一、本专利技术提供的一种地质文档关键信息自动提取及报告生成方法,在创建地质设计文档关键信息词典库的基础上,对地质设计文档章节拆分形成了不同区块地质设计章节模板及表格数据模板,以上述模板为规范,遍历整个文档章节及表格,递归匹配相应的关键数据本文档来自技高网...

【技术保护点】

1.一种地质文档关键信息自动提取及报告生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种地质文档关键信息自动提取方法,其特征在于:所述步骤1中,以词义的方式对词元进行管理,按照词元与词元的业务意义组成一个“词元的网络”,形成覆盖地质设计与钻井设计范围的专业词汇语义网;词元包括名词、动词、形容词、数词、量词和代词各自被组织成一个同义词的网络,根据这些同义词词义及关联关系,通过键值关系连接,得到描述各种石油地质以及钻井工程相关的术语以及描述它们之间的关联关系。

3.根据权利要求2所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤1中,所述专业词典库包括描述词元概念、词元关系、词组语义类型、唯一标识ID和词组语义链。

4.根据权利要求1所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤3中,基于专业词典库将地质报告文档中的信息及关键数据提取出来时数据分析提取算法的核心是进行语义相似度计算,通过结合专业词典库中的词元相似度以及词组语义链,判断报告中的信息的语义,再根据提取规则进行信息获取。

5.根据权利要求4所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述数据分析提取算法采用自然语言处理中任意一种的相似度算法提取相似度较高的词对应的键值。

6.根据权利要求1所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤4中,所述业务数据库采用POSC国际标准业务模型方法建模,在数据建模方面强调按照面向对象的方式进行分析,而对象根据油田的实际划分成不可再分的单元,每个单元相互之间建立关系,就形成了一个网状数据模型。

7.根据权利要求6所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤4中,所述业务数据库采用“业务域-业务-业务活动”的业务分类方法,业务域及业务是对业务活动的一种面向对象或主题的归类方法;业务活动是组成业务的最基本单元,在整个模型中不重复、不遗漏,可以跨域组合来完整的描述业务流和数据流。

8.根据权利要求7所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤4中,所述业务数据库基于领域驱动方式设计,针对石油工程领域里关键思维及其关系的可视化表现,准确定义解决问题而构造的抽象模型,是业务功能场景在软件系统里的映射转换;领域驱动设计关心的是业务中的领域划分和领域建模,关注业务语义表达,领域模型面向对象分析、对事物的抽象能力。

9.根据权利要求8所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤4中,所述业务数据库最终通过表结构和字段将基本实体及各个领域的数据模型逐一实现。

10.根据权利要求1所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤5中,所述报告模板库包含钻井设计报告中各个大章节以及其下的子章节,钻井设计报告以Office Word文件格式保存。

11.根据权利要求10所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述报告模板包括六个大章节,分别为技术指标及质量要求、工程设计、健康安全与环境管理、生产信息及完井提交资料、附则、附件。

...

【技术特征摘要】

1.一种地质文档关键信息自动提取及报告生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种地质文档关键信息自动提取方法,其特征在于:所述步骤1中,以词义的方式对词元进行管理,按照词元与词元的业务意义组成一个“词元的网络”,形成覆盖地质设计与钻井设计范围的专业词汇语义网;词元包括名词、动词、形容词、数词、量词和代词各自被组织成一个同义词的网络,根据这些同义词词义及关联关系,通过键值关系连接,得到描述各种石油地质以及钻井工程相关的术语以及描述它们之间的关联关系。

3.根据权利要求2所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤1中,所述专业词典库包括描述词元概念、词元关系、词组语义类型、唯一标识id和词组语义链。

4.根据权利要求1所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤3中,基于专业词典库将地质报告文档中的信息及关键数据提取出来时数据分析提取算法的核心是进行语义相似度计算,通过结合专业词典库中的词元相似度以及词组语义链,判断报告中的信息的语义,再根据提取规则进行信息获取。

5.根据权利要求4所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述数据分析提取算法采用自然语言处理中任意一种的相似度算法提取相似度较高的词对应的键值。

6.根据权利要求1所述的一种地质文档关键信息自动提取及报告生成方法,其特征在于:所述步骤4中,所述业务数据库采用posc国际标准业务模型方法建模,在数据建模方面强调按照面向对象的方式进行分析,而对象根据油田的实...

【专利技术属性】
技术研发人员:邹波乔李华万夫磊肖啟福刘宝军范生林余来洪戴强乔雨雷俨卜
申请(专利权)人:中国石油天然气集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1