一种面向数字油藏的多级特征实体抽取方法和系统技术方案

技术编号:42455266 阅读:19 留言:0更新日期:2024-08-21 12:46
本发明专利技术公开了一种面向数字油藏的多级特征实体抽取方法和系统,涉及自然语言处理领域,用以高效、准确地对油藏文本进行实体抽取。本发明专利技术先对获取的部分油藏文本进行不同类型的标注,用prompt模板将标注文本转换为输入样本,并对应得到指示实体位置的真实标签;每种类型下利用成对的训练样本对实体抽取模型进行微调训练,实体抽取模型对训练样本进行多级特征提取,输出指示实体位置的预测标签;每一轮微调训练后对无标注油藏文本进行预测,人工修正错误的预测标签,用以扩充训练样本,使用所有训练样本对实体抽取模型进行训练;以最终训练的实体抽取模型对待预测油藏文本进行预测并解码。本发明专利技术的模型训练效率高、预测准确性高。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其是一种面向数字油藏的多级特征实体抽取方法和系统


技术介绍

1、传统的油藏勘探开发往往依赖于人工解释地质数据、分析地质模型和决策制定。然而,随着数字化技术的发展,油藏行业迎来了数据爆炸的时代,海量的数据不断涌现,给传统的勘探开发方式带来了挑战。从这些海量数据中迅速、准确地提取有用信息,对油藏领域的文本数字化和信息抽取具有重要意义。而命名实体识别方法便属于常用的一种方式,命名实体识别具有以下特点:

2、自动化数据处理:油藏领域涉及大量的文本和数据,包括地质勘探报告、钻井日志、生产数据等。通过命名实体识别方法可以自动识别并提取出文本中的重要实体,如地质构造、地层、油田名称等,从而加速数据处理的过程。

3、有效的信息提取:命名实体识别方法有助于从海量的文本和数据中提取出关键信息,如油藏地理位置、储量信息、生产井名称等。这些信息对于油田管理、勘探开发决策具有重要意义。

4、数据挖掘和分析:通过命名实体识别方法抽取的实体信息可以用于进一步的数据挖掘和分析。例如,可以对地质构造、油井名称等进行统计本文档来自技高网...

【技术保护点】

1.一种面向数字油藏的多级特征实体抽取方法,其特征在于,包括:

2.如权利要求1所述的面向数字油藏的多级特征实体抽取方法,其特征在于,所述prompt模板的形式为:

3.如权利要求1所述的面向数字油藏的多级特征实体抽取方法,其特征在于,所述实体抽取模型被构建为:

4.如权利要求3所述的面向数字油藏的多级特征实体抽取方法,其特征在于,所述根据预测标签指示的实体位置抽取出实体,包括:

5.如权利要求4所述的面向数字油藏的多级特征实体抽取方法,其特征在于,所述预测标签包含与输入的油藏文本长度相同的实体开始位置向量和实体结束位置向量;所述实体开始位...

【技术特征摘要】

1.一种面向数字油藏的多级特征实体抽取方法,其特征在于,包括:

2.如权利要求1所述的面向数字油藏的多级特征实体抽取方法,其特征在于,所述prompt模板的形式为:

3.如权利要求1所述的面向数字油藏的多级特征实体抽取方法,其特征在于,所述实体抽取模型被构建为:

4.如权利要求3所述的面向数字油藏的多级特征实体抽取方法,其特征在于,所述根据预测标签指示的实体位置抽取出实体,包括:

5.如权利要求4所述的面向数字油藏的多级特征实体抽取方法,其特征在于,所述预测标签包含与输入的油藏文本长度相同的实体开始位置向量和实体结束位置向量;所述实体开始位置向量中取值为1的位置表示实体开始位置,取值为0的位置表示非实体开始位置;所述实体结束位置向量中取值为1的位置表示实体结束位置,取值为0的位置表示...

【专利技术属性】
技术研发人员:李瑞段渝邢钧峰张岱阳徐悦甡贺宇星皇甫丙祥
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1