油气文档的结构化确定方法、装置、存储介质及电子设备制造方法及图纸

技术编号:27879250 阅读:21 留言:0更新日期:2021-03-31 01:09
本发明专利技术提供了一种油气文档的结构化确定方法、装置、存储介质及电子设备,该方法首先获取待结构化的油气文档的分词属性,其中,所述分词属性至少包括分词主体以及分词词性。然后基于所述分词属性,确定出目标小句。之后,确定所述目标小句的主谓宾三元组为所述油气文档的目标结构化数据。可见,本方案能够自动对油气文档进行结构化数据提取,进而提高了油气文档的数据结构化效率。

【技术实现步骤摘要】
油气文档的结构化确定方法、装置、存储介质及电子设备
本专利技术涉及文档识别
,具体涉及一种油气文档的结构化确定方法、装置、存储介质及电子设备。
技术介绍
随着油气行业的快速发展,油气文档的数量也越来越多。目前采用人工提取的方式,对油气文档的信息进行提取,形成结构化数据。然而,受限于油气行业的专业性以及日益增加的油气文档的数据量,采用人工的方式对油气文档进行信息的提取,需要消耗较大的人力成本且数据结构化效率低。因此,如何提供一种油气文档的结构化确定方法,能够提高油气文档的数据结构化效率,是本领域技术人员亟待解决的一大技术难题。
技术实现思路
鉴于上述问题,本专利技术提供一种克服上述问题的技术方案,如下:一种油气文档的结构化确定方法,包括:获取待结构化的油气文档的分词属性,所述分词属性至少包括分词主体以及分词词性;基于所述分词属性,确定出目标小句;确定所述目标小句的主谓宾三元组为所述油气文档的目标结构化数据。可选的,所述获取待结构化的油气文档的分词属性,包括:获取所述待结构化的油气文档;将所述油气文档拆分成小句;将所述小句输入预设分词模型,确定所述预设分词模型输出的分词属性为所述待结构化的油气文档的分词属性。可选的,所述基于所述分词属性,确定出目标小句,包括:基于所述分词属性,获取所述油气文档的时间状语、“的”字三元组以及介词短语;基于所述“的”字三元组,确定出命名实体的所属关系;基于所述从属关系,确定去除所述时间状语以及所述介词短语的小句为所述目标小句。可选的,所述获取所述油气文档的时间状语,包括:判断所述小句是否具有时间状语,如果是,则确定所述时间状语为所述小句的时间状语;如果否,确定相邻所述小句的时间状语为所述小句的时间状语。可选的,所述确定所述目标小句的主谓宾三元组,包括:确定所述小句的命名实体以及实体上下位关系;基于所述命名实体以及实体上下位关系、预先定义的本体及其上下位关系以及所述命名实体的所属关系,确定出每个所述小句的主语,形成所述主谓宾三元组。可选的,所述基于所述命名实体以及实体上下位关系、预先定义的本体及其上下位关系以及所述命名实体的所属关系,确定出每个所述小句的主语,包括:确定所述命名实体中位于最上位的命名实体为所述小句的主语。可选的,还包括:基于所述小句的时间状语以及所述主谓宾三元组,确定出目标四元组。一种油气文档的结构化确定装置,包括:获取模块,用于获取待结构化的油气文档的分词属性,所述分词属性至少包括分词主体以及分词词性;第一确定模块,用于基于所述分词属性,确定出目标小句;第二确定模块,用于确定所述目标小句的主谓宾三元组为所述油气文档的目标结构化数据。一种油气文档的结构化确定系统,包括:存储器,用于存储程序;处理器,用于执行所述程序,所述程序运行时执行任意一项上述的油气文档的结构化确定方法。一种存储介质,存储有程序,所述程序被处理器执行时实现任意一项上述的油气文档的结构化确定方法。借由上述技术方案,本专利技术提供了一种油气文档的结构化确定方法,首先获取待结构化的油气文档的分词属性,其中,所述分词属性至少包括分词主体以及分词词性。然后基于所述分词属性,确定出目标小句。之后,确定所述目标小句的主谓宾三元组为所述油气文档的目标结构化数据。可见,本方案能够自动对油气文档进行结构化数据提取,进而提高了油气文档的数据结构化效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种油气文档的结构化确定方法的流程示意图;图2示出了本专利技术实施例提供的一种油气文档的结构化确定方法的又一流程示意图;图3示出了本专利技术实施例提供的一种油气文档的结构化确定方法的又一流程示意图;图4示出了本专利技术实施例提供的一种油气文档的结构化确定方法的又一流程示意图;图5示出了本专利技术实施例提供的一种油气文档的结构化确定方法的又一流程示意图;图6示出了本专利技术实施例提供的一种油气文档的结构化确定方法的又一流程示意图;图7示出了本专利技术实施例提供的一种油气文档的结构化确定装置的结构示意图;图8示出了本专利技术实施例提供的一种设备的硬件架构图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。正如
技术介绍
所述,随着知识工程的快速发展以及油气行业数字化的推进,油气领域从开始实验研究至今,积累了油气田勘探、开发、钻井、测井、建设工程等众多方面的知识成果,即海量的文献材料及书籍。因此,充分利用行业内的知识资产逐渐成为数字化油田建设的重点。而受限于油气行业知识资产的专业性与数量,人工提取并记录文档中的有效内容、进行知识管理和利用是一件时间成本较高的工作。因此,如何能够通过自动化的解析过程,将文档中蕴含的非结构化信息以结构化形式输出,提高油气文档结构化的效率,从而提供智能化、人性化的信息服务,如构建知识图谱、智能问答系统、阅读理解等等,是当前亟待解决的一大技术难题。在研发本方案的过程中,专利技术人发现,在当前实际业务中,文档结构化的效果往往受制于油气领域高质量标注数据的缺乏,以及用机器学习或深度学习算法训练出的黑箱模型无法充分结合油气文档的句法特点进行解析。由于油气行业数字化刚刚起步,不具备大量的电子文档文献积累,并且由于文本内容的专业性较强,需要业务专家进行数据标注,因此算法训练需要的标注成本较高。另外,根据石油文档的描述习惯,句中需要解析的主语或主语所属对象经常只在标题和开头句中出现,下文中多为隐藏描述,因此,需要结合上文段落理解,才能准确的提取出油气文档的结构化数据。而对文档结构化来说,这种情况相当于存在关系的两个实体在文本中距离较远,常用的文档结构化算法无法对该类数据进行结构化呈现。基于此,本专利技术实施例提供了一种油气文档的结构化确定方法,能够识别出油气文档中各句子的命名实体,进而形成结构化数据,提高了高油气文档的数据结构化效率。具体的,如图1所示,该油气文档的结构化确定方法,包括步骤:S11、获取待结构化的油气文档的分词属性。其中,所述分词属性至少包括分词主体本文档来自技高网
...

【技术保护点】
1.一种油气文档的结构化确定方法,其特征在于,包括:/n获取待结构化的油气文档的分词属性,所述分词属性至少包括分词主体以及分词词性;/n基于所述分词属性,确定出目标小句;/n确定所述目标小句的主谓宾三元组为所述油气文档的目标结构化数据。/n

【技术特征摘要】
1.一种油气文档的结构化确定方法,其特征在于,包括:
获取待结构化的油气文档的分词属性,所述分词属性至少包括分词主体以及分词词性;
基于所述分词属性,确定出目标小句;
确定所述目标小句的主谓宾三元组为所述油气文档的目标结构化数据。


2.根据权利要求1所述的油气文档的结构化确定方法,其特征在于,所述获取待结构化的油气文档的分词属性,包括:
获取所述待结构化的油气文档;
将所述油气文档拆分成小句;
将所述小句输入预设分词模型,确定所述预设分词模型输出的分词属性为所述待结构化的油气文档的分词属性。


3.根据权利要求2所述的油气文档的结构化确定方法,其特征在于,所述基于所述分词属性,确定出目标小句,包括:
基于所述分词属性,获取所述油气文档的时间状语、“的”字三元组以及介词短语;
基于所述“的”字三元组,确定出命名实体的所属关系;
基于所述从属关系,确定去除所述时间状语以及所述介词短语的小句为所述目标小句。


4.根据权利要求3所述的油气文档的结构化确定方法,其特征在于,所述获取所述油气文档的时间状语,包括:
判断所述小句是否具有时间状语,如果是,则确定所述时间状语为所述小句的时间状语;如果否,确定相邻所述小句的时间状语为所述小句的时间状语。


5.根据权利要求2所述的油气文档的结构化确定方法,其特征在于,所述确定所述目标小句的主谓宾三元组,包括:
确定所述小句的命名实体以及实...

【专利技术属性】
技术研发人员:任卓
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1