System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 信息提取和结构化方法技术_技高网

信息提取和结构化方法技术

技术编号:41448799 阅读:26 留言:0更新日期:2024-05-28 20:38
本发明专利技术提出了一种方法,该方法在输入处接收非结构化文档,提取其信息,重新组织该信息,并使该信息在可由其它系统使用的文件中可用。用于对信息进行提取和结构化的方法包括:(1)文档页面分离器模型,(2)块检测和分割模型,(3)表格提取器,(4)图像提取器,(5)图像分类模型,(6)文本提取器,(7)用于提高文本的图像质量的计算机视觉模型,(8)光学字符识别模型,(9)用于拼写校正的模型,(10)用于使文本的语义丰富的模型,(11)输出文件组织器,以及(12)用于使信息丰富的元数据聚合器。本发明专利技术的另一部分是合成文档生成器,其用于创建由数百万个合成文档组成的训练库,所述合成文档模拟具有不同布局变化的由O&G行业通常使用的真实文档。这些合成文档用于训练和更新在提取信息的主过程中使用的人工智能模型。因此,它包括以下步骤:(1)以不同的布局配置生成合成文档;(2)计算机视觉和分类模型的训练/调整;(3)合成和真实集下的模型的质量控制;(4)O&G领域中的提取结果的评估;(5)对新格式的标识或对现有格式的更改;(6)新合成格式的参数和配置的调整。

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及油气(o&g)行业感兴趣的文档中的信息检索领域。利用本专利技术从技术文档中提取信息,然后可以利用通过搜索引擎索引和搜索的域中的感兴趣元数据来丰富该信息。


技术介绍

1、信息提取和结构化是由计算机执行的自动任务,并且由若干子处理组成。取决于应用,对于这种类型的任务出现了不同的挑战。例如,可能需要从页面中正确地提取信息而不混淆文本、图像和表格;或者甚至是结构图像或表格,并将它们与它们的描述性标题相关联。存在不同的方法来在某些计算资源约束内获得优化的和可行的结果。另外,为了使处理的信息的质量最大化,除了该行业通常采用的文档类型的主要格式和视觉布局之外,关键是考虑油气(o&g)的特定领域所固有的语义特性,包括其专门词汇和技术表达。

2、当前的方法一次仅从文档(文本或图像)中提取一种类型的信息。此外,图像和表格内的文本与段落的内容混合是常见的。因此,希望利用考虑不同文本模态的多模态方法,组合文本和图像信息以提供更好质量的提取信息。

3、油气(o&g)部门中的公司当前使用的搜索系统仅检索其中信息本来就以文本格式可用的文档,即,其内容可以通过用于读取文本的简单算法来访问。具有使用过时的技术数字化的并且包含许多图像、图表(或图)(diagram)和表格的旧文档是非常普遍的。如果我们考虑文档的内部信息内容,则它们实际上不能由现有的搜索系统恢复。

4、人工智能技术已经应用于工业中以解决从技术文档中提取信息所提出的挑战。然而,这些技术中的大多数需要存在由领域中的专家注释的数据集,以便使得能够使用这些算法进行模型训练。然而,油气(o&g)领域的注释数据的缺乏的可用性和专家进行注释的高成本是信息提取系统的实现的重要限制。

5、us20200167558a1公开了一种系统和方法,用于使用一个或多个计算设备基于电子文档的语义信息和外观信息的组合将电子文档的文本区域分类为文档对象的各类型。

6、文献us20210158093a1公开了一种创建具有精确标记的页面元素的计算机生成的合成文档的系统。合成文档生成系统确定用于多个图像布局的布局参数。

7、文献us20200167558a1和us20210158093a1除了没有解决油气(o&g)领域固有的语义特性之外,还不具有从非结构化的文档中提取多模态信息(例如文本、图像和表格)的能力。

8、文献us2019080164a1公开了机器学习模型,其可以应用于过程和仪器图以提取图形组件,诸如表示化学组分或物理组件的传输的符号和过程循环,或者控制过程,以便克服现有的基于ocr的和手动分类解决方案的缺点。尽管在油气(o&g)领域中的过程图中具有应用潜力,但其应用限于包含这种类型的图的文档。

9、文献cn110334346b公开了一种基于对图像和文本的位置进行标记的用于从pdf文件提取信息的方法及装置。该过程的目的是将文本信息结构化为键和值的集合,这些集合基于文档布局被分层地组织。在这种情况下,用于提取文本区域的方法使用线段的抽象,基于字符坐标的提取,从pdf文件的内部结构中可立即获得的数据,因此不能应用于需要ocr的文档。因此,它与本专利技术中使用的基于使用神经网络的计算机视觉的更一般的方法不同。

10、文献cn111259830a公开了一种国际农业贸易领域中用于在人工标注后从pdf文档中获得训练数据,利用该数据训练卷积神经网络,并利用该训练网络的相应模型从pdf文档中提取信息的方法。在这种情况下,它包括一种用于从真实pdf文件中获得训练数据并且随后训练卷积神经网络以便对来自pdf文件的内容片断进行分类的方法。然而,它在获得训练数据的方式上与本专利技术根本上不同,在本专利技术的情况下,训练数据是合成文档,这意味着使用神经网络的训练示例的大得多的潜力,并且因此,意味着对于对象检测模型预测的更大准确度。

11、文档cn113343658a公开了一种从pdf文件表中提取信息的方法、装置及计算方式。pdf文件中的信息主要分为文本段落、表格和图像。提取图像相对简单,而提取段落和文本表格则更复杂,尤其是提取复杂的嵌套表格。为了完整提取pdf文件中的线框表,目前通常是从下向上进行。该方法通过提取表格的最简单的可能形式来工作,并且递归地遍历表格,找到嵌套表格,直到提取完整的表格。该文献提出该方法具有“实施简单,提取效率高,速度快,能够保持复杂表格内部逻辑关系的优点”。它仅专用于从pdf文件中的表(table,或称为“表格”)中提取信息,因此不适用于提取图像和说明文字(caption)。

12、鉴于上述现有技术中存在的限制,需要开发一种能够读取不是可编辑格式的文档的方法,即,该文档已经被数字化并且其内容不能通过简单的算法来访问。上述现有技术不具有下面将详细介绍的独特特征。


技术实现思路

1、本专利技术的目的

2、本专利技术旨在从不同格式的数字化文档中自动提取文本数据、图像和表格。该方法使用专门开发的人工智能计算模型来满足油气(o&g)行业的专用领域的特殊性。本专利技术被设计成支持在超级计算环境中的执行,提供对高处理并行性的支持,以便允许大量非结构化文档的高效提取。

3、专利技术的简要说明

4、本专利技术提出了一种方法,该方法在输入处接收一组非结构化文档,提取并对它们的信息进行结构化,重新组织该信息并使该信息在文件中可用,使得它们可由其它系统使用。

5、如图1中的图所示,用于提取和结构化信息的方法包括:(1)pdf页面分离器,(2)块检测和分割模型,(3)表格提取器,(4)图像提取器,(5)图像分类模型,(6)文本提取器,(7)用于提高文本的图像质量的计算机视觉模型,(8)光学字符识别模型,(9)用于拼写校正的模型,(10)用于使文本的语义丰富的模型,(11)输出文件组织器,以及(12)用于使信息丰富的元数据聚合器。

6、除了上述主提取过程之外,本专利技术提出了一种用于生成模拟真实文档的合成文档的补充过程,合成文档用于训练和更新在提取信息的主过程中使用的人工智能模型。如图2中的图中所图示的,用于产生合成文档以及训练人工智能模型的方法包括:(1)生成合成文档;(2)计算机视觉和分类模型的训练/调整;(3)在合成和真实集下的模型的质量控制;(4)在油气(o&g)领域中评估提取结果;(5)新格式的标识或对现有格式的更改;(6)参数的调整/新合成格式的配置

本文档来自技高网...

【技术保护点】

1.一种用于对信息进行提取和结构化的方法,其特征在于,所述方法包括:(1)PDF页面分离器,(2)块检测和分割模型,(3)表格提取器,(4)图像提取器,(5)图像分类模型,(6)文本提取器,(7)用于提高文本的图像质量的计算机视觉模型,(8)光学字符识别模型,(9)用于拼写校正的模型,(10)用于使文本的语义丰富的模型,(11)输出文件组织器,以及(12)用于使信息丰富的元数据聚合器,用于生成合成文档的算法以及人工智能模型。

2.根据权利要求1所述的方法,其特征在于,所述方法包括以下步骤:

3.根据权利要求1和2所述的方法,其特征在于,所述合成文档生成算法通过所述合成文档生成器创建由数百万个合成文档组成的训练库,所述合成文档模拟具有不同布局变化的由油气(O&G)行业通常使用的真实文档。

4.根据权利要求3所述的方法,其特征在于,使用合成文档来训练和更新在提取信息的主过程中使用的人工智能模型。

5.根据权利要求3或4所述的方法,其特征在于,所述方法包括以下步骤:

6.根据前述权利要求中任一项所述的方法,其特征在于,在所述方法中使用的所有人工智能模型的训练和更新被包括在以下步骤中:(2)块检测和分割模型,(5)图像分类模型,(7)用于提高文本的图像质量的计算机视觉模型,(8)光学字符识别OCR模型,(9)用于拼写校正的模型,(10)用于文本的语义丰富的模型(包括用于识别命名的实体、标识关系以及“词性标注部分”的处理)。

...

【技术特征摘要】
【国外来华专利技术】

1.一种用于对信息进行提取和结构化的方法,其特征在于,所述方法包括:(1)pdf页面分离器,(2)块检测和分割模型,(3)表格提取器,(4)图像提取器,(5)图像分类模型,(6)文本提取器,(7)用于提高文本的图像质量的计算机视觉模型,(8)光学字符识别模型,(9)用于拼写校正的模型,(10)用于使文本的语义丰富的模型,(11)输出文件组织器,以及(12)用于使信息丰富的元数据聚合器,用于生成合成文档的算法以及人工智能模型。

2.根据权利要求1所述的方法,其特征在于,所述方法包括以下步骤:

3.根据权利要求1和2所述的方法,其特征在于,所述合成文档生成算法通过所述合成文档生成器创建由数百万个合成文档组成的训练库,所述合成...

【专利技术属性】
技术研发人员:F·C·科代罗D·D·S·M·戈梅斯R·K·罗默A·M·A·亚历山大V·A·巴蒂斯塔M·D·C·罗得里格斯L·A·F·门多萨J·E·R·罗塞罗R·S·C·达罗沙M·A·C·帕谢科C·E·M·维拉罗波斯
申请(专利权)人:巴西石油公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1