通过机器学习和跨层推理进行文档分析的方法和设备技术

技术编号：40659289 阅读：2 留言：0更新日期：2024-03-18 18:51

一种处理电子文档的方法，包括：接收电子文档；辨认电子文档中的一个或多个内容成分；识别每个所辨认的内容成分的内容类型；通过层分离器从所辨认的内容成分创建一个或多个逻辑层，使得每个逻辑层仅包含相同内容类型的内容成分。为创建的每个逻辑层调用特定内容类型的内容处理器。层分离器包括基于改良的U‑Net卷积神经网络的机器学习(machine learning；ML)模型，其被训练以对内容成分的内容类型进行分类。改良的U‑Net CNN相对于传统U‑Net CNN得到了改善，每层都有转换器，以实现高恢复率。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术总体涉及自动文档处理的领域。更具体地，本专利技术的方法和设备涉及使用机器学习技术分析具有文本和非文本元素的复杂文档。

技术介绍

1、光学字符识别(optical character recognition；ocr)在文档处理和自动化领域中，已取得了显着的影响。然而，在实务操作中，将文档处理自动化仍然存在困难。除了文本之外，文档可能包含表格、标志、图表与图形、制图、公司印章、以及其他结构化和非结构化元素。对于文档处理自动化而言，这带来了两个问题：非文本内容可能会妨碍ocr的准确性；非文本内容也可能包含重要信息，需要提取。以图1中呈现的文档为例。文档包含“测试银行”的图形标志、银行出纳员的印章、带有日期的条形码、在左上角的一些印刷文本其包含客户的姓名和地址、以及手写签名。在传统的ocr操作下，由于印章重叠在客户姓名和地址上，辨认出的客户地址可能会带有错误，像是包括“测试银行”和印章的日期(即“城堡街，测试银行，元朗，2020年11月10日”)。此外，印章以及其他非文本内容成分呈现的信息可能根本无法捕获。

2、在美国专利申请的公开号2009/0148039a1中，其披露了一种用于分类文档内容成分的多层文档表示方法。然而，这方法是基于颜色对文档图像进行分割操作，因此不适用于黑白文档或没有足够颜色信息的文档。

3、在美国专利号7,616,813b2中，其披露了一种通过将文档分割成不同文本区域，并提取文档的白色背景来处理文档的方法。显然，这种方法可能不适用于具有不同背景颜色或背景中混合多种颜色的文档。>

技术实现思路

1、本专利技术的一个目的是解决现有技术中的上述缺点，其提供一种用于处理电子文档(例如物理纸质文档的数字化光学扫描)的设备和方法，通过将电子文档的内容成分分成多个逻辑层，每个逻辑层属于一种内容类型，使得特定的内容处理过程可以根据其内容类型应用于每个逻辑层。

2、根据本专利技术的第一方面，提供了一种电子文档处理系统。电子文档处理系统包括层分离器、一个或多个特定内容类型的内容处理器、以及多层交叉引用处理器。

3、根据本专利技术的第二方面，电子文档被输入到基于机器学习(ml)的层分离器，以基于不同的内容类型有逻辑的将电子文档的内容分离成不同的层。依据分离的结果创建一个或多个逻辑层，其中每个逻辑层包含相同内容类型的一个或多个内容成分。根据一个实施例，内容类型包括打印文本内容类型、手写文本内容类型、印章内容类型、结构化内容类型、条形码内容类型和复杂内容类型。然后，电子文档内容的分离结果是基于这六种内容类型来进行。通过相应地训练基于ml的层分离器，也可能是其他的内容类型。

4、根据本专利技术的第三方面，对于由层分离器创建的逻辑层，应用特定内容类型的内容处理器来根据每个逻辑层的内容类型处理每个逻辑层。

5、打印文本内容处理器用于处理打印文本内容类型的层。打印文本内容处理器被配置为提取包含实际打印文本的一个或多个感兴趣区域(region of interest；roi)以进行进一步处理，并忽略空白背景空间。根据打印文本内容处理器的语言模型，打印文本内容处理器可以将roi分割成句子或字符，或者将roi按原样直接馈送到ocr引擎以进行文本识别。

6、手写文本内容处理器用于处理手写文本内容类型的层。手写文本内容处理器被配置为提取包含实际手写文本和/或签名的一个或多个roi，以用于进一步处理并且忽略空白背景空间。手写文本内容处理器将包含有手写文本的roi直接传送给ocr引擎进行文本识别。手写文本内容处理器将包含有签名的roi传送给签名验证引擎进行签名验证。

7、印章内容处理器用于处理印章内容类型的层。印章内容处理器包括形状检测器，其被配置为定位印章标记内容类型的层中的一个或多个印章标记的轮廓形状，以生成每个印章标记的印章标记图像。印章内容处理器还包括文本检测器，被配置为从每个印章图像中检测、辨认和提取文本。然后，使用每个印章图像和相应被提取的文本对，与先前存储在连接到印章内容处理器的印章戳数据库中的印章图像的记录进行比较和验证。

8、结构化内容处理器用于处理结构化内容类型的层。结构化内容处理器被配置为使用形状分析来检测、辨认和提取结构化内容类型的层中的一个或多个结构化内容成分。

9、条形码内容处理器用于处理条形码内容类型的层。条形码内容处理器被配置为检测、辨认并提取条形码内容类型的层中的条形码内容成分，以解码为机器可读数据，其中条形码内容成分可以是条形码和/或qr码。

10、复杂内容处理器用于处理复杂内容类型的层。由于复杂内容类型层可以包含徽标、任意形状的对象和其他非文本内容成分中的一个或多个，因此复杂内容处理器包括徽标检测器和其他上下文相关的内容处理子模块中的一个或多个，其用于检测、辨认和提取各种复杂内容子类型的这些复杂内容成分。徽标检测器被配置为检测、辨认和提取复杂内容类型层中的徽标。然后，使用每个提取的徽标来与先前存储在连接到复杂内容处理器的徽标数据库中的徽标图像的记录进行比较和验证。

11、根据本专利技术的第四方面，多层交叉引用处理器被配置为对从不同内容类型的层提取的两个或更多个内容成分执行上下文相关的交叉引用，也就是说，提取出的要交叉引用的每个内容成分都属于与提取出的要交叉引用的其他内容成分不同的内容类型的层。上下文相关交叉引用分析所提取的要交叉引用的内容成分的位置(在电子文档的页面中)、内容类型、子类型和属性，并确定它们的上下文重要性。

本文档来自技高网...

【技术保护点】

1.一种处理电子文档的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，

3.如权利要求1所述的方法，其特征在于，其中内容类型包括打印文本内容类型、手写文本内容类型、印章内容类型、结构化内容类型、条形码内容类型和复杂内容类型。

4.如权利要求1所述的方法，其特征在于，还包括：

5.如权利要求1所述的方法，其特征在于，还包括：

6.如权利要求1所述的方法，其特征在于，还包括：

7.如权利要求1所述的方法，其特征在于，还包括：

8.如权利要求1所述的方法，其特征在于，还包括：

9.如权利要求1所述的方法，其特征在于，还包括：

10.如权利要求1所述的方法，其特征在于，还包括：

11.一种处理电子文档的设备，其特征在于，包括：

12.如权利要求11所述的设备，其特征在于，

13.如权利要求11所述的设备，其特征在于，其中内容类型包括打印文本内容类型、手写文本内容类型、印章内容类型、结构化内容类型、条形码内容类型和复杂内容类型。</p>

14.如权利要求11所述的设备，其特征在于，还包括打印文本内容处理器，其配置以：

15.如权利要求11所述的设备，其特征在于，还包括手写文本内容处理器，其配置以：

16.如权利要求11所述的设备，其特征在于，还包括印章内容处理器，其配置以：

17.如权利要求11所述的设备，其特征在于，还包括结构化内容处理器，其配置以：

18.如权利要求11所述的设备，其特征在于，还包括条码内容处理器，其配置以：

19.如权利要求11所述的设备，其特征在于，还包括复杂内容处理器，其配置以：

20.如权利要求11所述的设备，其特征在于，还包括多层交叉引用处理器，其配置以：

...

【技术特征摘要】
【国外来华专利技术】