【技术实现步骤摘要】
【国外来华专利技术】认知文档图像数字化
本公开涉及文档处理技术,并且更具体地涉及用于认知地数字化来自文档图像的数据的方法、计算机程序产品和系统。
技术介绍
在传统的文档处理中,在准备时,逐页扫描纸上墨本文档作为相应的可视图像。扫描纸件的结果文档文件通常是一系列的页面的可视图像。页面的每个可视图像不具有可访问的内容,并且现有文档处理应用可以将某些可视图像图案数字化为数字化数据,该数字化数据可以通过使用对应的计算机程序应用来访问和操作。这种可视图像的数据数字化处理通常被称为提取或数据提取。鉴于传统纸件形式和扫描文档图像中所表示的信息量,提取这种文档图像可能极大地影响工业以及社会的许多领域中的普遍生产率。
技术实现思路
通过在一个方面提供一种方法,克服了现有技术的缺点,并且提供了附加的优点。用于从文档图像提取数据的方法包括例如:由计算机的一个或多个处理器获得所述文档图像,其中所述文档图像包括多个对象;识别分别与所述多个对象相对应的多个微块,其中每个微块与内容、位置和样式相关联;基于第一微块和第二微块的各自的位置特性以及可调整的共线 ...
【技术保护点】
1.一种用于从文档图像提取数据的计算机实现的方法,包括:/n由计算机的一个或多个处理器获得所述文档图像,其中所述文档图像包括多个对象;/n识别分别与所述多个对象相对应的多个微块,其中,所述微块中的每一个与内容、位置和样式相关联;/n基于第一微块和第二微块的各自的位置特性以及可调整的共线性参数,发现第一微块与第二微块共线;/n利用第一微块和第二微块识别宏块,其中所述宏块构成由计算机程序计算的键-值对;/n基于试探法将置信水平与所述键-值对相关联;以及/n将所述键-值对和所述相关联的置信水平传送给用户。/n
【技术特征摘要】
【国外来华专利技术】20171201 US 15/829,3041.一种用于从文档图像提取数据的计算机实现的方法,包括:
由计算机的一个或多个处理器获得所述文档图像,其中所述文档图像包括多个对象;
识别分别与所述多个对象相对应的多个微块,其中,所述微块中的每一个与内容、位置和样式相关联;
基于第一微块和第二微块的各自的位置特性以及可调整的共线性参数,发现第一微块与第二微块共线;
利用第一微块和第二微块识别宏块,其中所述宏块构成由计算机程序计算的键-值对;
基于试探法将置信水平与所述键-值对相关联;以及
将所述键-值对和所述相关联的置信水平传送给用户。
2.根据权利要求1所述的计算机实现的方法,所述发现包括:
基于分析第一微块和第二微块的各自的位置特性,明确第一微块和第二微块彼此紧邻;
明确第一微块和第二微块水平或垂直对齐;以及
确定第一微块和第二微块共线。
3.根据权利要求1所述的计算机实现的方法,所述发现包括:
基于分析第一微块和第二微块的各自的位置特性,明确第一微块和第二微块彼此紧邻;
明确第一微块和第二微块都被封闭在不封闭另一微块的特定几何区域中;以及
确定第一微块和第二微块共线。
4.根据权利要求1所述的计算机实现的方法,所述发现包括:
基于分析第一微块和第二微块的各自的位置特性,明确第一微块和第二微块彼此紧邻;
分析第一微块和第二微块两者的各自的语义内容,所述语义内容是所述可调整的共线性参数的成员;
明确第一微块的第一语义内容与键名相关联;
从所述键名对应的键本体数据中发现所述第二微块的第二语义内容是所述键名对应的数据类型;以及
确定第一微块和第二微块共线。
5.根据权利要求1所述的计算机实现的方法,其中每一微块的所述样式包括所述每一微块的字体类型、字体大小、段落对齐以及零个或更多标点分隔符,且其中所述可调整的共线性参数包括所述每一微块的样式。
6.根据权利要求1所述的计算机实现的方法,还包括:
明确所述文档图像的文档类别;
确定在所述文档类别中指定的类别键从所述文档图像的宏块集合中缺失;
在来自识别的宏块的微块的相应内容中搜索与缺失的类别键相对应的别名;
选择与所述微块中具有所述别名的一个微块相关联的另一宏块作为内容;以及
用所选择的另一宏块来识别另一键-值对,以代替所述缺失的类别键的键-值对。
7.一种用于从文档图像提取数据的计算机实现的方法,包括:
由计算机的一个或多个处理器获得所述文档图像,其中所述文档图像包括表格对象聚类;
识别所述表格对象聚类中的多个宏块,其中各个宏块包括共线对象;
在每一宏块内从相应微块定位一个或多个候选单元格;
基于所定位的候选单元格,将所述表格对象聚类分类到来自预定义表格类别集合的表格类别中;
根据所述表格类别,从每个宏块的所述一个或多个候选单元格中提取数据,其中所提取的数据由计算机程序计算;以及
从所提取的数据创建一个或多个二维(2D)阵列,其中所述一个或多个2D阵列具有针对第一维的所述表格对象聚类中的多个宏块。
8.根据权利要求7所述的计算机实现的方法,其中所述表格对象聚类的宏块对应于表格的列,并且其中列能够在每列的同一行中具有相应的标题。
9.根据权利要求7所述的计算机实现的方法,所述识别包括:
通过分析来自所述表格对象聚类的两组或更多组垂直共线对象的列定义属性,从多个宏块中确定每个宏块,其中所述列定义属性包括任意两个相邻宏块之间的绝对距离、任意两个相邻宏块之间的相对距离、语义插值以及每个宏块各自的相对样式。
10.根据权利要求7所述的计算机实现的方法,所述定位包括:
通过将相应的序列号分配给所述表格对象聚类的每个宏块内的相应的微块,对所述每个宏块内的相应的微块进行排序,其中,每个微块对应于以字符和/或符号表示的一个或多个词的块;以及
跨所有宏块分析具有相同序列号的微块之间的位置关系。
11.根据权利要求7所述的计算机实现的方法,所述分类包括:
基于所识别的宏块与所定位的候选单元格之间的位置关系,将所述表格类别分配给所述表格对象聚类,其中所述预定义表格类别集合包括具有被合并的单元格的表格的第一表格类别、具有不确定的单元格边界的表格的第二表格类别以及具有被嵌套的单元格的表格的第三表格类别。
12.根据权利要求7所述的计算机实现的方法,所述提取包括:
创建对应于候选单元格的键-值对,其中所述键-值对的键是所述候选单元格所在的宏块的标题,其中所述宏块的所述标题与指示所述标题是所述候选单元格的正确键的可能性的置信水平相关联。
13.一种计算机程序产品,包括:
计算机可读存储介质,其可由一个或多个处理器读取并且存储指令,所述指令由所述一个或多个处理器执行以用于执行用于从文档图像提取数据的方法,所述方法包括:
获取文档图像,其中所述文档图像包括多个对象;
识别分别与所述多个对象相对应的多个微块,其中,所述微块中的每一个与内容、位置和样式相关联;
基于第一微块和第二微块的各自的位置特性以...
【专利技术属性】
技术研发人员:K诺思拉普,C特里姆,B哈米斯,K塞加尔,C帕多勒,A阿德尼兰,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。