【技术实现步骤摘要】
用于扫描图像中的表格信息的数据结构生成
本公开总体上涉及用于扫描图像中的表格信息的数据结构生成。提供了用于生成表示这样的表格信息的数据结构的方法,以及实现这样的方法的装置和计算机程序产品。
技术介绍
科学、医学和财务文档通常以表格形式描绘结构化信息。出于共享和存档目的,文档经常被扫描,并且所得到的扫描(光栅)图像被存储用于后续信息检索。扫描图像中的表格的结构是不能容易地由基于计算机的技术读取。在表格的结构、复杂性和可视化表示方面存在巨大的可变性。例如,表格标题可以以多种方式被结构化,以指示数据的行和列与分层的标题之间的对应关系。这种可变性对从扫描图像中自动提取表格信息提出了重大挑战。
技术实现思路
根据本专利技术的一个方面,提供了一种用于生成表示扫描图像中的表格信息的数据结构的计算机实现的方法。该方法包括:存储表示表格的扫描图像的图像数据;处理图像数据以识别图像中的字符和线的位置;以及根据所述位置映射信息单元格在图像中的定位,每个信息单元格包含一组字符。该方法包括,对于每个单元格,根据单元格定位来确定用于预定义的单元格属性集的单元格属性值,并将该属性值作为输入提供给机器学习模型,该机器学习模型被训练为根据单元格属性值将单元格预分类为标题单元格或数据单元格。然后,该方法将预定义的规则应用于预分类的单元格以识别角落数据单元格,该角落数据单元格标记图像中包含数据单元格的区域和包含标题单元格的边缘区域之间的过渡。该方法还包括,对于行标题单元格集和列标题单元格集中的每一个,根据图像中这些单元格的相对定位,定 ...
【技术保护点】
1.一种用于生成表示扫描图像中的表格信息的数据结构的计算机实现的方法,所述方法包括:/n存储表示表格的扫描图像的图像数据;/n处理所述图像数据以识别所述图像中的线和字符的位置;/n根据所述位置映射信息单元格在所述图像中的定位,每个信息单元格包含一组所述字符;/n对于每个单元格,根据所述定位来确定用于预定义的单元格属性集的单元格属性值,并将所述属性值作为输入提供给机器学习模型,所述机器学习模型被训练为根据单元格属性值将单元格预分类为标题单元格或数据单元格;/n将预定义的规则应用于经预分类的单元格以识别角落数据单元格,所述角落数据单元格标记所述图像中包含数据单元格的区域和包含标题单元格的边缘区域之间的过渡,并且根据所述边缘区域中的单元格定位来定义行和列标题单元格;/n对于所述行标题单元格集和所述列标题单元格集中的每一个,根据所述图像中这些单元格的相对定位,定义层次树,所述层次树指示所述标题单元格的层次结构;/n使用所述层次树来生成将每个数据单元格映射到所述层次结构中对应的行和列标题单元格的数据结构;以及/n存储所述数据结构以提供所述表格的可查询表示。/n
【技术特征摘要】
20190624 US 16/450,0781.一种用于生成表示扫描图像中的表格信息的数据结构的计算机实现的方法,所述方法包括:
存储表示表格的扫描图像的图像数据;
处理所述图像数据以识别所述图像中的线和字符的位置;
根据所述位置映射信息单元格在所述图像中的定位,每个信息单元格包含一组所述字符;
对于每个单元格,根据所述定位来确定用于预定义的单元格属性集的单元格属性值,并将所述属性值作为输入提供给机器学习模型,所述机器学习模型被训练为根据单元格属性值将单元格预分类为标题单元格或数据单元格;
将预定义的规则应用于经预分类的单元格以识别角落数据单元格,所述角落数据单元格标记所述图像中包含数据单元格的区域和包含标题单元格的边缘区域之间的过渡,并且根据所述边缘区域中的单元格定位来定义行和列标题单元格;
对于所述行标题单元格集和所述列标题单元格集中的每一个,根据所述图像中这些单元格的相对定位,定义层次树,所述层次树指示所述标题单元格的层次结构;
使用所述层次树来生成将每个数据单元格映射到所述层次结构中对应的行和列标题单元格的数据结构;以及
存储所述数据结构以提供所述表格的可查询表示。
2.如权利要求1所述的方法,包括在存储所述数据结构之后,响应于接收到对于所述表格中的信息的请求:
从所述数据结构中提取与所请求的信息相对应的数据;以及
输出所提取的数据。
3.如权利要求1所述的方法,其中:
所述规则通过马尔可夫逻辑网络在与单元格有关的谓词上定义,所述马尔可夫逻辑网络具有预训练的规则权重,所述规则权重指示用于识别角落数据单元格的相应规则的重要性;以及
应用所述规则的步骤包括将所述马尔可夫逻辑网络应用于经预分类的单元格以识别所述角落数据单元格。
4.如权利要求1所述的方法,包括,对于所述行标题单元格集和所述列标题单元格集中的至少一个,通过以下方式定义所述层次树:
生成加权图,所述加权图包括表示所述图像中的所述标题单元格、标题单元格的相邻数据单元格和预定义的根单元格的节点,每个单元格的节点通过边与表示所述图像中的相邻单元格的至少一组所述节点相互连接,其中,每对节点之间的所述边具有权重,所述权重取决于这些节点所表示的单元格在所述图像中的相对位置;以及
根据所述权重,在表示数据单元格的每个节点和表示所述根单元格的节点...
【专利技术属性】
技术研发人员:A·F·罗德瑞格兹,M·嘉芭拉尼,W·法尔鲁克,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。