表格模板定义方法和装置制造方法及图纸

技术编号:6535841 阅读:286 留言:0更新日期:2012-04-11 18:40
提供了定义表格模板的方法和装置。该方法包括:分析表格的图像以从该表格的图像中提取单元格;对所提取的单元格进行分组;一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。另外,还提出了利用预定标志定义表格模板的方法,包括:分析该表格的图像以从该表格的图像中提取单元格;识别出所提取的单元格中的预定标志;以及以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。利用本发明专利技术的按照分组和/或基于预定标志来定义表格模板的方法和装置,可以显著降低用户的工作量。

【技术实现步骤摘要】

本专利技术一般地涉及表格识别,更具体地涉及表格模板定义。
技术介绍
表格识别在利用表格收集和分析信息的领域中具有很多应用。借用表格识别,可以数字化、存储和发送表格上的手写体或印刷体的数据。例如,表格识别的一个应用的例子是银行,银行中要处理的用户表格很多,但是表格类型并不多,即有大量同类型的表格,如汇款表格,取款表格等等。这时,只要识别了表格模板,就可以告知应用程序到何处找到有意义的内容,如找到金额,或者用户的姓名,卡号等等。因此,表格模板的定义是表格识别的第一步。表格模板告知表格处理应用在哪里提取有意义的数据,以及如何提取有意义的数据,文本在某单元格中的布局,如何选择适当的OCR引擎等。表格模板定义(Form Template Definition,FTD)主要在于确定单元格的属性,单元格的属性包括,但不限于单元格中内容的语言的类型,如中文、日文等;可填写的是字符还是单个阿拉伯数字;版面性质,如一行还是多行,一个字符串还是一个数字;形成单元格的线条是实线还是虚线,是四周型即矩形形状的,还是U型的;内容是否语言混排,如中文简体和繁体混排,中文和日文混排,字符和数字混排等等。在美国专利5317646中,提出了一种表格识别系统,其中涉及辅助操作员创建电子模板的方法。操作员以定点设备(pointing device)选择在所显示位图的封闭式边界或半封闭式边界的区域内的单个点,由此利用操作员所选择的单个点,将自动确定表示该封闭式边界或半封闭式边界的坐标。不过,在该专利文档中,仅仅讨论了表格的单元格位置的确定,而未涉及单元格的属性;此外,在确定表格位置过程中需要操作员手动提供一个点。现有的确定单元格的属性的操作一般是由操作员手动地对所有单元格逐个定义各个单元格的属性,因此工作量很大而且具有大量重复的定义操作,容易令人厌烦。
技术实现思路
针对现有技术的上述问题,本专利技术希望提供一种能够降低人们处理表格的工作量的表格模板定义方法和装置。根据本专利技术的一个方面,提供了一种定义表格的表格模板的方法,包括分析表格的图像以从该表格的图像中提取单元格;对所提取的单元格进行分组;一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。根据本专利技术的另一方面,提供了一种定义表格的表格模板的方法,包括分析该表格的图像以从该表格的图像中自动提取单元格;识别出所提取的单元格中的预定标志,并以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。根据本专利技术的再一方面,提供了一种定义表格的表格模板的方法,包括获得表格的第一表格图像;以预定标志来标记该表格中的待定义属性的单元格,其中预定标志与单元格的预定属性相关联;获得针对标记后的表格的第二表格图像;分析该第一表格图像以从该第一表格图像中自动提取单元格;求得第二表格图像与第一表格图像之间的差别图像,然后基于该差别图像来识别单元格中的预定标志,并以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出该预定标志的所提取的单元格。根据本专利技术的另一方面,提供了一种定义表格的表格模板的装置,包括单元格提取单元,用于分析表格的图像以从该表格的图像中提取单元格;单元格分组单元,用于对所提取的单元格进行分组;以及单元格属性定义单元,用于一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。根据本专利技术的另一方面,提供了一种定义表格的表格模板的装置,包括单元格提取单元,用于分析该表格的图像以从该表格的图像中提取单元格;预定标志识别单元,用于识别出所提取的单元格中的预定标志;以及单元格属性定义单元,用于以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。根据本专利技术的另一方面,提供了一种定义表格的表格模板的装置,包括第一表格图像获得单元,用于获得表格的第一表格图像;预定标志标记单元,用于以预定标志来标记该表格中的待定义属性的单元格,其中预定标志与单元格的预定属性相关联;第二表格图像获得单元,用于获得针对标记后的表格的第二表格图像;单元格提取单元,用于分析该第一表格图像以从该第一表格图像中自动提取单元格;预定标志识别单元,用于求得第二表格图像与第一表格图像之间的差别图像,然后基于该差别图像来识别单元格中的预定标志;以及单元格属性定义单元,用于以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出该预定标志的所提取的单元格。利用本专利技术的上述方法和装置,通过以单元格的组为单位了设置单元格的属性, 使得仅需对一组单元格中的一个单元格来设置属性,从而大大降低了表格模板定义的工作量。利用本专利技术的上述方法和装置,通过对表格中单元格设置预定标志,而来把与该预定标志相关联的单元格属性自动赋予给单元格,显著降低了表格模板定义的工作量。附图说明通过结合附图对本专利技术各个实施例的详细描述,本领域的技术人员可以更好地理解本专利技术的上述和其它方面、特点和优点,其中在所有附图中使用相同或相似的附图标记来表示相同或者相似的部件,在附图中图1示出根据本专利技术一个实施例的表格模板定义装置的功能性配置框图;图2示出根据本专利技术另一实施例的表格模板定义装置的功能性配置框图;图3示出根据本专利技术另一实施例的表格模板定义装置的功能性配置框图;图4示出根据本专利技术另一实施例的表格模板定义装置的功能性配置框图;图5示出一个典型表格的图像的例子;图6示出了图5中表格的所有单元格;图7示出了根据本专利技术一个实施例的自动表格单元格提取的一种示例性方法;图8示出了如何从水平和垂直线条构建单元格的示例性方法;图9示出了根据本专利技术一个实施例的计算水平线条和垂直线条之间距离的示意图;图10示出了根据本专利技术一个实施例的判断水平线条和垂直线条之间交叉类型的示意性方法;图11示出了根据本专利技术一个实施例的由水平线条和垂直线条生成的九种交叉类型;图12示出了根据本专利技术一个实施例如何把上述九种交叉类型分解成四种单元格拐角;图13(a)和(b)示出了根据本专利技术一个实施例的验证表格正当性的规则示例;图14示出了根据本专利技术一个实施例的在图7的后处理步骤704中应处理的重叠单元格的示意图;图15示出了根据本专利技术一个实施例的在图7的后处理步骤704中处理重叠单元格的算法的示意图;图16示出了根据本专利技术一个实施例的对图5的表格图像进行自动单元格提取得到的结果;图17示出了根据本专利技术一个实施例的判断表格相似性的流程图;图18示出了根据本专利技术一个实施例的水平相邻或垂直相邻的两个单元格的例子;图19示出了根据本专利技术一个实施例的利用图17所示的方法对一个表格中单元格归类的结果示例;图20示出了根据本专利技术一个实施例的图17的步骤1704中的基于图像比较来判断两个单元格是否相似的示例性算法;图21示出了根据本专利技术一个实施例的利用图17的步骤1704确定的相似单元格的示例;图22示出了根据图17的步骤1705确定的相似单元格的示例;图23示出了标记有预定标志的基准表格图像的示例;图M示出了对所有待定义属性的单元格标以预定标志的情况的示例;图25示出了根据本专利技术一个实施例的定义表格模板的方法的流程图;图沈示出本文档来自技高网
...

【技术保护点】
1.一种定义表格的表格模板的方法,包括:分析表格的图像以从该表格的图像中提取单元格;对所提取的单元格进行分组;以及一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。

【技术特征摘要】
1.一种定义表格的表格模板的方法,包括 分析表格的图像以从该表格的图像中提取单元格; 对所提取的单元格进行分组;以及一组一组地定义单元格的属性,其中,如果定义了一组中的第一单元格的属性,则该组中的其它单元格将自动地复制该单元格的属性。2.根据权利要求1的方法,其中定义第一单元格的属性包括,识别该第一单元格中是否具有预定标志,其中预定标志与单元格的预定属性相关联,如果从该第一单元格中识别出预定标志,则以与该预定标志相关联的预定属性来定义该第一单元格。3.根据权利要求2的方法,其中识别该第一单元格中是否具有预定标志包括,求得未设置有预定标志的表格的图像与设置有预定标志的表格的图像之间的差别图像,以及将该差别图像与预定标志相比较。4.根据权利要求1的方法,其中,在一组的单元格的属性被定义之后,修改该组中任一单元格的属性,则该组中其它单元格的属性自动地进行相应改变。5.根据权利要求1的方法,其中对所提取的单元格进行分组是根据单元格之间的相似度计算而自动进行的。6.一种定义表格的表格模板的方法,包括分析该表格的图像以从该表格的图像中提取单元格; 识别出所提取的单元格中的预定标志;以及以与所识别出的预定标志相关联的单元格的预定属性来定义从中识别出了该预定标志的所提取的单元格。7.一种定义表格的表格模板的方法,包括 获得表格的第一表格图像;以预定标志来标记该表格中的待定义属性的单元格,其中预定标志与单元格的预定属性相关联;获得针对标记后的表格的第二表格图像; 分析该第一表格图像以从该第一表格图像中自动提取单元格;...

【专利技术属性】
技术研发人员:蒋焰张睿山合敏文大黑庆久
申请(专利权)人:株式会社理光
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1