表格识别方法和装置制造方法及图纸

技术编号:23933698 阅读:29 留言:0更新日期:2020-04-25 02:22
本发明专利技术公开了一种表格识别方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:识别待检测图像中的字符,将识别出的字符根据字符的纵向位置信息生成文本行;对文本行进行分词处理,依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别,利用确定的文本行类别获取属于同一表格的多个文本行;确定所述多个文本行共有的列分隔线以实现表格识别。该实施方式能够准确识别出表格的版式结构以及单元格中的文本数据。

Table identification method and device

【技术实现步骤摘要】
表格识别方法和装置
本专利技术涉及计算机
,尤其涉及表格识别方法和装置。
技术介绍
随着无纸化办公的推进,以及业务流程和监管部门对客户资料电子化存档的要求,此前以打印、复印等形式存在的纸质文书资料现在通常以扫描或拍摄后的数字图像形式进入办公信息系统,从而积累了大量的数字图像资料。这些数字图像中包含的文本内容无法直接由信息系统处理,需要由光学字符识别OCR(OpticalCharacterRecognition)系统识别成计算机字符数据后方可为信息系统所处理。但对于以表格形式组织的文本内容,OCR系统仅可以识别出一个个的字符数据或更进一步识别出词语数据,难以准确识别表格的版式结构(即表格的位置和行、列结构信息),因此亦难以提取表格单元格中的文本数据做进一步处理。现有的识别数字图像中表格文本的方案主要通过分析整页数字图像的光学特征来检测表格行列框线位置以检测表格的版式结构。但由于下列因素,此种检测准确率较低,一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况。这些因素包括:1)图像存在倾斜、透视畸变、扫描噪本文档来自技高网...

【技术保护点】
1.一种表格识别方法,其特征在于,包括:/n识别待检测图像中的字符,将识别出的字符根据字符的纵向位置信息生成文本行;/n对文本行进行分词处理,依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别,利用确定的文本行类别获取属于同一表格的多个文本行;/n确定所述多个文本行共有的列分隔线以实现表格识别。/n

【技术特征摘要】
1.一种表格识别方法,其特征在于,包括:
识别待检测图像中的字符,将识别出的字符根据字符的纵向位置信息生成文本行;
对文本行进行分词处理,依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别,利用确定的文本行类别获取属于同一表格的多个文本行;
确定所述多个文本行共有的列分隔线以实现表格识别。


2.根据权利要求1所述的方法,其特征在于,所述识别待检测图像中的字符,包括:
使用光学字符识别方法识别待检测图像,得到识别出的多个字符以及每一字符的横向位置信息和纵向位置信息。


3.根据权利要求2所述的方法,其特征在于,所述将识别出的字符根据字符的纵向位置信息生成文本行,包括:将纵向位置信息符合预设条件的字符确定为同一文本行;或者,将识别出的每一字符的纵向位置信息和高度信息输入预先建立的文本行聚类模型,得到至少一个文本行;以及,所述方法进一步包括:
在生成文本行之后,保持文本行中每一字符的所述横向位置信息;
在待检测图像为一幅时,按照文本行中字符的所述纵向位置信息沿纵向排列文本行;
在待检测图像为多幅时,按照文本行的页码信息以及文本行中字符的所述纵向位置信息沿纵向排列文本行。


4.根据权利要求3所述的方法,其特征在于,文本行在表格行属性维度和/或表格内容维度所属的类别包括:任一种表格内容的表头行、任一种表格内容的表内行以及表外行;以及,所述依据分词结果确定文本行在表格行属性维度和/或表格内容维度所属的类别,包括:
依据预先建立的语料库判断任一文本行经分词处理得到的每一词语所属的类别;其中,所述语料库中存储有对应于任一种表格内容的表头行的词语、以及对应于任一种表格内容的表内行的词语;获取该文本行中属于同一类别的词语数量,将词语数量最大的类别确定为该文本行所属的类别;或者
将任一文本行经分词处理得到的每一词语输入预先训练完成的文本行分类模型,得到该文本行所属的类别。


5.根据权利要求4所述的方法,其特征在于,所述利用确定的文本行类别获取属于同一表格的多个文本行,包括:
从上到下遍历排列后的每一文本行:
如果当前不存在已确定纵向范围的表格,则将第一次确定的、且类别为任一种表格内...

【专利技术属性】
技术研发人员:刘亚宋慧驹刘兴旺刘岩
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1