【技术实现步骤摘要】
表格识别方法和装置、计算机可读存储介质
本公开涉及计算机领域,特别涉及一种表格识别方法和装置、计算机可读存储介质。
技术介绍
在各行各业都存在大量图像表格文件,随着目前信息化、智能化技术的快速发展,对图像表格文件的自动数字化处理,有着越来越广泛的应用场景。图像表格文件的识别一般包括如下步骤如下:1)图像预处理(例如,灰度化、二值化、各种变换);2)表格的轮廓线识别;3)文字区域识别;4)对文字进行切割或比对;5)使用训练好的识别模型识别具体文字。在实际的表格图像中,存在各种各样的噪音或者水印等干扰信息,或者行列之间过于靠近,无法区分,导致识别出来文字分裂,或者缺失,不能很好地识别出整体表格。
技术实现思路
本公开提出了一种表格识别方案,能够进一步提高表格识别的准确性。根据本公开的一些实施例,提供了一种表格识别方法,包括:识别待识别表格的第一轮廓线;根据第一轮廓线,确定待识别表格的多个第一文字区域;对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点; ...
【技术保护点】
1.一种表格识别方法,包括:/n识别待识别表格的第一轮廓线;/n根据第一轮廓线,确定待识别表格的多个第一文字区域;/n对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;/n根据行列分割点,识别待识别表格的第二轮廓线;/n根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;/n使用文本识别模型,识别每个第二文字区域中的文字;/n将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。/n
【技术特征摘要】
1.一种表格识别方法,包括:
识别待识别表格的第一轮廓线;
根据第一轮廓线,确定待识别表格的多个第一文字区域;
对多个第一文字区域分别按行和列进行聚类,以计算待识别表格的行列分割点;
根据行列分割点,识别待识别表格的第二轮廓线;
根据第二轮廓线,确定待识别表格的多个第二文字区域,每个第二文字区域对应一个单元格;
使用文本识别模型,识别每个第二文字区域中的文字;
将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。
2.根据权利要求1所述的表格识别方法,其中,对多个第一文字区域分别按照行和列进行聚类,以计算待识别表格的行列分割点包括:
提取多个第一文字区域的行坐标区间段和列坐标区间段;
分别根据行坐标区间段、列坐标区间段的交叠程度,判断是否合并相应的第一文字区域;
基于合并的结果,计算待识别表格的行列分割点。
3.根据权利要求2所述的表格识别方法,其中,判断是否合并相应的第一文字区域包括:
分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分;
在合并后的聚类评分大于合并前的聚类评分的情况下,判断为合并相应的第一文字区域。
4.根据权利要求3所述的表格识别方法,其中,分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分包括:
将提取出的行坐标区间段或列坐标区间段视为样本,样本数记为N,N为大于1的自然数;
根据聚类内有交集的样本对的数目和不同聚类间无交集的样本对的数目,对第一文字区...
【专利技术属性】
技术研发人员:祁立,
申请(专利权)人:北京同邦卓益科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。