【技术实现步骤摘要】
表格识别方法、装置及电子设备
[0001]本专利技术涉及图像处理
,具体提供一种表格识别方法、装置及电子设备。
技术介绍
[0002]目前,随着数字化的普及,越来越多的信息都以电子化文档的形式储存以及使用,而文档中的表格往往包含着一些更加丰富和关键的信息,比如财务报表、行政表单等。手动从这些文档中提取相关信息是一件非常耗时耗力的工作,因此,研究如何自动化地从图像或者文档中提取表格结构化信息的通用表格识别技术可以大大解放人力,具有广阔的应用前景。
[0003]然而,在实际的应用场景中,表格识别算法的输入往往呈现出不同版式,还会不可避免地存在各种各样的干扰,比如加盖在表格上的印章、由于翻拍或者扫描带来的噪声线、由于拍摄角度带来的图像扭曲等,这些问题往往会导致表格结构识别的错误以及表格识别结果准确度较低等。
[0004]相应地,本领域需要一种新的表格识别方案来解决上述问题。
技术实现思路
[0005]为了克服上述缺陷,提出了本专利技术,以提供解决或至少部分地解决现有方法无法对表格进行精准识别导 ...
【技术保护点】
【技术特征摘要】
1.一种表格识别方法,其特征在于,包括下述步骤:获取表格线训练图像样本;利用所述表格线训练图像样本对表格线检测模型进行训练;基于训练的表格线检测模型获取待识别表格图像中的表格线前景图;对所述表格线前景图进行预处理,得到当前表格结构;基于文本识别模型获取所述待识别表格图像中的文本内容以及所述文本内容对应的文本坐标;按照所述文本坐标将所述文本内容存储至所述当前表格结构的单元格中,以得到识别后的表格。2.根据权利要求1所述的表格识别方法,其特征在于,获取表格线训练图像样本包括获取包含印章数据的表格线训练图像、弯曲表格线训练图像、含有背景纹理干扰的表格线训练图像以及文本内容贴近表格线的训练图像;所述获取包含印章数据的表格线训练图像包括:基于包含印章数据的原始图像获取掩膜图像;调整包含印章数据的所述原始图像中印章像素值至预设像素值;从调整印章像素值的所述原始图像中获取包含印章的一个随机区域;将所述随机区域与所述掩膜图像进行融合,得到包含印章数据的表格线训练图像。3.根据权利要求1所述的表格识别方法,其特征在于,利用所述表格线训练图像样本对表格线检测模型进行训练包括:基于所述表格线训练图像样本以及对应的表格线前景标签图计算损失值,所述损失值的计算公式为:上式中,n为表格线训练图像的数量,n=1,2,
…
,N;h和w分别为表格线训练图像样本的高度和宽度,h=1,2,
…
,H,w=1,2,
…
,W;α为根据第n个表格线训练图像样本对应的表格线前景标签图确定出的在第n表格线训练图像样本中位置(h,w)处的标签值,为表格线检测模型输出的在第n表格线训练图像样本中位置(h,w)处的标签预测值,γ为聚集参数;判断所述损失值是否满足预设条件,在所述损失值不满足预设条件的情况下,基于梯度下降方法调节所述表格线检测模型中的权重参数,直至基于调整权重参数后获得的损失值满足预设条件时,完成模型训练。4.根据权利要求1所述的表格识别方法,其特征在于,对所述表格线前景图进行预处理,得到当前表格结构包括:基于所述表格线前景图提取横向轮廓线和竖向轮廓线;获取所述横向轮廓线和竖向轮廓线的交叉点;基于表格区域检测模型获取待识别表格图像的区域坐标;基于所述区域坐标筛选位于所述...
【专利技术属性】
技术研发人员:赵永森,
申请(专利权)人:上海云从企业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。