一种图片表格识别的方法及装置制造方法及图纸

技术编号：24613940 阅读：19 留言：0更新日期：2020-06-24 01:22

一种基于目标识别定位表格单元格，根据表格单元格获得表格线准确位置的方法，包括：S1.标记构建训练数据；S2.利用现有的目标识别模型训练数据，获得训练模型；S3.利用训练后的模型识别表格单元格；S4.利用识别的表格单元格计算表格线的实际位置。

A method and device of picture table recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种图片表格识别的方法及装置
本专利技术涉及计算机图像识别领域，更具体地，涉及一种图片表格识别的方法及装置。
技术介绍
企业在购买或卖出产品时，会收取或出具不同种类的票据。这些票据中，表格类的票据占了大部分。将这些票据输入电脑，既浪费人力又容易出错。为了将表格票据自动输入电脑，出现了基于数学形态学的表格识别技术。随着深度学习的发展，也出现了一些应用CNN对表格进行识别的方法。基于形态学的表格识别技术，对于电脑抓图的表格识别效果不错，但对于现实中的拍照获取的表格，效果不太理想。基于CNN的表格识别技术，需要的数据量巨大，训练好一个模型，耗费的人力较大。
技术实现思路
本专利技术提供了一种基于目标识别定位表格单元格，根据表格单元格获得表格线准确位置的方法，包括：S1.标记构建训练数据；S2.利用现有的目标识别模型训练数据，获得训练模型；S3.利用训练后的模型识别表格单元格；S4.利用识别的表格单元格计算表格线的实际位置。在本公开的一实施例中，所述目标识别模型为fasterR-CNN、yoloV3或SSD。在本公开的一实施例中，所述S3中，用训练模型对输入的待识别图片进行识别，识别出图片中的表格单元格，剔除少数噪声点。在本公开的一实施例中，计算横向临近单元格重叠区域的半宽度均值dW，纵向临近单元格重叠区域的半高度均值dH，用dW和dH估算出单元格的实际顶点位置。在本公开的一实施例中，再用估算出的表格单元格的顶点拟合出表格的横线和竖线，即为表...

【技术保护点】
1.一种图片表格识别的方法，其特征在于，包括：/nS1.标记构建训练数据；/nS2.利用现有的目标识别模型训练数据，获得训练模型；/nS3.利用训练后的模型识别表格单元格；/nS4.利用识别的表格单元格计算表格线的实际位置。/n

【技术特征摘要】
1.一种图片表格识别的方法，其特征在于，包括：
S1.标记构建训练数据；
S2.利用现有的目标识别模型训练数据，获得训练模型；
S3.利用训练后的模型识别表格单元格；
S4.利用识别的表格单元格计算表格线的实际位置。

2.如权利要求1所述的方法，其特征在于，所述目标识别模型为fasterR-CNN、yoloV3或SSD。

3.如权利要求1所述的方法，其特征在于，所述S3中，用训练模型对输入的待识别图片进行识别，识别出图片中的表格单元格，剔除少数噪声点。

4.如权利要求3所述的方法，其特征在于，计算横向临近单元格重叠区域的半宽度均值dW，纵向临近单元格重叠区域的半高度均值dH，用dW和dH估算出单元格的实际顶点位置。

5.如权利要求4所述的方法，其特征在于，再用估算出的表格单元格的顶点拟合出表格的横线和竖线，即为表格单元格的表格线。

6.一种图片表格识别的装置，其特征在于...

【专利技术属性】
技术研发人员：李长明，尹明君，
申请(专利权)人：畅捷通信息技术股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人