【技术实现步骤摘要】
一种表格识别方法及系统
[0001]本专利技术涉及表格识别
,特别是涉及一种高效准确的表格识别方法及系统。
技术介绍
[0002]纸质表格被广泛的应用于数据采集过程中,将纸质表格的数据转换成电子数据是信息化的必然趋势。然而,传统的转换方式是人工数据录入方式,需要由专门的数据录入员将纸质表格的数据一条一条手动录入到计算机中进行存储,这种方式耗费了大量的人力和时间,存在许多弊端,如效率低下、差错率高、成本昂贵等。随着配备摄像头的移动设备的激增,越来越多的用户通过这些移动设备对纸质表格进行拍摄并上传,使得从这些包含纸质表格的图片中提取信息的需求变得更加迫切。通常,从图片中提取信息的一个关键部分是将图片中的数据数字化,然而,由于表格结构的多样性,以及用于视觉上分离表格组件的图形元素的变化,使得从这些图片中提取数据成为一个非常具有挑战性的问题。
[0003]因此,高效地从图片中找到表格,同时有效提取表格中的数据与结构信息以完成表格识别,成为了一个亟待解决的问题。
技术实现思路
[0004]本专利技术的目的 ...
【技术保护点】
【技术特征摘要】
1.一种表格识别方法,其特征在于,所述识别方法包括:获取对待识别表格进行拍摄所得到的图片;利用文字检测模型对所述图片进行识别,确定所述图片中的文本区域;利用文字识别模型对所述文本区域进行文字识别,得到文本识别结果;所述文本识别结果包括所述文本区域内每个元素的顶点坐标及文本内容;根据所述文本识别结果对所述文本区域内每个元素进行位置定位,确定所述文本区域内每个元素的位置,得到所述待识别表格中各个元素的位置及文本内容;所述位置包括行数和列数。2.根据权利要求1所述的识别方法,其特征在于,所述文字检测模型为DB模型。3.根据权利要求1所述的识别方法,其特征在于,在所述利用文字识别模型对所述文本区域进行文字识别之前,所述识别方法还包括:利用方向分类器模型判断所述文本区域内的文字是否处于预设方向;若否,则对所述文本区域进行旋转校正,使所述文本区域内的文字处于预设方向,得到校正后文本区域,并以所述校正后文本区域作为新的文本区域。4.根据权利要求1所述的识别方法,其特征在于,所述文字识别模型为CRNN模型。5.根据权利要求1所述的识别方法,其特征在于,在所述根据所述文本识别结果对所述文本区域内每个元素进行位置定位之前,所述识别方法还包括:利用数字识别模型对所述文本识别结果中的文本内容为数字或符号的元素的文本内容进行校正,得到校正后识别结果,并以所述校正后识别结果作为新的文本识别结果。6.根据权利要求1所述的识别方法,其特征在于,在所述根据所述文本识别结果对所述文本区域内每个元素进行位置定位之前,所述识别方法还包括:根据所述文本识别结果进行非表格元素过滤,去除所述文本区域内的非表格元素,得到过滤后区域,并以所述过滤后区域作为新的文本区域;在所述文本识别结果中去除所述非表格元素的顶点坐标及文本内容,得到过滤后识别结果,并以所述过滤后识别结果作为新的文本识别结果。7.根据权利要求1或6所述的识别方法,其特征在于,所述根据所述文本识别结果对所述文本区域内每个元素进行位置定位,确定所述文本区域内每个元素的位置具体包括:根据所述文本识别结果对所述文本区域内的行和列进行拟合,以对所述文本区域内每个元素进行行定位和列定位,确定所述文本区域内每个元素的位置。8.根据权利要求7所述的识别方法,其特征在于,所述根据所述文本识别结果对所述文本区域内的行和列进行拟合具体包括:对于所述文本识别结果中的每...
【专利技术属性】
技术研发人员:王少伟,骆翔宇,黄冠杰,陈祖希,郑黎晓,
申请(专利权)人:河南高辉教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。