一种表格识别方法及终端技术

技术编号:20867593 阅读:17 留言:0更新日期:2019-04-17 09:33
本发明专利技术涉及一种表格识别方法及终端,属于数据处理领域。本发明专利技术通过S1、扫描一纸质表格,转换得到一电子档表格并输出;S2、为所述一电子档表格中的每一单元格设置编号;S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;S5、重复执行S3至S4,直至所有单元格均被遍历。实现了将纸质表格转化为结构化数据。

【技术实现步骤摘要】
一种表格识别方法及终端
本专利技术涉及一种表格识别方法及终端,属于数据处理领域。
技术介绍
申请号为201710813108.6的专利文献提供一种表格识别方法、识别系统、计算机装置及计算机可读存储介质,表格识别方法包括:建立深度学习模型;获取表格图片,将表格图片横向切割为多个横向图片;通过深度学习模型,识别每个横向图片是否包含直线,获取包含直线的横向图片;纵向切割包含直线的横向图片,得到多个区块;根据多个区块组成表格,定位表格内文字并识别文字内容。通过利用建立好的深度学习模型进行表格的识别,提高了表格识别的效率以及准确率。但是,上述专利文献提供的表格识别方法得到的识别结果是非结构化数据,具体表现为一个个不知其具体含义的文字,无法将识别结果应用于具体的业务场景中。
技术实现思路
本专利技术所要解决的技术问题是:如何将纸质表格转化为结构化数据。为了解决上述技术问题,本专利技术采用的技术方案为:本专利技术提供一种表格识别方法,包括:S1、扫描一纸质表格,转换得到一电子档表格并输出;S2、为所述一电子档表格中的每一单元格设置编号;S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;S5、重复执行S3至S4,直至所有单元格均被遍历。本专利技术还提供一种表格识别终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:S1、扫描一纸质表格,转换得到一电子档表格并输出;S2、为所述一电子档表格中的每一单元格设置编号;S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;S5、重复执行S3至S4,直至所有单元格均被遍历。本专利技术具有如下有益效果:本专利技术通过将扫描纸质表格得到的电子档表格中的每一单元格进行编号,并逐一识别每一单元格的内容,从而将单元格编号与单元格内容一一对应,得到结构化数据。区别于现有技术,表格识别结果为不知具体含义的非结构化数据,工作人员难以根据识别结果进行进一步的业务操作,而本专利技术提供的方法所得到的识别结果为结构化数据,在具体的业务场景中,工作人员可根据单元格编号调用、采集、统计与业务逻辑关联的具体数据,充分利用了表格识别的结果,为工作人员进一步对纸质表格呈现的数据进行分析提供了极大地便利。附图说明图1为本专利技术提供的一种表格识别方法的具体实施方式的流程框图;图2为本专利技术提供的一种表格识别终端的具体实施方式的结构框图;标号说明:1、处理器;2、存储器。具体实施方式下面结合附图和具体实施例来对本专利技术进行详细的说明。请参照图1至图2,如图1所示,本专利技术提供一种表格识别方法,包括:S1、扫描一纸质表格,转换得到一电子档表格并输出;S2、为所述一电子档表格中的每一单元格设置编号;S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;S5、重复执行S3至S4,直至所有单元格均被遍历。进一步地,还包括:重复执行S1至S5,直至预设张纸质表格均已被扫描,得到结构化数据集合;预设一单元格编号,得到特定编号;从所述结构化数据集合中获取与所述特定编号对应的一个以上结构化数据,得到第一结构化数据集合。由上述描述可知,由于工作人员根据统一的编号规则可快速地、清晰地获知每一单元格编号所表示的实际业务意义,因此,本专利技术根据工作人员预设的一单元格编号,获取与该单元格编号对应的所有结构化数据,实现了采集、统计所有纸质表格的同一具体业务数据。工作人员还可根据业务需要对采集到的业务数据进行进一步数据处理,极大地提高了工作人员对纸质表格中呈现的数据进行数据分析、处理等工作操作的效率。进一步地,所述S2具体为:获取每一单元格的左上角坐标;根据所述左上角坐标排列所述一电子档表格中的所有单元格,得到单元格队列;所述单元格队列中各单元格的编号按顺序依次递增。由上述描述可知,通过单元格的左上角坐标对表格中的所有单元格进行排序,从而可依次将复杂表格中的各个单元格转化为结构化数据,提高了复杂表格转化为结构化数据的准确度,同时,这种从左到右从上到下的编号方式符合人们的习惯,有利于工作人员快速获知不同单元格编号所代表的具体业务含义。进一步地,所述S3之前,还包括:分割所述一电子档表格,得到多个单元格图像;一所述单元格图像与所述一电子档表格中的一单元格对应。进一步地,还包括:获取与多个所述单元格对应的结构化数据,得到第二结构化数据集合;封装所述第二结构化数据集合,得到响应报文。由上述描述可知,将纸质表格中的内容转换为单元格编号与单元格内容一一对应的结构化数据,便于工作人员根据具体的业务需求调用纸质表格中特定单元格的数据进行进一步的数据分析处理工作。。进一步地,所述S1具体为:扫描一纸质表格,得到第一表格图像;对所述第一表格图像进行RGB图像灰度化处理,得到第二表格图像;根据Canny算子提取所述第二表格图像的边缘,得到边缘集合;遍历所述边缘集合,计算得到与所述第二表格图像对应的倾斜角度;根据所述倾斜角度旋转所述第二表格图像,得到所述一电子档表格。由上述描述可知,将扫描得到的第一表格图像旋转至正中位置,使得后续分割操作更加精准,有利于提高单元格内容识别的准确度。同时,有利于使后续的编号设置与工作人员使用同一规则对纸质表格进行编号的结果相同,对工作人员进行后续的业务分析的准确度提供重要保障。如图2所示,本专利技术还提供一种表格识别终端,包括一个或多个处理器1及存储器2,所述存储器2存储有程序,并且被配置成由所述一个或多个处理器1执行以下步骤:S1、扫描一纸质表格,转换得到一电子档表格并输出;S2、为所述一电子档表格中的每一单元格设置编号;S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;S5、重复执行S3至S4,直至所有单元格均被遍历。进一步地,还包括:重复执行S1至S5,直至预设张纸质表格均已被扫描,得到结构化数据集合;预设一单元格编号,得到特定编号;从所述结构化数据集合中获取与所述特定编号对应的一个以上结构化数据,得到第一结构化数据集合。进一步地,所述S2具体为:获取每一单元格的左上角坐标;根据所述左上角坐标排列所述一电子档表格中的所有单元格,得到单元格队列;所述单元格队列中各单元格的编号按顺序依次递增;所述S本文档来自技高网...

【技术保护点】
1.一种表格识别方法,其特征在于,包括:S1、扫描一纸质表格,转换得到一电子档表格并输出;S2、为所述一电子档表格中的每一单元格设置编号;S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;S5、重复执行S3至S4,直至所有单元格均被遍历。

【技术特征摘要】
1.一种表格识别方法,其特征在于,包括:S1、扫描一纸质表格,转换得到一电子档表格并输出;S2、为所述一电子档表格中的每一单元格设置编号;S3、调用OCR识别引擎识别其中一个单元格中的文字,得到识别结果;S4、根据所述识别结果和所述一个单元格的编号生成一结构化数据;所述结构化数据包含两个键值对,一键值对的key为单元格编号,value为与所述一个单元格对应的编号;另一键值对的key为单元格内容,value为所述识别结果;S5、重复执行S3至S4,直至所有单元格均被遍历。2.根据权利要求1所述的表格识别方法,其特征在于,还包括:重复执行S1至S5,直至预设张纸质表格均已被扫描,得到结构化数据集合;预设一单元格编号,得到特定编号;从所述结构化数据集合中获取与所述特定编号对应的一个以上结构化数据,得到第一结构化数据集合。3.根据权利要求1所述的表格识别方法,其特征在于,所述S2具体为:获取每一单元格的左上角坐标;根据所述左上角坐标排列所述一电子档表格中的所有单元格,得到单元格队列;所述单元格队列中各单元格的编号按顺序依次递增。4.根据权利要求1所述的表格识别方法,其特征在于,所述S3之前,还包括:分割所述一电子档表格,得到多个单元格图像;一所述单元格图像与所述一电子档表格中的一单元格对应。5.根据权利要求4所述的表格识别方法,其特征在于,还包括:获取与多个所述单元格对应的结构化数据,得到第二结构化数据集合;封装所述第二结构化数据集合,得到响应报文。6.根据权利要求1所述的表格识别方法,其特征在,所述S1具体为:扫描一纸质表格,得到第一表格图像;对所述第一表格图像进行RGB图像灰度化处理,得到第二表格图像;根据Canny算子提取所述第二表格图像的边缘,得到边缘集合;遍历所述边缘集合,计算得到与所述第二表格图像对应的倾斜角度;根据所述倾斜角度旋转所述第二表格图像,得到所述一电子档表格...

【专利技术属性】
技术研发人员:郭国强周文贵
申请(专利权)人:厦门商集网络科技有限责任公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1