本发明专利技术涉及一种数据表格扫描图像的结构化转换方法,包括以下步骤:1)获取数据表格的扫描图像;2)提取扫描图像中的文字位置信息和表格位置信息;3)根据文字位置信息和表格位置信息,获取文本在表格中的行列位置信息;4)根据行列位置信息,逐一识别每一个表格中单元格内的文本识别信息;5)重构包含文本识别信息和表格位置信息的电子表格文档;6)将电子表格文档转化成字典形式的结构化数据。与现有技术相比,本发明专利技术准确性高,实现自动结构化转换,效率高。高。高。
【技术实现步骤摘要】
一种数据表格扫描图像的结构化转换方法
[0001]本专利技术涉及数据处理
,尤其是涉及一种数据表格扫描图像的结构化转换方法。
技术介绍
[0002]目前信息可以划分为两大类,一类信息能够用数字或统一的结构加以表示,称之为结构化数据;另一类无法用数字或统一的结构表示,如文本、图像、声音、网页等,称之为非结构化数据。现今企业存储的非结构化数据大量堆积,然而无法遵循标准的数据结构,一定程度上很难理解或者调动这些数据,将不能满足日益增长的应用需求,目前传统的结构化转换方法是对非结构化数据特征提取,进行命名实体、关系识别,并依据所需要处理的属性具体划分构建数据表,需要人工参与,效率低;
[0003]同时企业多以电子表格扫描件的方式存储非结构化数据,目前电子表格逻辑提取方法是通过表格识别算法,获取电子表格文档(如excel等表格软件)中所有表格进行布局分析。再根据分析结果从中抽取内容,并做对应的转换处理得到结构化信息。而相当一部分信息资料是以扫描版本与照片版本的表格为主,不如电子表格工整清晰,会产生倾斜或者不对齐的情况。
技术实现思路
[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种数据表格扫描图像的结构化转换方法,准确性高,实现自动结构化转换,效率高。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]一种数据表格扫描图像的结构化转换方法,可用于电力系统变电设备试验报告的结构化转换,包括以下步骤:
[0007]1)获取数据表格的扫描图像;
[0008]2)提取扫描图像中的文字位置信息和表格位置信息;
[0009]3)根据文字位置信息和表格位置信息,获取文本在表格中的行列位置信息;
[0010]4)根据行列位置信息,逐一识别每一个表格中单元格内的文本识别信息;
[0011]5)重构包含文本识别信息和表格位置信息的电子表格文档;
[0012]6)将电子表格文档转化成字典形式的结构化数据。
[0013]进一步地,所述的文字位置信息包括文字的位置信息和文字所在单元格的边框位置信息。
[0014]进一步地,所述的文字位置信息的提取过程包括:
[0015]通过OCR深度学习算法提取扫描图像中文字的位置信息;
[0016]对扫描图像进行二值化处理,获得文字所在单元格的边框位置信息。
[0017]进一步地,所述的表格位置信息包括表格中横线和竖线的交点坐标;
[0018]所述的表格位置信息的提取过程包括:
[0019]利用腐蚀、膨胀操作对二值化处理后的扫描图像进行分割,获得表格中的横线和竖线位置,进而获得横线和竖线的交点坐标。
[0020]进一步地,所述的步骤6)包括:
[0021]对于电子表格文档的每个表格,判断该表格的行列是否对齐,若是则判定该表格为标准表格,否则判定该表格为非标准表格;
[0022]采用关键字填充的方式对标准表格进行结构化;
[0023]对于非标准表格,首先构建一组关键字库以及字库内文本信息的上下级关系,提取非标准表格内文本信息的隶属关系,根据隶属关系将文本信息转化成字典形式的结构化数据。
[0024]进一步地,所述的数据表格扫描图像的结构化转换方法包括:
[0025]将步骤1)获得的扫描图像、步骤5)获得的电子表格文档以及步骤6)获得的结构化数据保存至数据库。
[0026]进一步地,所述的数据表格扫描图像的结构化转换方法包括:
[0027]通过基于Restful协议的接口开发,提供用于查询数据库的接口。
[0028]进一步地,所述的数据表格扫描图像的结构化转换方法包括:
[0029]根据文件名在数据库中查询相应的电子表格文档;
[0030]根据数据键值在数据库中查询结构化数据。
[0031]进一步地,所述的数据表格扫描图像的结构化转换方法包括:
[0032]接收已存数据查询指令,生成数据库中所有电子表格文档和结构化数据的数据清单。
[0033]进一步地,所述的数据表格扫描图像的结构化转换方法包括:
[0034]为数据库中的电子表格文档和结构化数据设置未读标记;
[0035]接收未读数据查询指令,生成数据库中所有未读的电子表格文档和结构化数据的数据清单。
[0036]与现有技术相比,本专利技术具有以如下有益效果:
[0037](1)本专利技术在表格位置信息和文字位置信息的基础上,针对每一个表格内的文本信息进行排序,通过逐个表格提取文本信息的方式,将文本和表格复现在电子表格文档中,解决初始图像中表格内文本换行的问题,避免OCR识别时将换行文本当成两个文本的缺陷,解决了常规OCR跨行识别的错位问题;
[0038](2)本专利技术结合单元格内文本识别和表格样式逻辑挖掘,实现试验报告的精准识别和自动结构化转换,效率高;
[0039](3)本专利技术通过基于Restful协议的接口开发,提供用户查询数据和文件接口,以便用户获取文件和数据清单,以及未读文件和数据清单,通过基于Restful协议的接口开发,提供用户获取数据和文件的接口,以便用户通过文件名或者数据键值获取相应文件或者数据。
附图说明
[0040]图1为本专利技术的方法流程图。
具体实施方式
[0041]下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。
[0042]一种数据表格扫描图像的结构化转换方法,如图1,包括以下步骤:
[0043]1)获取数据表格的扫描图像;
[0044]2)提取扫描图像中的文字位置信息和表格位置信息;
[0045]3)根据文字位置信息和表格位置信息,获取文本在表格中的行列位置信息;
[0046]4)根据行列位置信息,逐一识别每一个表格中单元格内的文本识别信息;
[0047]5)重构包含文本识别信息和表格位置信息的电子表格文档;
[0048]6)将电子表格文档转化成字典形式的结构化数据。
[0049]文本识别信息包括汉字、字符和符号。
[0050]文字位置信息包括文字的位置信息和文字所在单元格的边框位置信息。
[0051]步骤2)中,文字位置信息的提取过程包括:
[0052]通过OCR深度学习算法提取扫描图像中文字的位置信息;
[0053]对扫描图像进行二值化处理,获得文字所在单元格的边框位置信息。
[0054]表格位置信息包括表格中横线和竖线的交点坐标;
[0055]步骤2)中,表格位置信息的提取过程包括:
[0056]在二值化处理的基础上,利用腐蚀、膨胀操作对扫描图像进行分割,将一张扫描图像中的不同表格分割出来,提取这些表格中的横线和竖线位置,进而获得横线和竖线的交点坐标。
[0057]步骤3本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据表格扫描图像的结构化转换方法,其特征在于,包括以下步骤:1)获取数据表格的扫描图像;2)提取扫描图像中的文字位置信息和表格位置信息;3)根据文字位置信息和表格位置信息,获取文本在表格中的行列位置信息;4)根据行列位置信息,逐一识别每一个表格中单元格内的文本识别信息;5)重构包含文本识别信息和表格位置信息的电子表格文档;6)将电子表格文档转化成字典形式的结构化数据。2.根据权利要求1所述的一种数据表格扫描图像的结构化转换方法,其特征在于,所述的文字位置信息包括文字的位置信息和文字所在单元格的边框位置信息。3.根据权利要求2所述的一种数据表格扫描图像的结构化转换方法,所述的文字位置信息的提取过程包括:通过OCR深度学习算法提取扫描图像中文字的位置信息;对扫描图像进行二值化处理,获得文字所在单元格的边框位置信息。4.根据权利要求3所述的一种数据表格扫描图像的结构化转换方法,其特征在于,所述的表格位置信息包括表格中横线和竖线的交点坐标;所述的表格位置信息的提取过程包括:利用腐蚀、膨胀操作对二值化处理后的扫描图像进行分割,获得表格中的横线和竖线位置,进而获得横线和竖线的交点坐标。5.根据权利要求1所述的一种数据表格扫描图像的结构化转换方法,其特征在于,所述的步骤6)包括:对于电子表格文档的每个表格,判断该表格的行列...
【专利技术属性】
技术研发人员:毛玮韵,魏本刚,徐湘忆,陈璐,吴天逸,彭政睿,任辰,
申请(专利权)人:国网上海市电力公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。