【技术实现步骤摘要】
非结构化文档的识别转换方法、系统及电子设备
[0001]本专利技术涉及办公场景下的图纸转换
,尤其涉及一种非结构化文档的识别转换方法、系统及电子设备。
技术介绍
[0002]现阶段,无论是在日常工作还是在出版、纸质文件留存方面,人们对非结构化文档的使用需求不断增加。比如办公场景下的文件、合同、报表的自动识别与归档之类的办公自动化操作步骤、数字图书馆中对于文档的自动检索和自动分类功能以及对老旧文档或者重要信息的电子化保存等等。这对相应的非结构化文档的处理及识别等技术提出了更高的要求,其中图片表格的识别与提取更是一个备受关注的问题。
[0003]对非结构化文档进行分析的重要步骤就是对文档图片的版面结构进行分析,这种对文档图片进行版面分析的方式很大程度上提高了对非结构化文档的自动化识别效率,同时也避免了人们为了方便文档图片中的内容的保存,再次输入到计算机中的麻烦,提高了非结构化文档保存的输入效率。现阶段所产生的能对非结构化文档进行分析的识别系统,是不需要使用者对非结构化数字文档中的各个分类通过手动鼠标点击或者键盘输入 ...
【技术保护点】
【技术特征摘要】
1.一种非结构化文档的识别转换方法,用于将办公场景下的文件、合同或报表中的表格图片识别转换为可编辑的表格,其特征在于,包括:提供一表格图片,提取所述表格图片中的表格线及交点,且获得每一单元格的表格信息;根据每一所述单元格的表格信息,将所述表格图片进行切割为若干子图片,每一所述子图片对应一个所述单元格,并提取每个所述子图片中的字符信息;以及,将每一所述单元格的表格信息和每个所述子图片中的字符信息组合后转换成Excel表格输出。2.如权利要求1所述的非结构化文档的识别转换方法,其特征在于,提取所述表格图片中的表格线及交点的步骤包括:通过预设的滤波器对所述表格图片进行滤波;以及,对滤波后的所述表格图片进行图像二值化,获得所述表格图片中的水平线、垂线及所述水平线和所述垂线之间的交点。3.如权利要求2所述的非结构化文档的识别转换方法,其特征在于,获得所述表格图片中的交点的步骤包括:延长长度小于所述表格图片中的第一条垂线的若干垂线,以使被延长的垂线的两端分别与所述表格图片中的第一条水平线和最后一条水平线对齐,和/或,延长长度小于所述表格图片中的第一条水平线的若干水平线,以使被延长的水平线的两端分别与所述表格图片中的第一条垂线和最后一条垂线对齐;提取所有垂线与所有水平线的交点,逐个将提取的每个交点的位置信息与所述表格图片中的相应交点的位置信息进行对比,以判断提取的交点是否与所述表格图片中的相应交点重合,若不重合,则舍去该交点;若重合,则保留该交点,直至对比完提取的所有交点,保留的交点为获得的所述表格图片中的交点。4.如权利要求1所述的非结构化文档的识别转换方法,其特征在于,获得每一所述单元格的表格信息的步骤包括:提取的交点的位置信息包括水平位置及垂向位置,遍历提取的每个所述交点,以每个所述交点为单元格的左上角交点,根据每个所述交点的水平位置及垂向位置获得与其处于同一水平位置且位于其右侧的所有水平交点,以及获得与其处于同一垂向位置且位于其下侧的所有垂向交点;根据所述水平交点和所述垂向交点得到右下角交...
【专利技术属性】
技术研发人员:钱立贵,周小雪,陈鑫,李剑楠,王希,曾伟,
申请(专利权)人:上海爱可生信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。