动态解析表格图像特征的OCR系统及方法技术方案

技术编号:35120228 阅读:49 留言:0更新日期:2022-10-05 09:48
一种动态解析表格图像特征的OCR系统及方法,其包括:多个智能终端和云端服务平台,所述云端服务平台进一步包括数据库和云端服务器,数据库至少包括云端算法库和语义资料库。本发明专利技术只需要对现有的扫描仪或智能手机进行改造,即只需要在智能终端上加装上自行开发的APP或小程序,就能使得本发明专利技术的动态解析表格图像特征系统完成很好的解析功能。比如,在各个需要采集的点通过对应的智能终端将数据采集并以结构化数据的方式输出云端,云端可以直接对该些表格数据进行保存和进一步分析。另外,各种算法和数据库在云端保存后及时更新,对应的智能终端可以适应性修改更新,保证更新的便携性。性。性。

【技术实现步骤摘要】
动态解析表格图像特征的OCR系统及方法


[0001]本专利技术涉及表格识别领域,尤其动态解析文本图像表格特征的OCR系统及方法。

技术介绍

[0002]在产业数字化、金融数字化等场景,有大量重复率高的对称表格文字的扫描件货影像件,需要进行数据结构化提取。无论通过人工输入计算机电子表格的方式,还是传统基于模式匹配的光学识别字符(Optical Character Recognition,OCR)技术自动提取,不但效率低下,准确度也不满足业务进行数字化的需求,还需要投入大量的复核确认工作。
[0003]随着计算机技术的发展及近几年深度神经网络等机器学习技术的发展应用,文本识别技术也发展到更多的依靠场景文字识别(Scene Text Recognition,STR)等技术,表格文字的字符识别数据结构化提取效率也大大提高。但实际产业场景,因采集手段、现场条件限制,影像件或扫描件的分辨率及清晰度有限,目前行业应用的文本识别及提取技术,大多数情况下识别率还是无法满足实际的产业数字化升级需求,经常还是需要大量的人工录入及复核确认等工作。
[0004]上海三稻智能科技有限公司在202011399708.0中公开了动态解析文本图像特征现象的元素自动捕获理解方法,包括:输入待处理的文件,包括图片类以及非图片类,并将非图片类转换为图片格式,与图片类文件统一存储;解析待处理文件类型及格式;修正待处理文件的图像成像问题;检测待处理文件中文本的所在位置、范围及布局;在文字检测的基础上对文本内容进行识别;从文本识别结果中抽取需要的字段和/或要素;输出最终文字识别结果或文本抽取处理结果。本申请提供的动态解析文本图像特征现象的元素自动捕获理解方法希望实现能够识别出票据的字段的功效。上述技术方案公开了修正待处理文件的图像成像问题进一步包括:通过对图像进行几何变换(包括透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正以及二值化处理,修成图像问题,便于后续文本的检测及文字的识别。在一些实施方式中,将待处理文件的图像输入预先训练的图像校正网络中进行几何变化及畸变校正包括:利用所述图像校正网络中的定位网络回归所述第一目标图像对应的空间变换的网络参数;利用所述图像校正网络中的网格生成器以及所述网络参数,计算所述校正后的第一目标图像中的像素点在所述第一目标图像中的位置;利用所述图像校正网络中的采样器以及计算出的位置,输出所述校正后的第一目标图像。在一些实施方式中,所述文字检测包括:将二值化图像输入预先训练的特征提取网络中;提取所述特征提取网络中至少两个卷积层的输出信息,并对所述输出信息进行融合;将融合后的信息输入所述特征提取网络中的全连接层,输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果,以实现文本定位,并得到矩形文本框。并且,在该方案中,设置基于预先设置的语义数据库生成基础语义分析引擎,所述语义数据库中包括领域基础语料库、领域词典及领域知识图谱;基于基础语义分析引擎对文本内容信息进行字段分析处理;基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素。
[0005]上述方案主要是针对图像特征现象的元素,即图像出来的票据或表格进行识别字
段,同样也存在识别准确性偏差时,人工需要大量复核的工作,而且开发基础语义分析引擎导致整个开发的成本非常高且开发周期长。
[0006]对于实现的产业场景下,现场条件非常有限,用扫描仪进行扫描或是手机等进行拍照后,直接就传给后台,后台经常还是需要大量的人工录入及复核确认等工作,导致成本高且识别程序慢。当后续要对报表等进行统计和智能分析时,人工录入及复核确认的工作造成了很大的瓶颈。

技术实现思路

[0007]本专利技术提供一种动态解析表格图像特征的OCR系统,以解决后台经常还是需要大量的人工录入及复核确认等工作,导致成本高且识别程序慢的问题。
[0008]一种动态解析表格图像特征的OCR系统,包括:多个智能终端和云端服务平台,所述云端服务平台进一步包括数据库和云端服务器,数据库至少包括云端算法库和语义资料库;
[0009]所述智能终端其至少包括图像获取部件和控制器,其中:
[0010]图像获取部件:用于扫描或拍照待数据提取的表格或表单,生成相应的影像件;
[0011]控制器,其进一步包括:
[0012]预处理模块:用于对影像件的图像数据进行预处理;
[0013]边缘端算力模块,用于执行机器学习算法,用于若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;按照预先从云端算法库中更新的模型从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
[0014]文本识别模块,用于基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重,提取表格文字的文本识别信息,
[0015]语义资料输出模块,用于提取表格文字的文本识别信息后进行结构化数据输出,通过通信模块输出至云端服务器。
[0016]在智能终端上安装一预先开发的一态解析表格APP或小程序,所述预处理模块、边缘端算力模块、文本识别模块和语义资料输出模块通过APP或小程序通过软件来实现,
[0017]所述边缘端算力模块通过云端算法库更新本端模型或者通过访问云端算法库来实现表格的每单元格区域;
[0018]所述文本识别模块通过语义资料库更新本端当前语义资料库或通过访问云端的所述语义资料库来实现语义距离的计算,以动态调整候选字符的权重并提取表格文字的文本识别信息。
[0019]智能终端为手机、PAD或扫描仪在内的智能器件。
[0020]一种动态解析表格图像特征的OCR方法,用于云端通过多个智能终端完成动态解析表格图像特征OCR过程,其进一步包括:
[0021]预先在云端建立云端算法库和语义资料库,所述云端算法库预先保存并训练基于深度神经网络的区域识别模型,用于训练模块以识别出图像中的表格每单元格区域及行分
割线、列分割线在内的信息,所述语义资料库用于保存至少具有层次结构关系的语义词典,以依据概念之间的上下位关系或同义关系进行计算,通过计算语义结构树中两词语之间的距离来计算词语的相似度,通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语的相似度或通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度;
[0022]智能终端扫描或拍照待数据提取的表格或表单,生成相应的影像件;
[0023]智能终端对长表格图像处理成页图像帧信息,按照预先从云端算法库中更新的模型从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动态解析表格图像特征的OCR系统,其特征在于,包括:多个智能终端和云端服务平台,所述云端服务平台进一步包括数据库和云端服务器,数据库至少包括云端算法库和语义资料库;所述智能终端其至少包括图像获取部件和控制器,其中:图像获取部件:用于扫描或拍照待数据提取的表格或表单,生成相应的影像件;控制器,其进一步包括:预处理模块:用于对影像件的图像数据进行预处理;边缘端算力模块,用于执行机器学习算法,用于若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;按照预先从云端算法库中更新的模型从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;文本识别模块,用于基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重,提取表格文字的文本识别信息,语义资料输出模块,用于提取表格文字的文本识别信息后进行结构化数据输出,通过通信模块输出至云端服务器。2.如权利要求1所述的一种动态解析表格图像特征的OCR系统,其特征在于,在智能终端上安装一预先开发的一态解析表格APP或小程序,所述预处理模块、边缘端算力模块、文本识别模块和语义资料输出模块通过APP或小程序通过软件来实现,所述边缘端算力模块通过云端算法库更新本端模型或者通过访问云端算法库来实现表格的每单元格区域;所述文本识别模块通过语义资料库更新本端当前语义资料库或通过访问云端的所述语义资料库来实现语义距离的计算,以动态调整候选字符的权重并提取表格文字的文本识别信息。3.如权利要求1或2所述的动态解析表格图像特征的OCR系统,其特征在于,智能终端为手机、PAD或扫描仪在内的智能器件。4.一种动态解析表格图像特征的OCR方法,用于云端通过多个智能终端完成动态解析表格图像特征OCR过程,其进一步包括:预先在云端建立云端算法库和语义资料库,所述云端算法库预先保存并训练基于深度神经网络的区域识别模型,用于训练模块以识别出图像中的表格每单元格区域及行分割线、列分割线在内的信息,所述语义资料库用于保存至少具有层次结构关系的语义词典,以依据概念之间的上下位关系或同义关系进行计算,通过计算语义结构树中两词语之间的距离来计算词语的相似度,通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语...

【专利技术属性】
技术研发人员:吴小闯邓曦曦
申请(专利权)人:上海聚均科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1