一种表格型文本图片的识别方法和系统技术方案

技术编号:31085273 阅读:12 留言:0更新日期:2021-12-01 12:36
本发明专利技术公开了一种表格型文本图片的识别方法,首先将表格型文本图片进行灰度化处理得到灰度图,对灰度图运用自动阈值的二值化处理,然后使用霍夫变换提取表格横竖线结构,得到横竖线坐标及单元格;然后对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像,所述标签具有坐标;对文本图像进行字符识别;再将步骤S1的单元格与步骤S2的标签进行自动坐标匹配,并将步骤S2的字符识别结果输出到相应单元格内。该方法用于实现金融资讯扫描文件等内容的识别,能够准备识别表格和其中的文本内容。文本内容。

【技术实现步骤摘要】
一种表格型文本图片的识别方法和系统


[0001]本专利技术属于自然语言处理、模式识别、图像处理技术结合领域,涉及一种适合识别金融资讯扫描文件等的表格型文本图片内容的识别方法与系统。

技术介绍

[0002]随着计算机视觉的飞速发展,作为计算机视觉的经典问题之一的光学字符识别(optical character recognition,OCR)技术迅速突破了传统技术框架的瓶颈,在自然场景文本识别、车牌识别、证件票据识别等诸多领域得到了广泛的应用。传统的光学字符识别技术是一个经典的模式识别问题,包括对图片的预处理、特征提取、利用分类器分类等几个步骤,已经形成了较为完善的技术体系。但随着深度学习的发展,传统光学字符识别框架被打破,基于深度学习的光学字符识别作为新的研究热点展现出更多的活力和更广阔的应用场景。因此,光学字符识别技术目前正面临着巨大的机遇和挑战。现有的文件内容识别方法大多采用传统的扫描匹配算法,缺乏对文件内表格、段落等复杂结构的特殊处理、对检测识别产生的错误内容的二次校准等技术。

技术实现思路

[0003]本专利技术的目的是提供一种表格型文本图片的识别方法,用于实现金融资讯扫描文件等内容的识别,能够准备识别表格和其中的文本内容,并可以识别版式和页眉页脚,识别精准度高。
[0004]为实现上述目的,本专利技术采取以下技术方案:
[0005]一种表格型文本图片的识别方法,包括如下步骤:
[0006]S1:将表格型文本图片进行灰度化处理得到灰度图,对灰度图运用自动阈值的二值化处理,然后使用霍夫变换提取表格横竖线结构,得到横竖线坐标及单元格;
[0007]S2:对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像,所述标签具有坐标;对文本图像进行字符识别;
[0008]S3:将S1的单元格与S2的标签进行自动坐标匹配,并将S2的字符识别结果输出到相应单元格内。
[0009]进一步的,还包括如下步骤:
[0010]S4:在S2中对文本图像进行字符识别后,利用基于交并比的文本序列相似度的计算函数对相邻两页的表格型文本图片以行为单位计算相似度,遍历所有表格型文本图片得到全局文本相似度;
[0011]S5:根据全局文本相似度对所有表格型文本图片进行全局搜索,进而提取出页眉和页脚。
[0012]更进一步的,还包括如下步骤:
[0013]S6:对步骤S2的文本图像的标签进行全局遍历来确定横坐标的取值范围;
[0014]S7:利用自适应阈值来对正文文本内容进行分段,若当前行的两端点横坐标均大
于阈值坐标,则该行为标题;若当前行只有一个端点的横坐标大于阈值坐标,则被确定为新的段落,据此进行排版输出。
[0015]优选的,所述步骤S2具体通过如下步骤实现:
[0016]S21:将所述表格型文本图片输入到特征金字塔网络中,特征金字塔网络按相同比例采样并级联生成特征F;
[0017]S22:将所述特征F用于预测概率图P和阈值图T;
[0018]S23:用概率图P和阈值图T计算近似二元图
[0019][0020]其中,P∈R
H*W
是由分割网络生成的概率图,H代表图片高度,W代表图片宽度,T为网络学习到的自适应阈值图;K表示放大因子,(i,j)表示图中的坐标点;
[0021]S24:采用可变形卷积为模型提供灵活的感受野,来助力极端长宽比的文本实例;
[0022]S25:为文本图像生成标签:用一组线段描述文本图像区域的每个多边形G:
[0023][0024]其中,S
k
为一组线段,n是顶点的个数,
[0025]然后通过使用Vatti裁剪算法将多边形G缩小为第一多边形Gs来生成正区域,其中缩小的偏移量D是根据原始多边形的周长L和面积A计算得出:
[0026]r为收缩比;
[0027]S26:为阈值图T生成标签:以相同的偏移量D到第二多边形G
d
扩展所述多边形G,然后通过计算到所述多边形G中最接近的线段的距离来生成阈值图T的标签;
[0028]S27:利用CNN提取输入文本图像的卷积特征图,利用深层双向LSTM网络在卷积特征的基础上继续提取文字序列特征,再将输出做softmax后得到字符输出。
[0029]优选的,所述步骤S3中,在将S1的单元格与S2的标签进行自动坐标匹配,并将S2的字符识别结果输出到相应单元格内之后,利用重识别技术对检测识别产生的错误内容的二次校准,所述重识别技术为将识别为空的单元格裁剪出来再进行识别。
[0030]同时,本专利技术还提供一种表格型文本图片的识别系统,所述识别系统能够执行上述的表格型文本图片的识别方法。
[0031]上述技术方案中,通过识别表格中的横竖线及横竖线的坐标实现了对单元格的识别,并为文本内容添加了具有坐标的标签,通过自动坐标匹配实现了对单元格内文本内容的复原,同时也给出了页眉和页脚以及版式的识别方法。本专利技术可被应用于大量表格型文本图片如金融资讯扫描文件等的识别场景,在节省人力的同时提高了识别精度。
具体实施方式
[0032]下面对本专利技术做进一步说明:
[0033]本专利技术识别的对象为表格型的文本图片,如果开始扫描得到pdf类型的文件,首先要转换为图片。
[0034]S1:针对结构化数据恢复的表格识别技术,具体步骤为:
[0035]对表格型文本图片中的文本图像进行灰度化处理,在灰度图的基础上运用自动阈值的二值化处理,然后使用霍夫变换来提取表格的横竖线结构,并确定横竖线的坐标,由此划分出各个单元格。
[0036]S2:文本检测及识别,具体步骤为:
[0037]将需要检测的表格型文本图片的文本图像输入到特征金字塔网络中,特征金字塔网络包含卷子算子和两个反卷积算子;利用特征金字塔网络按相同比例采样并级联以生成特征F。
[0038]将特征F用于预测概率图P和阈值图T。
[0039]用概率图P和阈值图T计算近似二元图
[0040][0041]其中,P∈R
H*W
是由分割网络生成的概率图,H代表图片高度,W代表图片宽度,是近似二元图,T为网络学习到的自适应阈值映射;K表示放大因子,根据经验设为50,(i,j)表示图中的坐标点。
[0042]采用可变形卷积为模型提供灵活的感受野,来助力极端长宽比的文本实例;
[0043]为文本图像生成标签:用一组线段描述文本图像区域的每个多边形:
[0044][0045]其中,S
k
为一组分段,G为文本区域的每个多边形,n是顶点的个数,在不同的数据集中可能不同。
[0046]然后通过使用Vatti裁剪算法将多边形G缩小为Gs来生成正区域,其中缩小的偏移量D是根据原始多边形的周长L和面积A计算得出:
[0047][0048]其中,D为缩小的偏移量,L为周长,A为面积,r为收缩比,根据经验值设为0.本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格型文本图片的识别方法,其特征在于包括如下步骤:S1:将表格型文本图片进行灰度化处理得到灰度图,对灰度图运用自动阈值的二值化处理,然后使用霍夫变换提取表格横竖线结构,得到横竖线坐标及单元格;S2:对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像,所述标签具有坐标;对文本图像进行字符识别;S3:将步骤S1的单元格与步骤S2的标签进行自动坐标匹配,并将步骤S2的字符识别结果输出到相应单元格内。2.如权利要求1所述的表格型文本图片的识别方法,其特征在于还包括如下步骤:S4:在步骤S2中对文本图像进行字符识别后,利用基于交并比的文本序列相似度的计算函数对相邻两页的表格型文本图片以行为单位计算相似度,遍历所有表格型文本图片得到全局文本相似度;S5:根据全局文本相似度对所有表格型文本图片进行全局搜索,进而提取出页眉和页脚。3.如权利要求2所述的表格型文本图片的识别方法,其特征在于还包括如下步骤:S6:对步骤S2的文本图像的标签进行全局遍历来确定横坐标的取值范围;S7:利用自适应阈值来对正文文本内容进行分段,若当前行的两端点横坐标均大于阈值坐标,则该行为标题;若当前行只有一个端点的横坐标大于阈值坐标,则被确定为新的段落,据此进行排版输出。4.如权利要求1所述的表格型文本图片的识别方法,其特征在于,所述步骤S2具体通过如下步骤实现:S21:将所述表格型文本图片输入到特征金字塔网络中,特征金字塔网络按相同比例采样并级联生成特征F;S22:将所述特征F用于预测概率图P和阈值图T;S23:用概率图P和阈值图T计算近...

【专利技术属性】
技术研发人员:朱迦榕柳奉奇徐洪义龚靖渝马利庄
申请(专利权)人:上海财联社金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1