一种表格型文本图片的识别方法和系统技术方案

技术编号：31085273 阅读：20 留言：0更新日期：2021-12-01 12:36

本发明专利技术公开了一种表格型文本图片的识别方法，首先将表格型文本图片进行灰度化处理得到灰度图，对灰度图运用自动阈值的二值化处理，然后使用霍夫变换提取表格横竖线结构，得到横竖线坐标及单元格；然后对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像，所述标签具有坐标；对文本图像进行字符识别；再将步骤S1的单元格与步骤S2的标签进行自动坐标匹配，并将步骤S2的字符识别结果输出到相应单元格内。该方法用于实现金融资讯扫描文件等内容的识别，能够准备识别表格和其中的文本内容。文本内容。

全部详细技术资料下载

【技术实现步骤摘要】
一种表格型文本图片的识别方法和系统

[0001]本专利技术属于自然语言处理、模式识别、图像处理技术结合领域,涉及一种适合识别金融资讯扫描文件等的表格型文本图片内容的识别方法与系统。

技术介绍

[0002]随着计算机视觉的飞速发展，作为计算机视觉的经典问题之一的光学字符识别(optical character recognition,OCR)技术迅速突破了传统技术框架的瓶颈，在自然场景文本识别、车牌识别、证件票据识别等诸多领域得到了广泛的应用。传统的光学字符识别技术是一个经典的模式识别问题，包括对图片的预处理、特征提取、利用分类器分类等几个步骤，已经形成了较为完善的技术体系。但随着深度学习的发展，传统光学字符识别框架被打破，基于深度学习的光学字符识别作为新的研究热点展现出更多的活力和更广阔的应用场景。因此，光学字符识别技术目前正面临着巨大的机遇和挑战。现有的文件内容识别方法大多采用传统的扫描匹配算法，缺乏对文件内表格、段落等复杂结构的特殊处理、对检测识别产生的错误内容的二次校准等技术。

技术实现思路

[0003...

【技术保护点】

【技术特征摘要】
1.一种表格型文本图片的识别方法，其特征在于包括如下步骤：S1：将表格型文本图片进行灰度化处理得到灰度图，对灰度图运用自动阈值的二值化处理，然后使用霍夫变换提取表格横竖线结构，得到横竖线坐标及单元格；S2：对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像，所述标签具有坐标；对文本图像进行字符识别；S3：将步骤S1的单元格与步骤S2的标签进行自动坐标匹配，并将步骤S2的字符识别结果输出到相应单元格内。2.如权利要求1所述的表格型文本图片的识别方法，其特征在于还包括如下步骤：S4：在步骤S2中对文本图像进行字符识别后，利用基于交并比的文本序列相似度的计算函数对相邻两页的表格型文本图片以行为单位计算相似度，遍历所有表格型文本图片得到全局文本相似度；S5：根据全局文本相似度对所有表格型文本图片进行全局搜索，进而提取出页眉和页脚。3.如权利要求2所述的表格型文本图片的识别方法，其特征在于还包括如下步骤：S6：对步骤S2的文本图像的标签进行全局遍历来确定横坐标的取值范围；S7：利用自适应阈值来对正文文本内容进行分段，若当前行的两端点横坐标均大于阈值坐标，则该行为标题；若当前行只有一个端点的横坐标大于阈值坐标，则被确定为新的段落，据此进行排版输出。4.如权利要求1所述的表格型文本图片的识别方法，其特征在于，所述步骤S2具体通过如下步骤实现：S21：将所述表格型文本图片输入到特征金字塔网络中，特征金字塔网络按相同比例采样并级联生成特征F；S22：将所述特征F用于预测概率图P和阈值图T；S23：用概率图P和阈值图T计算近...

【专利技术属性】
技术研发人员：朱迦榕，柳奉奇，徐洪义，龚靖渝，马利庄，
申请(专利权)人：上海财联社金融科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人