一种文本识别方法、装置、可读存储介质及设备制造方法及图纸

技术编号:31012289 阅读:22 留言:0更新日期:2021-11-30 00:41
本发明专利技术提供一种文本识别方法、装置、可读存储介质及设备,所述方法包括:获取待识别图像;采用预设图像识别模型对待识别图像进行文字和表格识别,以提取出待识别图像当中的文本数据、表格结构及二者各自的坐标信息;基于预设区域分割模块对表格结构进行连通区域分割,以识别出表格结构所限定的有效矩形区域,并根据表格结构的坐标信息确定有效矩形区域的坐标信息;根据文本数据和有效矩形区域的坐标信息,将文本数据与有效矩形区域按坐标对应关系进行融合,并输出融合结果,以识别出待识别图像当中记载的文本内容。本发明专利技术实现表格内的多行文本与表格自动连接组合,避免识别结果出现句子错乱、语意不通等问题,提高了文本识别精度。度。度。

【技术实现步骤摘要】
一种文本识别方法、装置、可读存储介质及设备


[0001]本专利技术涉及图像信息识别
,特别涉及一种文本识别方法、装置、可读存储介质及设备。

技术介绍

[0002]随着计算机技术的不断发展,信息技术在人们的日常生活中占据越来越重要的位置,信息技术高速发展使人类社会各方面信息不断更新,人们要在大量的信息中获取自己所需要的知识,就必须对大量的信息进行加工处理。各种各样的文件资料纷乱复杂,必须对这些文档进行分类、存储、整理才能利用,针对有些文件信息,必须建立相应的文件资料和档案库,有时候需要对一些情报信息进行交换检索,为了减少人力劳动成本同时提高效率。表格形式的文档存在于我们生活的方方面面,在国民经济生活中和日常生活中都占有重要地位。
[0003]现有的OCR识别系统,对于简单的不含表格的印刷体识别效果较好,对于背景复杂、排版不规律并带有表格的文本识别率较差。含有表格类的复杂文本,每个表格中的文本都是一个独立的模块,传统的OCR识别系统无法将表格内的多行内容自动连接组合,识别的结果句子错乱,语意不通;表格类的文本资料复杂多样,且字体大多是非宋,楷的小众字体,传统的OCR识别系统对该类字体的识别率较低,很容易出现形似字错误。

技术实现思路

[0004]基于此,本专利技术的目的是提供一种文本识别方法、装置、可读存储介质及设备,以解决现有文本识别存在精度低、容易出错的技术问题。
[0005]根据本专利技术实施例的一种文本识别方法,所述方法包括:获取待识别图像;采用预设图像识别模型对待识别图像进行文字和表格识别,以提取出所述待识别图像当中的文本数据、表格结构及二者各自的坐标信息;基于预设区域分割模块对所述表格结构进行连通区域分割,以识别出所述表格结构所限定的有效矩形区域,并根据所述表格结构的坐标信息确定所述有效矩形区域的坐标信息;根据所述文本数据和所述有效矩形区域的坐标信息,将所述文本数据与所述有效矩形区域按坐标对应关系进行融合,并输出融合结果,以识别出所述待识别图像当中记载的文本内容。
[0006]另外,根据本专利技术上述实施例的一种文本识别方法,还可以具有如下附加的技术特征:进一步地,在提取出所述待识别图像当中的文本数据之后还包括:基于预先构建的关键词词库,对所述文本数据进行关键字纠错。
[0007]进一步地,基于预先构建的关键词词库,对所述文本数据进行关键字纠错的步骤
之后,还包括:将纠错后的文本数据和纠错前的文本数据分别输入到预设语音模型当中进行评分,并保留评分高的文本数据。
[0008]进一步地,采用所述预设图像识别模型对所述待识别图像进行表格识别包括:采用预设图像识别模型对待识别图像进行直线识别,得到直线数据集,所述直线数据集当中包含直线数据及其坐标信息;基于预设处理规则对所述直线数据集当中的直线数据进行筛选、合并和/或剔除,得到有效直线数据集;其中,所述表格结构由所述有效直线数据集当中的直线数据构成,所述预设处理规则包括:剔除与x轴正方向夹角在15度到75度对应的直线;剔除直线长度小于50像素值的直线;合并直线间距小于10像素值的直线;剔除与边缘平行且距离小于15个像素点的直线。
[0009]进一步地,基于预设区域分割模块对所述表格结构进行连通区域分割,以识别出所述表格结构所限定的有效矩形区域的步骤包括:将所述有效直线数据集当中的每条直线映射到空白图片的相应位置当中,所述空白图片和所述待识别图像的像素相同;采用预设区域分割模块对所述空白图片进行连通区域分割,提取所述空白图片的所有矩形区域;根据所述矩形区域的面积及IOU比值进行矩形区域筛选,剔除非有效矩形区域,得到所述表格结构所限定的有效矩形区域。
[0010]进一步地,采用所述预设图像识别模型对所述待识别图像进行文字识别包括:采用所述预设图像识别模型对所述待识别图像进行文本行检测,再对每一文本行进行OCR字符识别;去除识别字符的字符框,得到所述文本数据。
[0011]进一步地,在所述获取待识别图像的步骤之后,还包括:对所述待识别图像进行预处理,所述预处理的方式包括图像尺寸归一化、灰度化处理、二值化处理、双边滤波处理、数学形态学处理、和图像旋转处理当中的一种或多种;其中,图像旋转处理包括:通过放射变换对所述待识别图像进行直线检测,找出图中所有直线的角度集合г1;根据直线的长度及位置进行角度集筛选,剔除不符合条件的直线角度,得到角度集合г2;对角度集合г2求众数得到所述待识别图像的预测角度
Ã
;按预测角度
Ã
对所述待识别图像进行第一次角度旋转;将一次旋转后的待识别图像进行四分类角度预测,根据预测的结果对图像进行第二次角度旋转。
[0012]根据本专利技术实施例的一种文本识别装置,所述装置包括:
图像获取模块,用于获取待识别图像;信息识别模块,用于采用预设图像识别模型对待识别图像进行文字和表格识别,以提取出所述待识别图像当中的文本数据、表格结构及二者各自的坐标信息;区域分割模块,用于基于预设区域分割模块对所述表格结构进行连通区域分割,以识别出所述表格结构所限定的有效矩形区域,并根据所述表格结构的坐标信息确定所述有效矩形区域的坐标信息;数据融合模块,用于根据所述文本数据和所述有效矩形区域的坐标信息,将所述文本数据与所述有效矩形区域按坐标对应关系进行融合,并输出融合结果,以识别出所述待识别图像当中记载的文本内容。
[0013]本专利技术还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的文本识别方法。
[0014]本专利技术还提出一种文本识别设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的文本识别方法。
[0015]与现有技术相比:通过基于模型训练来对待识别图像进行文字和表格识别,以分别提取出图像中的文本数据和表格结构、以及二者各自的坐标,然后再基于模型训练来对表格结构进行连通区域分割,得到表格结构的有效矩形区域及其坐标,随后根据坐标对应关系将提取文字和有效矩形区域进行融合,从而实现表格内的多行文本与表格自动连接组合,避免识别结果出现句子错乱、语意不通等问题,大大提高了文本识别精度。
附图说明
[0016]图1为本专利技术第一实施例中的文本识别方法的流程图;图2为本专利技术第二实施例中的文本识别方法的流程图;图3为本专利技术第三实施例中的文本识别装置的结构示意图;图4为本专利技术第四实施例中的文本识别设备的结构示意图。
[0017]以下具体实施方式将结合上述附图进一步说明本专利技术。
具体实施方式
[0018]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。附图中给出了本专利技术的若干实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。
[0019]需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取待识别图像;采用预设图像识别模型对所述待识别图像进行文字和表格识别,以提取出所述待识别图像当中的文本数据、表格结构及二者各自的坐标信息;基于预设区域分割模块对所述表格结构进行连通区域分割,以识别出所述表格结构所限定的有效矩形区域,并根据所述表格结构的坐标信息确定所述有效矩形区域的坐标信息;根据所述文本数据和所述有效矩形区域的坐标信息,将所述文本数据与所述有效矩形区域按坐标对应关系进行融合,并输出融合结果,以识别出所述待识别图像当中记载的文本内容。2.根据权利要求1所述的文本识别方法,其特征在于,在提取出所述待识别图像当中的文本数据之后还包括:基于预先构建的关键词词库,对所述文本数据进行关键字纠错。3.根据权利要求2所述的文本识别方法,其特征在于,基于预先构建的关键词词库,对所述文本数据进行关键字纠错的步骤之后,还包括:将纠错后的文本数据和纠错前的文本数据分别输入到预设语音模型当中进行评分,并保留评分高的文本数据。4.根据权利要求1所述的文本识别方法,其特征在于,采用所述预设图像识别模型对所述待识别图像进行表格识别包括:采用所述预设图像识别模型对所述待识别图像进行直线识别,得到直线数据集,所述直线数据集当中包含直线数据及其坐标信息;基于预设处理规则对所述直线数据集当中的直线数据进行筛选、合并和/或剔除,得到有效直线数据集;其中,所述表格结构由所述有效直线数据集当中的直线数据构成,所述预设处理规则包括:剔除与x轴正方向夹角在15度到75度对应的直线;剔除直线长度小于50像素值的直线;合并直线间距小于10像素值的直线;剔除与边缘平行且距离小于15个像素点的直线。5.根据权利要求4所述的文本识别方法,其特征在于,基于预设区域分割模块对所述表格结构进行连通区域分割,以识别出所述表格结构所限定的有效矩形区域的步骤包括:将所述有效直线数据集当中的每条直线映射到空白图片的相应位置当中,所述空白图片和所述待识别图像的像素相同;采用预设区域分割模块对所述空白图片进行连通区域分割,提取所述空白图片的所有矩形区域;根据所述矩形区域的面积及IOU比值进行矩形区域筛选,剔除非有效矩形区域,得到所述表格结...

【专利技术属性】
技术研发人员:刘丹张恒星
申请(专利权)人:江西中业智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1