一种文本识别方法、装置、可读存储介质及设备制造方法及图纸

技术编号：31012289 阅读：22 留言：0更新日期：2021-11-30 00:41

本发明专利技术提供一种文本识别方法、装置、可读存储介质及设备，所述方法包括：获取待识别图像；采用预设图像识别模型对待识别图像进行文字和表格识别，以提取出待识别图像当中的文本数据、表格结构及二者各自的坐标信息；基于预设区域分割模块对表格结构进行连通区域分割，以识别出表格结构所限定的有效矩形区域，并根据表格结构的坐标信息确定有效矩形区域的坐标信息；根据文本数据和有效矩形区域的坐标信息，将文本数据与有效矩形区域按坐标对应关系进行融合，并输出融合结果，以识别出待识别图像当中记载的文本内容。本发明专利技术实现表格内的多行文本与表格自动连接组合，避免识别结果出现句子错乱、语意不通等问题，提高了文本识别精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别方法、装置、可读存储介质及设备

[0001]本专利技术涉及图像信息识别
，特别涉及一种文本识别方法、装置、可读存储介质及设备。

技术介绍

[0002]随着计算机技术的不断发展,信息技术在人们的日常生活中占据越来越重要的位置，信息技术高速发展使人类社会各方面信息不断更新，人们要在大量的信息中获取自己所需要的知识，就必须对大量的信息进行加工处理。各种各样的文件资料纷乱复杂,必须对这些文档进行分类、存储、整理才能利用，针对有些文件信息，必须建立相应的文件资料和档案库,有时候需要对一些情报信息进行交换检索，为了减少人力劳动成本同时提高效率。表格形式的文档存在于我们生活的方方面面，在国民经济生活中和日常生活中都占有重要地位。
[0003]现有的OCR识别系统，对于简单的不含表格的印刷体识别效果较好，对于背景复杂、排版不规律并带有表格的文本识别率较差。含有表格类的复杂文本，每个表格中的文本都是一个独立的模块，传统的OCR识别系统无法将表格内的多行内容自动连接组合，识别的结果句子错乱，语意不通；表格类的文本资料复杂多样，且字体大多是非宋，楷的小众字体，传统的OCR识别系统对该类字体的识别率较低，很容易出现形似字错误。

技术实现思路

[0004]基于此，本专利技术的目的是提供一种文本识别方法、装置、可读存储介质及设备，以解决现有文本识别存在精度低、容易出错的技术问题。
[0005]根据本专利技术实施例的一种文本识别方法，所述方法包括：获取待识别图像；采用预设图像识别模型对待识别图像进...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，其特征在于，所述方法包括：获取待识别图像；采用预设图像识别模型对所述待识别图像进行文字和表格识别，以提取出所述待识别图像当中的文本数据、表格结构及二者各自的坐标信息；基于预设区域分割模块对所述表格结构进行连通区域分割，以识别出所述表格结构所限定的有效矩形区域，并根据所述表格结构的坐标信息确定所述有效矩形区域的坐标信息；根据所述文本数据和所述有效矩形区域的坐标信息，将所述文本数据与所述有效矩形区域按坐标对应关系进行融合，并输出融合结果，以识别出所述待识别图像当中记载的文本内容。2.根据权利要求1所述的文本识别方法，其特征在于，在提取出所述待识别图像当中的文本数据之后还包括：基于预先构建的关键词词库，对所述文本数据进行关键字纠错。3.根据权利要求2所述的文本识别方法，其特征在于，基于预先构建的关键词词库，对所述文本数据进行关键字纠错的步骤之后，还包括：将纠错后的文本数据和纠错前的文本数据分别输入到预设语音模型当中进行评分，并保留评分高的文本数据。4.根据权利要求1所述的文本识别方法，其特征在于，采用所述预设图像识别模型对所述待识别图像进行表格识别包括：采用所述预设图像识别模型对所述待识别图像进行直线识别，得到直线数据集，所述直线数据集当中包含直线数据及其坐标信息；基于预设处理规则对所述直线数据集当中的直线数据进行筛选、合并和/或剔除，得到有效直线数据集；其中，所述表格结构由所述有效直线数据集当中的直线数据构成，所述预设处理规则包括：剔除与x轴正方向夹角在15度到75度对应的直线；剔除直线长度小于50像素值的直线；合并直线间距小于10像素值的直线；剔除与边缘平行且距离小于15个像素点的直线。5.根据权利要求4所述的文本识别方法，其特征在于，基于预设区域分割模块对所述表格结构进行连通区域分割，以识别出所述表格结构所限定的有效矩形区域的步骤包括：将所述有效直线数据集当中的每条直线映射到空白图片的相应位置当中，所述空白图片和所述待识别图像的像素相同；采用预设区域分割模块对所述空白图片进行连通区域分割，提取所述空白图片的所有矩形区域；根据所述矩形区域的面积及IOU比值进行矩形区域筛选，剔除非有效矩形区域，得到所述表格结...

【专利技术属性】
技术研发人员：刘丹，张恒星，
申请(专利权)人：江西中业智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人