一种基于OCR的文本智能识别系统技术方案

技术编号：39998549 阅读：4 留言：0更新日期：2024-01-09 03:02

本发明专利技术公开了一种基于OCR的文本智能识别系统，属于文字识别技术领域，具体包括：图像获取模块，用于对文本图像进行采集，并对所述文本图像进行预处理获得灰度图像；图像处理模块，用于对所述灰度图像进行灰度扩散，根据灰度扩散结果对灰度图像进行一次矫正，使文本方向处于横向排列，识别矫正后的灰度图像中的汉字字符，并识别汉字字符之间的特定标点区域，根据特定标点区域在汉字字符之间的方位，对所述灰度图像进行二次矫正；文本识别模块，用于对二次矫正后的灰度图像进行文本内容识别，并对识别后的文本内容进行自然语言处理，获得校订文本；本发明专利技术实现了对偏移的文本图像的准确矫正。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文字识别，具体涉及一种基于ocr的文本智能识别系统。

技术介绍

1、随着科技的发展，文本识别技术在各个领域得到了广泛的应用，如图书馆、档案馆、新闻出版等领域。传统的文本识别方法主要依赖于人工操作，这种方法不仅效率低下，而且容易出错。为了提高文本识别的准确性和效率，研究人员开始尝试使用计算机视觉技术来实现文本的自动识别。其中，基于光学字符识别（ocr）的文本识别技术是近年来研究的热点。

2、光学字符识别（ocr）是一种将图像中的文字信息转换为计算机可编辑文本的技术。它通过对图像进行预处理、特征提取、字符识别等步骤，实现对图像中文字信息的自动识别。目前，ocr技术已经取得了很大的进展，但仍然存在一些问题，当获得的原始文本图像的拍摄角度出现偏移，导致文本内容倾斜或者倒置时，难以对文本内容进行准确有效的识别。

技术实现思路

1、本专利技术的目的在于提供一种基于ocr的文本智能识别系统，解决以下技术问题：

2、现有ocr技术当获得的原始文本图像的拍摄角度出现偏移，导致文本内容倾斜或者倒置时，难以对文本内容进行准确有效的识别。

3、本专利技术的目的可以通过以下技术方案实现：

4、一种基于ocr的文本智能识别系统，包括：

5、图像获取模块，用于对文本图像进行采集，并对所述文本图像进行预处理获得灰度图像；

6、图像处理模块，用于对所述灰度图像进行灰度扩散，根据灰度扩散结果对灰度图像进行一次矫正，使文本方向处于横向

7、文本识别模块，用于对二次矫正后的灰度图像进行文本内容识别，并对识别后的文本内容进行自然语言处理，获得校订文本。

8、作为本专利技术进一步的方案：所述图像获取模块对文本图像进行预处理的过程为：

9、对所述文本图像进行灰度处理生成灰度图像，并对所述灰度图像进行一次降噪，对一次降噪后的所述灰度图像进行边缘检测，将文本区域与背景区域进行分割，对边缘检测后的所述灰度图像进行二值化处理，将灰度图像中文本区域的灰度值归为0，将灰度图像中背景区域的灰度值归为255，并对所述灰度图像进行二次降噪。

10、作为本专利技术进一步的方案：所述图像处理模块对所述灰度图像进行灰度扩散并一次矫正的过程为：

11、将所述灰度图像标记为初始灰度图像，选定初始灰度图像中的文本区域，所述文本区域包括若干个字符区域，将所有单个字符区域由中心向外进行放大(1+a)%倍，a为预设值，使放大后的相邻单个字符区域互相接触，生成若干个条形区域，对所述条形区域通过中值滤波获得对应的直线方程，计算若干个直线方程的平均斜率，根据所述平均斜率对初始灰度图像中的文本区域进行角度矫正，使文本方向处于横向排列。

12、作为本专利技术进一步的方案：所述图像处理模块识别汉字字符的过程为：

13、根据文本方向由左至右横向检测文字区域，统计每个像素列的灰度数据，获取第一个包含灰度值为0的像素数量大于阈值t1的像素列，t1为预设阈值，则该像素列为单个字符区域的开始列，标记为array1，继续检测文字区域，当检测到存在像素列包含的灰度值为0的像素数量小于阈值t1，将该像素列标记为array2，若array1与array2之间的像素宽度大于t2，t2为预设阈值，则array2为单独字符区域的结束列，否则继续检测，直到识别到与array1相差像素宽度大于t2，且灰度值为0的像素的个数小于t1的像素列，则该像素列为汉字字符的结束列，依次对所有字符区域进行检测，获得所有的汉字字符区域。

14、作为本专利技术进一步的方案：所述图像处理模块确定标点区域的过程为：

15、步骤一：统计任意汉字字符与左右相邻汉字字符之间过渡区域的宽度，筛选出像素宽度大于t2的过渡区域；

16、步骤二：计算所有所述过渡区域的灰度均值，将灰度均值位于[g1,255]之间的过渡区域标记为检测区域，g1为预设灰度阈值；

17、步骤三：识别所述检测区域内灰度值为0的子区域，并将该子区域标记为特定标点区域；

18、步骤四：判断所述特定标点区域处于检测区域的位置，若所述特定标点区域位于检测区域的左下角，则无需对灰度图像进行二次矫正；若所述特定标点区域位于检测区域的右上角，则将所述灰度图像旋转180度。

19、作为本专利技术进一步的方案：将所述过渡区域的高度设定为汉字字符的高度，计算所述过渡区域的宽高比例，将大于预设值的宽高比例对应的过渡区域剔除。

20、作为本专利技术进一步的方案：所述文本识别模块自然语言处理的过程包括：

21、将文本内容分割成若干个单词，分析单词之间的语法关系，构建文本内容的语法结构，确定单词在上下文中的含义，并对文本内容进行实体识别，确定特定实体，并对文本进行情感分析。

22、本专利技术的有益效果：

23、本专利技术首先通过对灰度图像中的文本区域进行灰度扩散生成条形区域，根据条形区域直线方程斜率，对偏移的文本图像进行一次矫正，从而将汉字字符排列在横向方向上，由于此时文本内容可能处于倒置的情况，于是本专利技术通过识别单个汉字字符，确定特定的标点符号位于汉字字符过渡区域的位置，从而根据特定标点符号的位置对灰度图像进行二次矫正，从而实现了对偏移的文本图像的准确矫正，提高了后续文字识别的效率和准确性。

本文档来自技高网...

【技术保护点】

1.一种基于OCR的文本智能识别系统，其特征在于，包括：

2.根据权利要求1所述的一种基于OCR的文本智能识别系统，其特征在于，所述图像获取模块对文本图像进行预处理的过程为：

3.根据权利要求1所述的一种基于OCR的文本智能识别系统，其特征在于，所述图像处理模块对所述灰度图像进行灰度扩散并一次矫正的过程为：

4.根据权利要求1所述的一种基于OCR的文本智能识别系统，其特征在于，所述图像处理模块识别汉字字符的过程为：

5.根据权利要求1所述的一种基于OCR的文本智能识别系统，其特征在于，所述图像处理模块确定标点区域的过程为：

6.根据权利要求5所述的一种基于OCR的文本智能识别系统，其特征在于，将所述过渡区域的高度设定为汉字字符的高度，计算所述过渡区域的宽高比例，将大于预设值的宽高比例对应的过渡区域剔除。

7.根据权利要求1所述的一种基于OCR的文本智能识别系统，其特征在于，所述文本识别模块自然语言处理的过程包括：

【技术特征摘要】

1.一种基于ocr的文本智能识别系统，其特征在于，包括：

2.根据权利要求1所述的一种基于ocr的文本智能识别系统，其特征在于，所述图像获取模块对文本图像进行预处理的过程为：

3.根据权利要求1所述的一种基于ocr的文本智能识别系统，其特征在于，所述图像处理模块对所述灰度图像进行灰度扩散并一次矫正的过程为：

4.根据权利要求1所述的一种基于ocr的文本智能识别系统，其特征在于，所述图像处理模块识别汉字字符的过...

【专利技术属性】
技术研发人员：孙鹏，
申请(专利权)人：枣庄福缘网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人