一种文本识别系统及方法技术方案

技术编号：34730490 阅读：17 留言：0更新日期：2022-08-31 18:19

本发明专利技术公开了一种文本识别系统及方法。本发明专利技术中，图像预处理模块包括归一化模块、白化操作模块、图像二值化模块和几何变换模块，在对文本进行处理之前可以先对文本图像进行预处理，能够有效的降低图像的冗余性，使得分类器能够达到更好的识别效果，设计了一种既可以在一定程度上保留文字图像二维又利用了LSTM的序列学习的优势，通过在合成数据集和真实数据集上训练得到了相当优秀的结果，该模型通过Tensorflow

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别系统及方法

[0001]本专利技术属于种文本识别
，具体为一种文本识别系统及方法。

技术介绍

[0002]经过许多年的探索和发展，光学字符识别(OCR)技术不仅能将常用文档快速准确的识别出文档类型来，并且已实现将纸板印刷品，照片及手写文档在不改变原有内容和格式的情况下转化成相应的电子文档。
[0003]但是传统的光学识别字符技术系统的精准度不够高，使得人们在使用时较为不便。

技术实现思路

[0004]本专利技术的目的在于：为了解决上述提出的问题，提供一种文本识别系统及方法。
[0005]本专利技术采用的技术方案如下：一种文本识别系统及方法，包括启动模块、图片输入模块、图像预处理模块、无监督特征学习模块、字符识别模块、字符分割模块、文本识别模块、归一化模块、白化操作模块、图像二值化模块、几何变换模块，所述启动模块的输出端连接有所述图片输入模块的输入端，所述图片输入模块的输出端连接有所述图像预处理模块的输入端，所述图像预处理模块的输出端连接有所述无监督特征学习模块的输入端，所述无监督特征学习模块的输出端连接有所述字符识别模块的输入端，所述字符识别模块的输出端连接有所述字符分割模块的输入端，所述字符分割模块的输出端连接有所述文本识别模块的输入端。
[0006]在一优选的实施方式中，所述图像预处理模块的内部设置有归一化模块、白化操作模块、图像二值化模块和几何变换模块，所述归一化模块、白化操作模块、图像二值化模块和几何变换模块的输出端连接有所述图像预处理模块的输入端。<...

【技术保护点】

【技术特征摘要】
1.一种文本识别系统及方法，包括启动模块(1)、图片输入模块(2)、图像预处理模块(3)、无监督特征学习模块(4)、字符识别模块(5)、字符分割模块(6)、文本识别模块(7)、归一化模块(8)、白化操作模块(9)、图像二值化模块(10)、几何变换模块(11)，其特征在于：所述启动模块(1)的输出端连接有所述图片输入模块(2)的输入端，所述图片输入模块(2)的输出端连接有所述图像预处理模块(3)的输入端，所述图像预处理模块(3)的输出端连接有所述无监督特征学习模块(4)的输入端，所述无监督特征学习模块(4)的输出端连接有所述字符识别模块(5)的输入端，所述字符识别模块(5)的输出端连接有所述字符分割模块(6)的输入端，所述字符分割模块(6)的输出端连接有所述文本识别模块(7)的输入端。2.如权利要求1所述的一种文本识别系统及方法，其特征在于：所述图像预处理模块(3)的内部设置有归一化模块(8)、白化操作模块(9)、图像二值化模块(10)和几何变换模块(11)，所述归一化模块(8)、白化操作模块(9)、图像二值化模块(10)和几何变换模块(11)的输出端连接有所述图像预处理模块(3)的输入端。3.如权利要求1所述的一种文本识别系统及方法，其特征在于：所述归一化模块(8)首先减去每个样本灰度的均值，然后除以标准差；并对这个标准差增加一个小常数，用来避免分母为0和压制噪声；对于[0,255]范围的灰度图，给方差加10是有效的；所述归一化模块(8)中逐样本的均值相减主要应用在那些具有稳定性的数据集中，也就是那些数据的每个维度间的统计性质是一样的。4.如权利要求1所述的一种文本识别系统及方法，其特征在于：所述白化操作模块(9)将数据x利用PCA白化进行降维，得出了每一维都是独立的，这样白化的第一个条件就满足了；这时再以标准差去除z中的每一维，就得到了每一维的方差相等，为1。5.如权利要求1所述的一种文本...

【专利技术属性】
技术研发人员：王乾坤，谭鸿，
申请(专利权)人：重庆法链科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人