一种基于深度学习的文本识别方法和装置制造方法及图纸

技术编号：40315765 阅读：7 留言：0更新日期：2024-02-07 20:58

本发明专利技术公开了文本识别技术领域的一种基于深度学习的文本识别方法和装置，获取文本图像，并且获取的文本图像带有文字，对特征进行提取；根据文本图像输入预设分类模型，构建文本检测网络模型和损失函数，对文本数据进行BOW编码，获取词向量数据；对文本区域表格进行文本检测和识别得到表格内的各个方块文字内容和表格的坐标信息；提取的图片中的文本区域进行矫正，得到矫正后的文本区域；再利用CRNN文本识别算法对预处理后的图片中的文本区域提取得到文字信，该基于深度学习的文本识别方法和装置，结构设计合理，能够在使用OCR文字识别时降低识别的时长，提高识别效率，也提高了文本的检测效率，能够满足现今社会的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本识别，具体为一种基于深度学习的文本识别方法和装置。

技术介绍

1、文字识别是指电子设备检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程，即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程，随着全球经济的迅速发展，工业界对多场景、多语种、高精度的文字检测与识别的关注越来越高，如场景理解，产品识别，自动驾驶、目标地理定位、文档电子化等方面的需要也是越来越迫切。

2、现有传统的图像光学识别(ocr)技术主要面向高清扫描的图像，该方法要求识别的图像拥有干净的背景、使用规范的印刷体并具有较高的分辨率，由于传统ocr文字识别方法主要基于数字图像处理和传统机器学习等方法实现，在某些情况下文字识别的效果与实际需求有一定的差距，而基于深度学习的ocr文字识别方法利用卷积神经网络自动提取图像特征且提取的特征鲁棒性更强、识别效果更好，在ocr文字识别时的用时较长，导致文本的检测效率降低，无法满足现今社会的需求，为此我们提出了一种基于深度学习的文本识别方法和装置。

技术实现思路

1、本专利技术的目的在于提供一种基于深度学习的文本识别方法和装置，以解决上述
技术介绍
中提出了而基于深度学习的ocr文字识别方法利用卷积神经网络自动提取图像特征且提取的特征鲁棒性更强、识别效果更好，在ocr文字识别时的用时较长，导致文本的检测效率降低，无法满足现今社会的需求的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种基于深度学习的

3、获取文本图像，并且获取的文本图像带有文字，对特征进行提取；

4、根据文本图像输入预设分类模型，构建文本检测网络模型和损失函数，对文本数据进行bow编码，获取词向量数据；

5、对文本区域表格进行文本检测和识别得到表格内的各个方块文字内容和表格的坐标信息；

6、提取的图片中的文本区域进行矫正，得到矫正后的文本区域；

7、再利用crnn文本识别算法对预处理后的图片中的文本区域提取得到文字信。

8、优选的，所述的特征进行提取，将输入图像映射到一个表示，重点关注与字符识别相关的属性，同时抑制字体、颜色、大小和背景等不相关的特，使用vgg、resnet等网络，其实就是将输入图像通过cnn网络提取为抽象的特征信息。

9、优选的，对收集到的图片数据进行数据标注，分别标注出图片中每个文本框的四个顶点，且四个顶点以顺时针为顺序，每个图片得到一个或者多个标注的文本框，根据得到的图片的文本框，按照pascalvoc的数据格式制作数据集。

10、优选的，在将文本图像和图像类别输入至预设特征尺寸选择器中，得到文本图像对应的特征图像之前，构建预设特征尺寸选择器，预设特征尺寸选择器包括文本图像与所述特征图像的映射关系，构建所述预设特征尺寸选择器。

11、优选的，利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练，得到训练后的文本检测网络模型，获取某一场景的图片，图像操作库对获取的图片进行固定尺寸缩放、归一化处。

12、优选的，所述的文本区域进行矫正，使用空间转换器网络(stn网络)对输入文本图像进行归一化，将曲线、倾斜的文本矫正为水平的矩形文本，简化识别流程。

13、优选的，对分词后的文本数据进行bow编码，获取词向量数据，词向量数据至少包括意图识别输入数据，根据预设bow词袋模型，对文本数据的文本词进行index操作，将词映射成数字，并对每一句话进行长度补齐或截断固定长度，对所有的语料文本进行数字转换输出。

14、包括：

15、获取单元：用于获取文本图像或文本图像带有文字；

16、构件单元：用于构建文本检测网络模型和损失函数，对文本数据进行bow编码；

17、检测单元：用于对文本区域表格进行文本检测和识别得到表格；

18、提取单元：用于提取的图片中的文本区域进行矫正。

19、与现有技术相比，本专利技术的有益效果是：该基于深度学习的文本识别方法和装置，通过对文本图像特征进行提取，将输入图像映射到一个表示，重点关注与字符识别相关的属性，同时抑制字体、颜色、大小和背景等不相关的特，对收集到的图片数据进行数据标注，分别标注出图片中每个文本框的四个顶点，利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练，得到训练后的文本检测网络模型，对分词后的文本数据进行bow编码，获取词向量数据，词向量数据至少包括意图识别输入数据，根据预设bow词袋模型，对文本数据的文本词进行index操作，将词映射成数字，并对每一句话进行长度补齐或截断固定长度，对所有的语料文本进行数字转换输出，从而能够在使用ocr文字识别时降低识别的时长，提高识别效率，也提高了文本的检测效率，能够满足现今社会的需求。

本文档来自技高网...

【技术保护点】

1.一种基于深度学习的文本识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的文本识别方法，其特征在于：所述的特征进行提取，将输入图像映射到一个表示，重点关注与字符识别相关的属性，同时抑制字体、颜色、大小和背景等不相关的特，使用VGG、ResNet等网络，其实就是将输入图像通过CNN网络提取为抽象的特征信息。

3.根据权利要求1所述的一种基于深度学习的文本识别方法，其特征在于：对收集到的图片数据进行数据标注，分别标注出图片中每个文本框的四个顶点，且四个顶点以顺时针为顺序，每个图片得到一个或者多个标注的文本框，根据得到的图片的文本框，按照PASCALVOC的数据格式制作数据集。

4.根据权利要求1所述的一种基于深度学习的文本识别方法，其特征在于：在将文本图像和图像类别输入至预设特征尺寸选择器中，得到文本图像对应的特征图像之前，构建预设特征尺寸选择器，预设特征尺寸选择器包括文本图像与所述特征图像的映射关系，构建所述预设特征尺寸选择器。

5.根据权利要求1所述的一种基于深度学习的文本识别方法和装置，其特征在于：

6.根据权利要求1所述的一种基于深度学习的文本识别方法，其特征在于：所述的文本区域进行矫正，使用空间转换器网络(STN网络)对输入文本图像进行归一化，将曲线、倾斜的文本矫正为水平的矩形文本，简化识别流程。

7.根据权利要求1所述的一种基于深度学习的文本识别方法，其特征在于：对分词后的文本数据进行BOW编码，获取词向量数据，词向量数据至少包括意图识别输入数据，根据预设BOW词袋模型，对文本数据的文本词进行index操作，将词映射成数字，并对每一句话进行长度补齐或截断固定长度，对所有的语料文本进行数字转换输出。

8.一种基于深度学习的文本识别装置，其特征在于：包括：

...

【技术特征摘要】

1.一种基于深度学习的文本识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的文本识别方法，其特征在于：所述的特征进行提取，将输入图像映射到一个表示，重点关注与字符识别相关的属性，同时抑制字体、颜色、大小和背景等不相关的特，使用vgg、resnet等网络，其实就是将输入图像通过cnn网络提取为抽象的特征信息。

3.根据权利要求1所述的一种基于深度学习的文本识别方法，其特征在于：对收集到的图片数据进行数据标注，分别标注出图片中每个文本框的四个顶点，且四个顶点以顺时针为顺序，每个图片得到一个或者多个标注的文本框，根据得到的图片的文本框，按照pascalvoc的数据格式制作数据集。

4.根据权利要求1所述的一种基于深度学习的文本识别方法，其特征在于：在将文本图像和图像类别输入至预设特征尺寸选择器中，得到文本图像对应的特征图像之前，构建预设特征尺寸选择器，预设特征尺寸选择器包括文本图像与所述特征图像的映射关系，构建...

【专利技术属性】
技术研发人员：杨张震，谭旭星，张洪岭，曹佳磊，
申请(专利权)人：深圳市中科中天科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人