一种基于深度学习的机车工单信息智能识别方法及系统技术方案

技术编号：40468088 阅读：14 留言：0更新日期：2024-02-22 23:22

本发明专利技术公开了一种基于深度学习的机车工单信息智能识别方法及系统，包括以下步骤：步骤1，获得机车工单图像数据；步骤2，对机车工单图像数据进行图像预处理得到预处理后的图像数据；步骤3，利用预处理后的图像数据进行文本检测和文本识别；步骤4，利用机车工单图像数据以及文本检测和文本识别的结果进行表格无模板重建，获得机车工单图像的文本信息及文本之间的联系；提升了对机车工单信息智能识别的识别精度，实现了机车工单复杂表格的无模板重建；特别在机车工单多类别的识别场景，都能满足机车维修等后勤工作对机车工单识别的高精度性能需求，能够高效识别出各种机车工单的文本信息和通过表格构建的文本之间的联系。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理与人工智能，特别是涉及一种基于深度学习的机车工单信息智能识别方法及系统。

技术介绍

1、近年来我国政府高度重视人工智能产业发展战略，持续从各方面支持与促进人工智能发展。其中机车工单作为机车检修、运行的重要安全保证，人们往往需要耗费大量的人力物力整理、阅读、以及信息录入。因此为了减少在工单上的耗费的资源成本，高精度地提取到机车工单的具体信息，辅助机车检修等后勤的高效运作，数字化机车工单和相关纸质记录是机车行业走向现代化和智能化的重要步骤，研究出一种可以实际应用的机车工单高精度提取算法具有重大意义。

2、机车工单信息智能识别存在其特定的技术难点，需要进行无模板工单表格重建、工单内容存在手写文字潦草、模糊、重叠、密集、细小文本等情况，机车工单图像数据采集场景复杂多样，颜色分布极度不均、部分存在严重扭曲。

3、现有的表格重建技术大多有表格的模板信息，此类技术为有模板重建表格技术。无模板重建表格技术在现有的方法中难以准确地捕捉表格单元格之间的关系，因此准确率低，重建失败率高，尽管现有的光学文字检测识别技术已经在文档的数字化领域取得了不小的成就，但在处理机车工单图像数据中的潦草、模糊、重叠、密集、细小中文手写文本时存在一定的挑战，存在识别不准确，文本检测偏移断框等等情况。相比通用的文字检测识别，机车工单图像数据采集场景复杂多样，需要特定的图像预处理方式和数据增强方式以提高工单数字化的准确性和模型的鲁棒性。

技术实现思路

1、（1）要解决的技术问题</p>

2、本专利技术公开了一种基于深度学习的机车工单信息智能识别方法及系统，旨在解决难以准确地捕捉表格单元格之间的关系、捕捉准确率低、重建失败率高的问题，对机车工单图像数据中难识别的文本和文本检测偏移断框的问题得到进一步优化，同时，本专利技术具有特定的图像预处理方式和数据增强方式以提高工单数字化的准确性和模型的鲁棒性。

3、（2）技术方案

4、本专利技术公开了一种基于深度学习的机车工单信息智能识别方法包括以下步骤：

5、步骤1，获得机车工单图像数据；

6、步骤2，对机车工单图像数据进行图像预处理得到预处理后的图像数据；

7、步骤3，利用预处理后的图像数据进行文本检测和文本识别；

8、步骤4，利用机车工单图像数据以及文本检测和文本识别的结果进行表格无模板重建，获得机车工单图像的文本信息及文本之间的联系。

9、进一步地，步骤2中，对机车工单图像数据进行图像预处理得到预处理后的图像数据，对应方法包括以下步骤：

10、步骤211，利用二值化处理方法，对机车工单图像数据转灰度图以后作自适应二值化处理得到二值化图像；

11、步骤212，通过在二值化图像上寻找最大面积的轮廓的方法，作为工单轮廓；

12、步骤213，通过对工单轮廓的分析，将该轮廓的横坐标加纵坐标的最小值和最大值分别作为最小坐标即矩形的左上角点以及最大坐标即矩形的右下角点，以两个点为对角线构造一个新矩形；

13、步骤213，通过对新矩形的部分区域进行图像内容截取，完成机车工单的背景图像预消除；

14、步骤214，通过对上述轮廓进行四边形拟合，可以得到4个边角点，通过仿射变换把4个边角点映射到新矩形上即可完成机车工单图像数据的矫正和图像背景消除；

15、步骤215，利用文本方向分类器，对机车工单图像数据的文本方向进行预分类，若文本方向为纵向文本，则将文本区域逆时针旋转90°，若文本方向为横向文本，则保持文本区域不变；

16、步骤216，通过文本识别的置信度，判断机车工单图像数据方向是否正确，对机车工单图像数据进行方向再矫正。

17、进一步地，步骤3中，利用预处理后的图像数据进行文本检测和文本识别，对应方法包括以下步骤：

18、步骤311，利用文本检测网络提取标志牌图像中的文本区域；

19、步骤312，通过文本识别网络对每个文本区域进行ocr，将图片文本转为可编辑文本。

20、进一步地，步骤4中，利用机车工单图像数据以及文本检测和文本识别的结果进行表格无模板重建中的无模板表格重建采用hrnet网络框架进行关键点检测，利用扫描线法和连通域法进行表格重建；方法分为单通道方法和四通道方法重建表格，首先会进行四通道方法重建表格，当四通道方法重建失败时，将采用单通道方法重建表格。

21、进一步地，步骤215中的利用文本方向分类器，对机车工单图像数据的文本方向进行预分类，包括以下步骤：

22、首先，对机车工单图像数据进行初步的方向矫正，机车工单图像数据未处理前会有随机的四个方向，分别是旋转0°、90°、180°和270°。先将截取的图像送入文本检测网络，得到相应的文本检测结果，若文本方向为纵向文本，则将文本区域逆时针旋转90°，若文本方向为横向文本，则保持文本区域不变；通过设定短文本框数量的阈值，若较短文本框数量高于设定阈值，则将图像顺时针旋转90°；

23、其次，对机车工单图像数据进行图像方向的再矫正，具体方法为，按照文本检测的结果，选取其中一些长宽比较小的文本框，即文本行较长的文本图像，通过截取文本框中的图像送入文本识别模型，根据设定的置信度阈值，对图像进行旋转。具体地，若文本行置信度低于设定的阈值，则将图像顺时针旋转180°，若文本行置信度大于等于阈值，则保持原图像方向不变。

24、进一步地，步骤311中的文本检测网络采用改进的增强细小文本区域响应的dbnet框架，其模型设计了针对细小文本区域特征提取模块，并通过后处理的过滤算法和增强算法适应工单文本检测，文本检测网络算法流程包括以下步骤：

25、步骤31101，输入预处理后的图像数据经过金字塔结构的带形变卷积dcn的resnet50骨干网络即dcnresnet50骨干网络，增强对细小文本区域特征的响应，根据采样次数输出相应次数的特征，如采样4次即输出4种不同尺度的特征图和，相应的下标代表相比输入图像的下采样次数；

26、

27、其中，表示输入的图像；

28、步骤31102，将4种不同尺度的特征图上采样至同一尺寸后进行拼接，得到融合特征；

29、

30、其中，表示上采样操作，为上采样次数，，表示拼接操作；

31、步骤31103，通过对融合特征进行卷积、通道压缩、激活函数后得到处理后的融合特征，再进行两个独立的反卷积操作，得到与输入图像尺寸相同的概率图与阈值图；

32、

33、其中，为反卷积操作；

34、步骤31104，对概率图与阈值图进行可微二值化操作，得到文本区域的二值图；

35、

36、其中，k1表示预设的比例因子；

37、步骤31105，通过改进后的后处理算法，过滤无效的文本区域、增强对细小文本的检测响应。

38、进一步地，本文档来自技高网...

【技术保护点】

1.一种基于深度学习的机车工单信息智能识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤2中，对所述机车工单图像数据进行图像预处理得到预处理后的图像数据，对应方法包括以下步骤：

3.根据权利要求1所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤3中，所述利用预处理后的图像数据进行文本检测和文本识别，对应方法包括以下步骤：

4.根据权利要求1所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤4中，利用机车工单图像数据以及文本检测和文本识别的结果进行表格无模板重建中的无模板表格重建采用HRNet网络框架进行关键点检测，利用扫描线法和连通域法进行表格重建；方法分为单通道方法和四通道方法重建表格，首先会进行四通道方法重建表格，当四通道方法重建失败时，将采用单通道方法重建表格。

5.根据权利要求2所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤215中的利用文本方向分类器，对机车工单图像数据的文本方向进行预分类，包括以下步骤：

6.根据权利要求3所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤311中的文本检测网络采用改进的增强细小文本区域响应的DBNet框架，其模型设计了针对细小文本区域特征提取模块，并通过后处理的过滤算法和增强算法适应工单文本检测，所述文本检测网络算法流程包括以下步骤：

7.根据权利要求3所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤312中的文本识别网络采用DCNResNet50骨干网络，并在所述文本识别网络的训练过程中引入正则项，防止网络过置信；所述DCNResNet50骨干网络算法包括以下步骤：

8.根据权利要求6所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤31101中的DCN包括以下步骤：

9.根据权利要求6所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤31105中的改进后的后处理算法包括以下步骤：

10.根据权利要求7所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤31203中的Attention解码包括以下步骤：

11.根据权利要求7所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤31204中的改进序列置信度计算，方法如下：

12.根据权利要求7所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤312中的引入正则项方法如下：

13.根据权利要求4所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤4中的四通道方法重建表格，包括以下步骤：

14.根据权利要求4所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤4中的单通道方法重建表格，包括以下步骤：

15.根据权利要求13或14所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述轮廓中心距算法，包括以下步骤：

16.根据权利要求14所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤425中的连通域法包括以下步骤：

17.根据权利要求13或14所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述扫描线法包括以下步骤：

18.根据权利要求1所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：在所述步骤3的文本识别中，使用基于困难样本挖掘的半自动数据标注流程，在进一步提升文本识别模型性能上，极大减少了标注成本；

19.根据权利要求1所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：在所述步骤3的文本识别中，采用基于标注的数据和困难样本挖掘的合成方式，通过将真实机车工单图像数据背景、字频出现较低的字符和多种手写字体项结合，能获得贴近真实场景的广阔的工单文本行数据；

20.一种基于深度学习的机车工单信息识别系统，其特征在于：包括：机车工单图像数据获取模块、图像预处理模块、图像数据文本检测和文本识别模块、无模板表格重建和文本信息输出模块；所述机车工单图像数据获取模块，用于获得所述机车工单图像数据，所述图像预处理模块，用于对所述机车工单图像数据进行图像背景消除、图像方向矫正、文本方向进行预分类；所述图像文本检测和所述文本识别模块，用于获取文本区域和文本信息；所述无模板表格重建和文本信息输出模块，用于获得所述机车工单图像的文本信息及文本之间的联...

【技术特征摘要】

1.一种基于深度学习的机车工单信息智能识别方法，其特征在于：包括以下步骤：

4.根据权利要求1所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤4中，利用机车工单图像数据以及文本检测和文本识别的结果进行表格无模板重建中的无模板表格重建采用hrnet网络框架进行关键点检测，利用扫描线法和连通域法进行表格重建；方法分为单通道方法和四通道方法重建表格，首先会进行四通道方法重建表格，当四通道方法重建失败时，将采用单通道方法重建表格。

6.根据权利要求3所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤311中的文本检测网络采用改进的增强细小文本区域响应的dbnet框架，其模型设计了针对细小文本区域特征提取模块，并通过后处理的过滤算法和增强算法适应工单文本检测，所述文本检测网络算法流程包括以下步骤：

7.根据权利要求3所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤312中的文本识别网络采用dcnresnet50骨干网络，并在所述文本识别网络的训练过程中引入正则项，防止网络过置信；所述dcnresnet50骨干网络算法包括以下步骤：

8.根据权利要求6所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤31101中的dcn包括以下步骤：

9.根据权利要求6所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤31105中的改进后的后处理算法包括以下步骤：

10.根据权利要求7所述的一种基于深度学习的机车工单信息智能识别方法，其特征在于：所述步骤31203中的atte...

【专利技术属性】
技术研发人员：黄双萍，黄森，张慧源，李晨，徐之昊，彭文杰，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人