一种基于管道链图模式的道路运输证图像识别方法技术

技术编号：40347477 阅读：6 留言：0更新日期：2024-02-09 14:32

本发明专利技术公开了一种基于管道链图模式的道路运输证图像识别方法，涉及人工智能技术领域。本发明专利技术包括道路运输证识别区域切割、道路运输证目标字段检测、任意方向文本定位、文本方向分类和文字识别的五个子模块组成。本发明专利技术通过将识别区域切割，目标字段检测，任意方向文本定位，文本行方向分类，文字识别等功能模块按逻辑流程进行串联，其中，各模块独立承担所分配的指定任务，按照我们设计的管道链图模式，可以快速检测并识别道路运输证目标字段文本内容，在方案中，我们提出了将识别区域切割和目标字段检测两个任务设计为通过一个目标检测模型实现，在保证模型准确率条件下，可加速模型开发速度和降低模型占用算力资源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，特别是涉及一种基于管道链图模式的道路运输证图像识别方法。

技术介绍

1、人工智能技术的发展促进了各行各业智能化转型升级。随着深度学习算法在图像识别领域的广泛应用，传统的文本影像信息由人工录入逐步向机器智能化录入方式转变。以交通执法场景为例，针对运营车辆合法性运营，一般执法人员或相关部门会要求运营车辆驾驶人员提供道路运输证原件进行现场核实并拍照，并借助后端ai技术对道路运输证进行智能识别并提取编号、业户名称、地址、车辆号牌、经营许可证、经济类型、车辆类型、吨(座)位、车辆尺寸等结构化信息进行保存或数据库存储。因此，智能识别技术的诞生可一定程度替代人力完成文本图像信息的提取和入库，助力前端执法人员或后端业务人员减负赋能。

2、由于道路运输证图像存在版式复杂、结构化字段多、文本套打位置随机、字迹模糊、噪声干扰明显、拍摄随机等现实问题，这对ai智能识别技术提出了较大挑战。传统的以图像处理或模式识别等技术很难解决该场景下的结构化文本图像识别，虽然深度学习算法的快速更迭促进了ocr识别技术能力的提升，但针对执法端场景下的道路运输证件识别仍然存在诸多挑战，现有的单点技术方案很难在该证件上有良好的识别表现，机拍场景下的道路运输证图像版式复杂、结构化字段多、文本套打位置随机、字迹模糊、噪声干扰明显、拍摄随机等现实问题；针对执法端道路运输证图像识别面临的诸多现实问题，我们提出了一种基于管道链图模式的道路运输证图像识别方法。

技术实现思路

1、本专利技术的目的在于提供

2、为解决上述技术问题，本专利技术是通过以下技术方案实现的：

3、本专利技术为一种基于管道链图模式的道路运输证图像识别方法，包括道路运输证识别区域切割、道路运输证目标字段检测、任意方向文本定位、文本方向分类和文字识别的五个子模块组成，共包含目标检测模型、文本定位模型、文本方向分类模型和文字识别模型，4个模型，所述道路运输证识别区域切割模块，该模块由道路运输证图像分析、识别区域切割两个功能子模块组成，道路运输证识别区域切割模块负责对执法端机拍道路运输证图像进行分析，分析信息包括证件版式和图像倾斜情况，接着，对符合质量要求的道路运输证进行识别区域切割，具体流程为：

4、(1)道路运输证图像分析：执法端机拍场景下道路运输证图像质量受光照、拍摄角度、拍摄距离等不可控因素影响，道路运输证图像识别方法可以支持(-20～20)倾斜角度，拍摄距离小于1.5米情况下的道路运输证识别；

5、(2)识别区域切割：由于受执法工作人员、拍摄环境、拍摄习惯和道路运输证图像固有属性的影响，在送入目标检测模型前须对待识别区域进行切割，将待识别区域作为一个目标检测类，同目标字段检测类共同构建一个目标检测模型，首先将拍摄原始原图送入道路运输证目标检测模型得到待识别区域坐标，然后对区域进行切割，得到识别区域切割图。

6、进一步地，所述道路运输证目标字段检测模块，该模块由目标字段检测和目标字段切割两个功能子模块组成，在方案中将识别区域切割和目标字段检测两个任务设计为通过一个目标检测模型实现，将管道链图中上级模块道路运输证识别区域切割得到的识别区域图作为本模块的输入，对符合目标字段检测要求的图像构建目标字段检测模型以完成编号、业户名称、地址、车辆号牌、经营许可证、经济类型、车辆类型、吨(座)位、车辆尺寸，目标字段的智能检测，最后根据目标字段检测结果进行目标区域质量分析及完成目标字段的矩形切割，具体流程为：

7、(1)目标字段检测：在保证机拍得到的道路运输证满足上述图像要求后，对图像进行版式分析和目标字段检测模型的构建，首先，采集并筛选约1000张真实场景下的道路运输证图像开展识别区域目标标注，然后对标注区域进行切割得到目标字段识别区域，接着开展目标检测数据标注，标注类别包括：编号、业户名称、地址、车辆号牌、经营许可证、经济类型、车辆类型、吨(座)位、车辆尺寸，共9个目标类别，然后选择目标检测算法yolov5进行目标字段检测模型训练，最后对训练的目标字段检测模型进行测试及代码逻辑微调，根据整个流程可实现道路运输证目标字段的检测；

8、(2)目标字段切割：道路运输证目标字段检测模块作为提出的管道链图模式的第一个逻辑流程处理模块，该模块对道路运输证目标字段的检测效果直接影响下游文字识别的能力，通过对目标字段检测模型的测试评估，对模型检测位置宽度左进行3个像素扩充，宽度右进行5个像素扩充，高度上进行5个像素扩充，高度下进行8个像素扩充，最后对扩充后的目标区域进行切割，得到目标字段影像碎片。

9、进一步地，任意方向文本定位模块，该模块用于接收管道链图模式中道路运输证目标字段检测模块的输出，实现目标字段图像碎片中的文本字符串的位置定位，本方法采用支持任意四边形文本定位的深度学习算法db(differentiable binarization)实现道路运输证目标字段碎片的任意方向文本定位，本方法设计的任意方向文字定位模块包含任意方向文本定位、文本纠偏和文本尺寸正则化三个处理子任务，具体流程为：

10、(1)文本定位，道路运输证目标字段检测模块输出的目标矩形位置，经过适当扩充后得到的目标字段碎片图，由于机拍及图像摆放的自由性导致文本行存在倾斜的情况，因此需要对文本行进行纠正后才能送入文字识别模型，以提高识别能力，因此文本定位的作用在于检测出矩形框中文本行左上、右上、右下、左下四个点的位置，并用于下一步文本纠偏准备，本方法采用的文本定位的算法为db；

11、(2)文本纠偏，道路运输证目标碎片送入文本定位子模块后，经过db算法模型得到文本行四个顶点坐标位置，然后采用透视变换算法将倾斜文本转换为水平位置文本，从而实现文本行的纠偏以提升文字识别能力；

12、(3)文本尺寸正则化，由于拍摄距离和道路运输证各目标字段的文本行长度的差异，使得经文本定位得到的文本坐标并经过透视变换时得到的水平文本长度不一致，为保证管道链图中下游文字识别模块中识别模型的输入正确，需要对文本尺寸进行正则化，本方法提出了一种基于知识统计驱动的文本尺寸正则化的数学模型，经数学模型得到的文本长度和文本宽度在保障计算资源和时间平衡条件下，得到的文本行可帮助下游文字识别模块大幅提升文字识别准确率和降低识别时间，本方法提出的文本尺寸正则化数学模型公式，该公式考虑了三个影响因素，包括拍摄距离、图像拍摄角度和各目标识别字段尺寸，我们称之为知识，该三个影响因素间接反应了文本定位得到的四边形尺寸的差异，本方法的目的则是通过设计的数学模型将纠偏后的文本尺寸进行统一，我们在真实场景下采集了一批约300张道路运输证原图且均覆盖了我们提到的三个影响因素，接着我们按照本数学模型进行数值计算并得到文本尺寸正则化的文本长度和宽度尺寸，本方法提到的数值计算是指针对采集的本文档来自技高网...

【技术保护点】

1.一种基于管道链图模式的道路运输证图像识别方法，包括道路运输证识别区域切割、道路运输证目标字段检测、任意方向文本定位、文本方向分类和文字识别的五个子模块组成，共包含目标检测模型、文本定位模型、文本方向分类模型和文字识别模型，4个模型，其特征在于：所述道路运输证识别区域切割模块，该模块由道路运输证图像分析、识别区域切割两个功能子模块组成，道路运输证识别区域切割模块负责对执法端机拍道路运输证图像进行分析，分析信息包括证件版式和图像倾斜情况，接着，对符合质量要求的道路运输证进行识别区域切割，具体流程为：

2.根据权利要求1所述的一种基于管道链图模式的道路运输证图像识别方法，其特征在于：所述道路运输证目标字段检测模块，该模块由目标字段检测和目标字段切割两个功能子模块组成，在方案中将识别区域切割和目标字段检测两个任务设计为通过一个目标检测模型实现，将管道链图中上级模块道路运输证识别区域切割得到的识别区域图作为本模块的输入，对符合目标字段检测要求的图像构建目标字段检测模型以完成编号、业户名称、地址、车辆号牌、经营许可证、经济类型、车辆类型、吨(座)位、车辆尺寸，目标字段的智能检

3.根据权利要求1所述的一种基于管道链图模式的道路运输证图像识别方法，其特征在于：所述任意方向文本定位模块，该模块用于接收管道链图模式中道路运输证目标字段检测模块的输出，实现目标字段图像碎片中的文本字符串的位置定位，本方法采用支持任意四边形文本定位的深度学习算法DB(Differentiable Binarization)实现道路运输证目标字段碎片的任意方向文本定位，本方法设计的任意方向文字定位模块包含任意方向文本定位、文本纠偏和文本尺寸正则化三个处理子任务，具体流程为：

4.根据权利要求1所述的一种基于管道链图模式的道路运输证图像识别方法，其特征在于：所述文本方向分类模块，在管道链图中的任意方向文本定位模块输出的水平文本行可能是翻转的，因此需要一个简单的二元分类器用来确定文本的方向，二分类包括正常和翻转两类，本方法设计的二分类框架是一个浅层CNN网络，首先文本框被缩放为128×72的固定大小，然后执行一系列CNN卷积操作，倒数第三层被展开为具有4096个神经元的全连接层，它的下一层具有16个神经元，我们统计到道路运输证目标字段最长字符在16个范围内，因此倒数第二层设计为16个神经元目的是通过模型学习实现神经元特征与字符特征对齐，最有一层有2个神经元并由softmax层转换得到分类结果，本方法提出的文本方向分类模块对应的二分类器的损失参数采用FocalLoss。

5.根据权利要求1所述的一种基于管道链图模式的道路运输证图像识别方法，其特征在于：所述文字识别模块，在管道链图中任意方向文本定位模块输出的文本经过透视变换后得到的水平文本行尺寸已经过正则化处理，再送入文本方向分类器进行文本方向判断，确保送入文字识别模块的水平文本行是没有翻转的，本方法采用文本识别算法CRNN实现道路运输证文字识别模型的构建，并选择paddlepaddle作为编程框架，核心参数设置包括待识别文本长度被缩放为144×48像素，文字字符库包括数字、英文大小写和汉字，最长字符识别长度为26。

...

【技术特征摘要】

3.根据权利要求1所述的一种基于管道链图模式的道路运输证图像识别方法，其特征在于：所述任意方向文本定位模块，该模块用于接收管道链图模式中道路运输证目标字段检测模块的输出，实现目标字段图像碎片中的文本字符串的位置定位，本方法采用支持任意四边形文本定位的深度学习算法db(differentiable binar...

【专利技术属性】
技术研发人员：邓小远，沈雪雯，胡龙湘韵，邓召仕，邓又铭，任坤，
申请(专利权)人：多彩贵州数字科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人