【技术实现步骤摘要】
基于深度学习的机车标志牌信息智能识别方法及系统
[0001]本专利技术属于图像处理与人工智能
,特别是涉及一种基于深度学习的机车标志牌信息智能识别方法及系统。
技术介绍
[0002]近年来我国政府高度重视人工智能产业发展战略,持续从各方面支持与促进人工智能发展。其中,人工智能在自动驾驶领域具有庞大的市场需求及应用前景,而机车自动驾驶作为自动驾驶领域中的重要部分,受到了广泛的关注。机车智能驾驶要求自动驾驶系统具备识别机车线路标志牌,并根据标志牌信息进行快速响应的能力。同时,机车线路标志牌信息的高精度识别作为机车自动驾驶的一个关键任务,是自动驾驶系统安全性与可靠性的保障。因此,为了能高精度地提取机车线路标志牌信息,辅助自动驾驶系统稳定可靠运行,研究出一种能够实际应用的标志牌信息高精度提取算法,具有重大意义。
[0003]机车标志牌,是指在机车运行过程中存在铁路线路上的,具有信息指示性作用的标志,也是表示铁路线路建筑物及设备的状态或位置,铁路各级管理机构管界范围的标志。与传统汽车行驶所见的道路交通标志牌相比,机车标志 ...
【技术保护点】
【技术特征摘要】
1.基于深度学习的机车标志牌信息智能识别方法,其特征在于,包括以下步骤:步骤1,获得机车标志牌图像数据;步骤2,对所述的机车标志牌图像进行预分类;步骤3,根据预分类结果,采用对应的方法进行图像文本识别及分类;步骤4,获得所述的机车标志牌图像的具体类别及文本信息;所述的预分类结果包括单一文本标志牌、单行文本标志牌、单列文本标志牌和多文本标志牌。2.根据权利要求1所述的基于深度学习的机车标志牌信息智能识别方法,其特征在于,在步骤3中,所述的预分类结果为多文本标志牌时,所述的对应的方法包括以下步骤:步骤311,利用文本检测网络提取标志牌图像中的文本区域;步骤312,利用方向分类器判断所述的文本区域中的文本方向,若文本方向为纵向文本,则将所述的文本区域逆时针旋转90
°
,若文本方向为横向文本,则保持所述的文本区域不变;步骤313,通过文本识别网络对每个文本区域进行OCR,将图片文本转为可编辑文本;步骤314,将所述的可编辑文本首尾拼接为一段文本,转为向量形式并进行集合位置编码,得到编码文本特征;步骤315,通过视觉特征网络提取标识牌图像的视觉特征;步骤316,创建一个与视觉特征尺寸相同,数值全为0的CLS特征;步骤317,将所述的视觉特征、CLS特征和编码文本特征拼接后送入特征融合网络中,得到视觉语义融合信息的融合特征和仅包含文本语义信息的单一特征;步骤318,所述的融合特征经过激活、全连接、softmax操作后得到标志牌图像的类别概率向量,取概率最大值对应的类别为标志牌图像的具体类别。3.根据权利要求2所述的基于深度学习的机车标志牌信息智能识别方法,其特征在于,步骤311中的文本检测网络采用改进的类别信息监督的DBNet框架,在训练过程中设计了类别信息监督流程,所述的类别信息监督流程包括以下步骤:步骤31101,输入图像经过金字塔结构的ResNet50骨干网络,输出4种不同尺度的特征和,相应的下标代表相比输入图像的下采样次数;其中,表示输入的图像;步骤31102,将所述的4种不同尺度的特征上采样至同一尺寸后进行拼接,得到融合特征;其中,表示上采样操作,为上采样次数,表示拼接操作;步骤31103,将尺度最小的特征通过全连接层提取标志牌类别特征,再通过一次全连接层获得标志牌的类别概率向量;;为全连接层,通道数与通道数相等,通道数与标志牌类别数相同;
步骤31104,将融合特征与类别特征相加得到新特征,对进行两个独立的反卷积操作,得到与输入图像尺寸相同的概率图与阈值图;其中,为反卷积操作;步骤31105,对概率图与阈值图进行可微二值化操作,得到文本区域的二值图,对二值图进行轮廓查找得到文本检测框;;其中,表示轮廓查找操作,k1表示预设的比例因子。4.根据权利要求3所述的基于深度学习的机车标志牌信息智能识别方法,其特征在于,在所述的类别信息监督流程中,训练时对类别概率向量进行监督,在梯度反向传播时能优化骨干网络参数,提高骨干网络的特征提取性能。5.根据权利要求3所述的基于深度学习的机车标志牌信息智能识别方法,其特征在于,所述的文本识别网络采用ResNet50骨干网络,步骤如下:步骤31301,通过ResNet50骨干网络提取图像特征;其中,为提取到的图像特征,为按比例缩放至预设尺寸的图像;步骤31302,通过三层残差连接的LSTM进行编码,得到编码特征;每层残差连接的LSTM输入输出关系为,其中表示输入,表示输出;步骤31303,通过Attention解码出预测字符的概率向量,取概率最大处的位置作为字符编号输出。6.根据权利要求5所述的基于深度学习的机车标志牌信息智能识别方法,其特征在于,所述的Attention解码包括以下步骤:设输入Attention模块的编码特征的尺寸为,其中,为预设的最长文本长度,为向量维度;初始化尺寸均为的全零特征向量和,作为Attention中Decoder模块初始时刻的隐藏层状态以及上一时刻输出;将编码特征与进行线性映射,两者相加与tanh操作后,再进行一次线性映射并取softmax,得到当前时刻对编码特征的注意力权重图;将编码特征与注意力权重图相乘,得到当前时刻关注特征,将当前时刻关注特征与上一时刻输出拼接后,与上一时刻隐藏层状态共同输入GRU模块进行更新,获得下一时刻的隐藏层状态以及对下一时刻的预测;
重复上述操作,直到输出,将进行线性映射后得到概率向量,维度为,其中,为字典长度,取概率向量最大处的位置作为字符类别,解码出文本。7.根据权利要求2所述的基于深度学习的机车标志牌信息智能识别方法,其特征在于,所述的集合位置编码使用Transformer中的余弦位置编码,对于输入向量,,对应的余弦位置编码为,其中,由下列式子所得:其中,为输入向量在位置上的位置编码,为在位置k2上的值,为中每个分量的通道数。8.根据权利要求7所述的基于深度学习的机车标志牌信息智能识别方法,其特征在于,所述的集合位置编码的过程中,将多段文本当成集合中的元素进行独立编码。9.根据权利要求3所述的基于深度学习的机车标志牌信息智能识别方法,其特征在于,所述的视觉特征网络包括视觉骨干网络与注意力模块,其中,所述的视觉骨干网络为ResNet50,与文本识别网络的ResNet50骨干网络参数共享,所述的注意力模块包括以下步骤:经过视觉骨干网络后所得的视觉特征向量尺寸为,其中,...
【专利技术属性】
技术研发人员:黄双萍,黄森,张慧源,李晨,张伟坤,梁景麟,
申请(专利权)人:株洲中车时代软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。