一种基于深度学习技术的楼宇指示标识的文字识别方法技术

技术编号:25523123 阅读:57 留言:0更新日期:2020-09-04 17:13
一种基于深度学习技术的楼宇指示标识的文字识别方法,包括:采用检测网络对场景图片进行检测,获得楼宇指示标识文本的4个角点坐标,截取出字符图片;将字符图片分别输入MORN网络和进行霍夫直线处理,并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合,获得融合图片;构建楼宇指示标识文本识别模型,输入融合图片,处理流程如下:先将融合图片使用经典卷积神经网络CNN提取特征图,然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中,并输出得到每个时间片对应的文本字符类别,采用损失函数Loss去除空白字符后,获得楼宇指示标识文本。本发明专利技术属于信息技术领域,能实现对楼宇指示标识文本的准确识别。

【技术实现步骤摘要】
一种基于深度学习技术的楼宇指示标识的文字识别方法
本专利技术涉及一种基于深度学习技术的楼宇指示标识的文字识别方法,属于信息

技术介绍
自然场景文字识别技术不同于传统OCR(光字符识别)技术,目前可以分成两个部分:文本检测与文字识别。专利申请CN201910112721.4(申请名称:一种仓库货架标识牌文字识别的自然场景文字识别方法,申请日:2019.02.13,申请人:东北大学)公开了一种仓库货架标识牌文字识别的自然场景文字识别方法,至少包括以下步骤:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:来自VGG-16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG-16的13个卷积层,将所述VGG-16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。这个检测算法的预测结果为矩形框,不能用于文字区域有倾斜角度的场景中,而楼宇指示场景下的拍摄图片多有倾斜角度,因此该技术方案无法适用于对楼宇指示标识文本的识别。申请人未发现有其他用本文档来自技高网...

【技术保护点】
1.一种基于深度学习技术的楼宇指示标识的文字识别方法,其特征在于,包括有:/n步骤一、采用检测网络对场景图片进行检测,从而获得楼宇指示标识文本的4个角点坐标,按照角点坐标从场景图片中截取出包含有楼宇指示标识文本的字符图片;/n步骤二、将字符图片分别输入MORN网络和进行霍夫直线处理,并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合,从而获得融合图片;/n步骤三、构建楼宇指示标识文本识别模型,并输入融合图片,楼宇指示标识文本识别模型的处理流程如下:先将融合图片使用经典卷积神经网络CNN提取特征图,然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中,并输出得到每个时间片对...

【技术特征摘要】
1.一种基于深度学习技术的楼宇指示标识的文字识别方法,其特征在于,包括有:
步骤一、采用检测网络对场景图片进行检测,从而获得楼宇指示标识文本的4个角点坐标,按照角点坐标从场景图片中截取出包含有楼宇指示标识文本的字符图片;
步骤二、将字符图片分别输入MORN网络和进行霍夫直线处理,并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合,从而获得融合图片;
步骤三、构建楼宇指示标识文本识别模型,并输入融合图片,楼宇指示标识文本识别模型的处理流程如下:先将融合图片使用经典卷积神经网络CNN提取特征图,然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中,并输出得到每个时间片对应的文本字符类别,采用损失函数Loss去除空白字符后,最终获得楼宇指示标识文本。


2.根据权利要求1所述的方法,其特征在于,步骤一进一步包括有:
步骤11、使用ResNet网络提取场景图片的特征图,检测、并输出所有包含有字符的文字框,然后据此计算包含有楼宇指示标识文本的字符图片的角点坐标,最后从场景图片中截取出包含有楼宇指示标识文本的字符图片;
步骤12、构建一个分类判别网络,其网络特征提取选用VGG16网络,并使用softmax分类函数,所述分类判别网络的输入是待检测图片,输出是待检测图片属于无缺失、微少缺失、有缺失3类结果的概率,将包含有楼宇指示标识文本的字符图片输入至分类判别网络中,然后根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整,最后按调整后的角点坐标,从场景图片中重新截取出包含有楼宇指示标识文本的字符图片。


3.根据权利要求2所述的方法,其特征在于,步骤11进一步包含有:
步骤111、设定场景图片的多个尺度,使用ResNet网络从多个尺度下的场景图片中分别抽取各自对应的特征图;
步骤112、设定不同尺度对应的特征权重,将每个尺度对应的特征图调整为其和特征权重相乘的积;
步骤113、将所有尺度对应的特征图采用U-net方法进行合并,并将合并后的特征图继续输入ResNet网络,以检测输出所有包含有字符的文字框信息,输出的每个文字框信息包括有文字框得分及文字框的4个角点坐标;
步骤114、将所有文字框采用非极大值抑制NMS,并剔除得分低于阈值的文字框,然后从所有文字框的角点坐标中挑选出横坐标的最小值Xmin和最大值Xmax、纵坐标的最小值Ymin和最大值Ymax,包含有楼宇指示标识文本的字符图片的左上角坐标即是(Xmin,Ymin),右下角坐标即是(Xmax,Ymax);
步骤115、使用PIL库的crop方法,按照包含有楼宇指示标识文本的字符图片的左上角和右下角坐标,从场景图片中截取出包含有楼宇指示标识文本的字符图片。


4.根据权利要求2所述的方法,其特征在于,步骤12中,根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整,最后按调整后的角点坐标,从场景图片中重新截取出包含有楼宇指示标识文本的字符图片,进一步包括有:
步骤121、根据分类判别网络的输出结果,计算调整值Δh,即当输出结果为无缺失时,Δh为0,当输出结果为微少缺失时,Δh为0.05,当输出结果为无缺失时,Δh为0.1;
步骤122、根据调整值Δh,计算调整后的字符图片高度和宽度:h′=h+h*Δh,w′=w+w*Δh,其中h、w分别是包含有楼宇指示标识文本的字符图片的高度、宽度,h′、w′分别是调整后的包含有楼宇指示标识文本的字符图片的高度、宽度;
步骤123、以包含有楼宇指示标识文本的字符图片框为中心,根据调整后的字符图片高度、宽度,调整字符图片的角点坐标,然后从场景图片中重新截取出包含有楼宇指示标识文本的字符图片。

【专利技术属性】
技术研发人员:王玉龙王明君赵海秀徐童张乐剑陈爽王晶
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1