一种基于边界预测的自然场景多语言文字检测方法技术

技术编号:26260032 阅读:33 留言:0更新日期:2020-11-06 17:55
本发明专利技术公开了一种基于边界预测的自然场景多语言文字检测方法,首先构建了一个多语言文字检测网络模型,该模型包括特征提取主干网络、残差卷积模块(RCM)、残差池化模块(RPM)和特征融合层,对输入图像逐像素预测文字区域与其外接边界,并将其转化为置信图输出,通过广度优先搜索算法将边界相连的文字区域分离进而得到最终的检测结果。本方法能够检测任意方向、形状的多语言文字区域,降低了算法复杂度,节省计算时间,显著提升了检测精度。

【技术实现步骤摘要】
一种基于边界预测的自然场景多语言文字检测方法
本专利技术涉及计算机视觉领域,具体涉及自然场景中多语言文字检测方法。
技术介绍
受到全球化加速的影响,不同国家的人们生活在同一个城市中,彼此间文化交流越来越密切,这种趋势带来的最直接的改变是人们生活环境中经常会看到来自不同国家的文字。对基于自然场景内容理解的众多应用而言,如无人驾驶系统、盲人辅助系统、旅行翻译、自动机器人等,以往针对单一或者混合语言而开发的文字检测方法已然无法满足当今多元化的语言环境。而为每一种语言分别开发其对应检测器的策略并不能受到人们的认可。因此,需要克服多语言文字检测中所面临的特有挑战,设计鲁棒的自然场景中多语言文字检测方法。近年来,卷积神经网络(ConvolutionalNeuralNetwork,CNN)发展迅速,CNN网络能够自动学习图像视觉特征的能力十分适合用于自然场景中文字检测。多数基于卷积神经网络研发的文字检测算法仅针对一到两种语言设计,无法满足多语言文字检测的需求。并且其方法大多使用四边形目标框定位文字区域,难以适应曲线或不规则文字区域。同时,与拉丁语文字本文档来自技高网...

【技术保护点】
1.一种基于边界预测的自然场景多语言文字检测方法,其特征在于,包括以下步骤:/n步骤1:构建多语言文字检测网络模型/n步骤1-1:首先采用若干卷积层对输入图像进行卷积操作,输出图像的特征层通道数变为64,分辨率降低至原始图像的1/4,输出特征层记为[W/4,H/4,64],其中W和H分别表示输入图像的宽和高;/n步骤1-2:步骤1-1输出图像输入到RCM,输出图像的特征层通道数增加到256同时分辨率保持不变,记为[W/4,H/4,256];/n步骤1-3:步骤1-2的输出图像产生两个分支,一个分支通过卷积模块降低特征层通道数但保持分辨率不变,输出特征层记为[W/4,H/4,32];另一个分支经...

【技术特征摘要】
1.一种基于边界预测的自然场景多语言文字检测方法,其特征在于,包括以下步骤:
步骤1:构建多语言文字检测网络模型
步骤1-1:首先采用若干卷积层对输入图像进行卷积操作,输出图像的特征层通道数变为64,分辨率降低至原始图像的1/4,输出特征层记为[W/4,H/4,64],其中W和H分别表示输入图像的宽和高;
步骤1-2:步骤1-1输出图像输入到RCM,输出图像的特征层通道数增加到256同时分辨率保持不变,记为[W/4,H/4,256];
步骤1-3:步骤1-2的输出图像产生两个分支,一个分支通过卷积模块降低特征层通道数但保持分辨率不变,输出特征层记为[W/4,H/4,32];另一个分支经过降维卷积模块产生一个降低分辨率的特征层,记为[W/8,H/8,64];
步骤1-4:步骤1-3输出的两个特征层再次分别经过RCM后进入特征融合阶段用以同时提高特征细节与语义信息,融合后的两个特征层分别为([W/4,H/4,32],[W/8,H/8,64]);融合后的两个特征层中分辨率较低者再通过降维卷积操作产生更低分辨率的特征层,记为[W/16,H/16,128];
步骤1-5:将步骤1-4产生的三个特征层再分别输入RCM并进行特征融合,融合后的特征层分别为([W/4,H/4,32],[W/8,H/8,64],[W/16,H/16,128]);三个特征层中分辨率最低的特征层进一步通过降维卷积模块产生一个更低分辨率的特征层,记为[W/32,H/32,256];
步骤1-6:步骤1-5输出的四个特征层分别接入四个RCM后输出四个特征层,记为([W/4,H/4,32]1,[W/8,H/8,64]1,[W/16,H/16,128]1,[W/32,H/32,256]1);
步骤1-7:再将步骤1-6输出的四个特征层分别依次进入四个RPM和四个RCM,用以进一步捕捉上下文信息,并保持输出通道数为256;
步骤1-8:步骤1-7输出的四个特征层分别经过一个1×1卷积层将通道数降低为3,并进行上采样操作保证分辨率与标签图像一致,经过特征拼接层后再接入一个1×1卷积层输出最终提取特征;
步骤2:设计训练标签
将标签图像中的对象分为三类,多语言文字区域归为一类,非文字背景区域归为一类,多语言文字区域与非文字背景区域的边界曲线归为一类;
对于标注多语言文字区域的选取框的短边长度WX,计算偏移量d=r×WX,其中r为偏移参数;对于短边小于A个像素的小文字区域,当d<A*r时,将d设置为A*r;按照偏移量调整标注多语言文字区域的选取框位置,选取框的四个新顶点坐标被定义为{([x1+d],[y1+d]),([x2-d]...

【专利技术属性】
技术研发人员:冯晓毅宋真东蒋晓悦夏召强李会方谢红梅何贵青彭进业王西汉
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1