【技术实现步骤摘要】
一种基于卷积神经网络的片段和链接的场景文字的检测方法
本专利技术属于数字图像处理的应用领域,具体涉及一种基于卷积神经网络的片段和链接的场景文字的检测方法。
技术介绍
理解图像是计算机视觉的主要目标。对图像的理解分为不同的层级,例如物体的边缘检测是底层的图像理解;对物体的语义分割是中层的理解等等。而对图像中所携带的文字的理解,则是高层语义信息(highlevelsemantics)的理解,这些信息和人类的符号系统兼容,可以直接被用于高层的语义、逻辑分析。由于文字的普遍存在和文字信息的重要性,理解图片中的文字在计算机视觉中一直处于重要的位置。从图像中识别文字的技术通常被称作光学字符识别(OCR),它是计算机视觉最早的应用之一,受到技术水平和硬件条件的限制,传统的OCR方法只针对文档文字设计。自然图片中的文字通常被称作场景文字,场景文字检测识别是传统OCR在自然图片上的延续和升级,其应用及其广泛。深层神经网络是深度学习的核心,它是一种灵活且学习能力极强的机器学习模型。从数学角度来看,深层神经网络是一种高度非线性、高度参数化 ...
【技术保护点】
1.一种基于卷积神经网络的片段和链接的场景文字的检测方法,其特征在于,包括如下步骤:/n步骤1,获得大小为w
【技术特征摘要】
1.一种基于卷积神经网络的片段和链接的场景文字的检测方法,其特征在于,包括如下步骤:
步骤1,获得大小为wI*hI的文字图片I;
步骤2,构建片段链接模型,其中片段链接模型包括若干个依次连接的卷积特征层和卷积预测器,其中卷积特征层和卷积预测器均用L进行编号索引;每个卷积特征层对应的特征图上的位置都对应一个参考盒,对于特征卷积层L,设定特征图大小为wL*hL,特征图的位置(i,j)对应一个正方形的参考盒,其中心点(xa,ya)通过以下公式计算:
上式中,设定参考盒的宽度和高度均为常量aL;
步骤3,将图片I输入到构建的片段链接模型中,获得卷积预测器的结果输出,包括以下子步骤;
步骤3.1,通过片段链接模型将图片I中的文字划分为片段,获得片段的得分和片段的集合坐标;
步骤3.2,检测片段的相邻片段实现同层链接;
步骤3.3,检测片段的跨层近邻片段实现跨层链接;
步骤4,利用无向图将卷积预测器的结果进行片段组合得到整词;
步骤5,输出整词的检测结果。
2.如权利要求1所述的一种基于卷积神经网络的片段和链接的场景文字的检测方法,其特征在于:步骤2中片段链接模型包括6个卷积特征层和卷积预测器,卷积特征层分别是conv4_3、conv7_3、conv8_2、conv9_2、conv10_2、con11,其中conv4_3的卷积核有1024个,卷积核大小为3,卷积步长为1;conv7_3卷积核有256个,卷积核大小为1,卷积步长为1;conv8_2卷积核有128个,卷积核大小为1,卷积步长为1;con9_2卷积核有128个,...
【专利技术属性】
技术研发人员:严灵毓,夏慧玲,王春枝,董新华,叶志伟,李敏,
申请(专利权)人:湖北工业大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。