一种基于神经网络的文字检测方法技术

技术编号：24939534 阅读：16 留言：0更新日期：2020-07-17 21:16

本发明专利技术涉及文字检测技术领域，具体涉及一种基于神经网络的文字检测方法，采用如下步骤：步骤一：进入训练时，将文字文件转换成待处理的文字检测图片；步骤二：针对步骤一中的文字检测图片，利用yolov3算法中，在进行darnet53提取完特征后，会直接定出三个大、中、小框的区域，形成最小的检测框、中型检测框和大检测框的三个检测框；它基于yolov3目标检测算法，改写提取完三个bbox后的特征提取方案，以及最后的损失函数和极大值抑制方法，以此把小的锚点用来检测大的物体，大的物体来检测小的物体和误检和漏检问题，它具有检测识别效果好，极大地提高了检测效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的文字检测方法
本专利技术涉及文字检测
，具体涉及一种基于神经网络的文字检测方法。
技术介绍
现在文字检测算法有多种，如fots，east，psnet，ctpn等等。在如此多的文字检测算法中，并不适合试卷文字的检测。试卷文字相对比较密集，每行的距离没有过于分散，相对比较集中。在用一些文字检测算法的过程中，会遇到漏检，误检的问题。出现了误检和漏检的情况，会严重影响文字的识别和评分。现有的文字检测算法中，是通过多个候选区组成pair，然后再合成一个检测框，即一行数据。但在密集的文字中，非常之容易出错，如图1中的A部(为一个较长部分的文字部分)，本来A处的文字部分是两部分的数据，但是检测时误识别为一个，导致检测出问题。因此这种算法的优点是对稀疏形的文字检测比较好，对密集型的效果不好，例如对于填写好的答案的答题卡，就是一种密集型文字卡片，因此要解决上述的密集型文字检测存在不准确的问题，就要弃用多个候选框组成pair，直接把一行作为检测的方法。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷和不足，提供一种基于神经网络的文字检测方法。本专利技术所述的一种基于神经网络的文字检测方法，采用如下步骤：步骤一：进入训练时，将文字文件转换成待处理的文字检测图片；步骤二：针对步骤一中的文字检测图片，利用yolov3算法中，在进行darnet53提取完特征后，会直接定出三个大、中、小框的区域，形成最小的检测框、中型检测框和大检测框的三个检测框；>步骤三：针对步骤二中最小的检测框、中型检测框和大检测框，对每个检测框的通道数2倍放大和缩小，在向上进行上采样，进行到大检测框后就停止；步骤四：利用损失函数实现文字检测，具体的步骤如下：(1):计算出iou:计算出预测的检测框和标签检测框的iou；(2):检测框的损失:2.0-1.0×宽×高/(输入大小×2)；(3):iou损失:置信度×检测框的损失×(1-iou)；(4):计算出负的iou:(1-置信度)×小于阀值的iou；(5):计算出置信度的损失:1×(|置信度-预测的置信度|)平方×(置信度×sigmoid损失+负的iou×sigmoid损失)；(6):类型的损失:负的iou×sigmoid损失；(7):总的损失:iou损失+置信度损失+类型的损失。进一步地，步骤四中的(4)中的小于阀值的iou为0.5。本专利技术有益效果为：本专利技术所述的一种基于神经网络的文字检测方法，其基于yolov3目标检测算法，改写提取完三个bbox后的特征提取方案，以及最后的损失函数和极大值抑制方法，以此把小的锚点用来检测大的物体，大的物体来检测小的物体和误检和漏检问题，它具有检测识别效果好，极大地提高了检测效率。【附图说明】此处所说明的附图是用来提供对本专利技术的进一步理解，构成本申请的一部分，但并不构成对本专利技术的不当限定，在附图中：图1是本专利技术中的
技术介绍
中的传统的文字检测方法的检测结果的示意图；图2是本专利技术的拓扑示意图；图3是本专利技术中的文字检测方法的检测结果的示意图。【具体实施方式】下面将结合附图以及具体实施例来详细说明本专利技术，其中的示意性实施例以及说明仅用来解释本专利技术，但并不作为对本专利技术的限定。如图2-图3所示，本具体实施方式所述的一种基于神经网络的文字检测方法，采用如下步骤：步骤一：进入训练时，将文字文件转换成待处理的文字检测图片；步骤二：针对步骤一中的文字检测图片，利用yolov3算法中，在进行darnet53提取完特征后，会直接定出三个大、中、小框的区域，形成最小的检测框、中型检测框和大检测框；步骤三：针对步骤二中最小的检测框、中型检测框和大检测框，对每个检测框的通道数2倍放大和缩小，在向上进行上采样，进行到大检测框后就停止；步骤四：利用损失函数实现文字检测，具体的步骤如下：(1):计算出iou:计算出预测的检测框和标签检测框的iou；(2):检测框的损失:2.0-1.0×宽×高/(输入大小×2)；(3):iou损失:置信度×检测框的损失×(1-iou)；(4):计算出负的iou:(1-置信度)×小于阀值的iou；(5):计算出置信度的损失:1×(|置信度-预测的置信度|)平方×(置信度×sigmoid损失+负的iou×sigmoid损失)；(6):类型的损失:负的iou×sigmoid损失；(7):总的损失:iou损失+置信度损失+类型的损失。本专利技术的工作原理如下：本专利技术是针对现有的文字检测方法，是通过多个候选区组成pair，然后再合成一个检测框，即一行数据，然后再通过损失函数来实现文字检测。上述方法比较适合稀疏型的文字检测。但是本专利技术是针对密集型文字检测，主要是针对答题卡这类密集型文字的检测，而进行的革新的，具有陈述如下：本专利技术中，首先对待检测的答题卡(已填充好答案的答题卡)，先进行转换，转换成待检测的图片，图片经过多次大小化，如320、352等等；然后再利用yolov3算法，在进行darnet53提取完特征后，会直接定出三个大中小框的大小；传统的yolov3算法中有106层，本专利技术只用了68层，在darnet53提取完特征后，会得到一个最小的检测框，和中型的检测框和大检测框，形成三个检测框框；与现在的文字检测合成一个检测框，具有较大的区别；然后再对每个检测框的通道数2倍放大和缩小，在向上进行上采样，进行到大检测框后就停止。在损失函数中:本专利技术采用如下的方案:(1):计算出iou:计算出预测的检测框和标签检测框的iou；(2):检测框的损失:2.0-1.0×宽×高/(输入大小×2)；(3):iou损失:置信度×检测框的损失×(1-iou)；(4):计算出负的iou:(1-置信度)×小于阀值的iou(该处本设计采用的是0.5)；(5):计算出置信度的损失:1×(|置信度-预测的置信度|)平方×(置信度×sigmoid损失+负的iou×sigmoid损失)；(6):类型的损失:负的iou×sigmoid损失；(7):总的损失:iou损失+置信度损失+类型的损失。本司也尝试过其他的方案，如rcnn系列的，效果暂时不太好，Darknet53提取特征相对来说比其他更加好，也证明了yolo系列对于答题卡的文字检测效果来说还是比其他方法更优。本专利技术所述的一种基于神经网络的文字检测方法，其基于yolov3目标检测算法，改写提取完三个bbox后的特征提取方案，以及最后的损失函数和极大值抑制方法，以此把小的锚点用来检测大的物体，大的物体来检测小的物体和误检和漏检问题，它具有检测识别效果好，极大地提高了检测效率。以上所述仅是本专利技术的较佳实施方式，故凡依本专利技术专利申请范围所述特征及原理所做的等效本文档来自技高网...

【技术保护点】
1.一种基于神经网络的文字检测方法，其特征在于：采用如下步骤：/n步骤一：进入训练时，将文字文件转换成待处理的文字检测图片；/n步骤二：针对步骤一中的文字检测图片，利用yolov3算法中，在进行darnet53提取完特征后，会直接定出三个大、中、小框的区域，形成最小的检测框、中型检测框和大检测框的三个检测框；/n步骤三：针对步骤二中最小的检测框、中型检测框和大检测框，对每个检测框的通道数2倍放大和缩小，在向上进行上采样，进行到大检测框后就停止；/n步骤四：利用损失函数实现文字检测，具体的步骤如下：/n(1):计算出iou:计算出预测的检测框和标签检测框的iou；/n(2):检测框的损失:2.0-1.0×宽×高/(输入大小×2)；/n(3):iou损失:置信度×检测框的损失×(1-iou)；/n(4):计算出负的iou:(1-置信度)×小于阀值的iou；/n(5):计算出置信度的损失:/n1×(|置信度-预测的置信度|)平方×(置信度×sigmoid损失+负的iou×sigmoid损失)；/n(6):类型的损失:负的iou×sigmoid损失；/n(7):总的损失:iou损失+置信度损失+类型的损失。/n...

【技术特征摘要】
1.一种基于神经网络的文字检测方法，其特征在于：采用如下步骤：
步骤一：进入训练时，将文字文件转换成待处理的文字检测图片；
步骤二：针对步骤一中的文字检测图片，利用yolov3算法中，在进行darnet53提取完特征后，会直接定出三个大、中、小框的区域，形成最小的检测框、中型检测框和大检测框的三个检测框；
步骤三：针对步骤二中最小的检测框、中型检测框和大检测框，对每个检测框的通道数2倍放大和缩小，在向上进行上采样，进行到大检测框后就停止；
步骤四：利用损失函数实现文字检测，具体的步骤如下：
(1):计算出iou:计算出预测的检测框和标签检测框的iou；
(2...

【专利技术属性】
技术研发人员：马赫，陈豪奋，
申请(专利权)人：广州市南方人力资源评价中心有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人