一种复杂场景下的文字检测方法技术

技术编号：24757989 阅读：50 留言：0更新日期：2020-07-04 09:34

本发明专利技术涉及人工智能和计算机视觉技术领域，特别是基于深度学习实现复杂场景下的文字检测方法。它通过融合了分割模块和检测模块的网络结构（SDetNet）以及损失函数（Shape Loss）学习数据的空间分布特征，能降低文字的误检率，降低检测框的冗余度，具有很好的可解释性。一种复杂场景下的文字检测方法，它的方法步骤为：图像数据的场景预处理；网络模型设计；损失函数。

A text detection method in complex scene

全部详细技术资料下载

【技术实现步骤摘要】
一种复杂场景下的文字检测方法
本专利技术涉及人工智能和计算机视觉
，特别是基于深度学习实现复杂场景下的文字检测方法。
技术介绍
光学字符识别（OpticalCharacterRecognition,简称OCR）是指将图像上的文字转化为计算机可编辑的文字内容。其中，最重要的一步是通过特征提取，找出图像中候选的文字区域特征，也就是文字检测。文字检测分为三个主流方法：基于文本框回归的算法；基于像素分割的算法；基于分割和回归结合的研究算法。目前，文字检测面临诸多挑战，文字方向多变性、文字分布的不规则性、文字大小的不唯一性。由于以上挑战，导致复杂场景中的文字检测易出现误检和检测框过度冗余两种情况，进而对文字识别造成不良的影响。在计算机视觉领域，复杂场景的文字检测可以利用目标检测（ObjectDetection）和目标分割（ObjectSegmention）两种不同的检测思路。ZHITIAN等人2016年发表的论文《DetectingTextinNaturalImagewithConnectionistTextProposalNetwork》本文档来自技高网...

【技术保护点】
1.一种复杂场景下的文字检测方法，其特征在于，包括如下步骤：/n步骤一：图像数据的场景预处理,先将原始复杂场景中的大像素图像，划分成几个小图像块，分别进行检测，再将检测结果融合；/n步骤二：网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet，计算检测模块检测框和分割模块检测框的交并比IOU，再由合并模块利用交并比参数值和文本存在概率值，判断该场景中某些局部位置是否存在文字；采用公式（1）计算交并比IOU：/n

【技术特征摘要】
1.一种复杂场景下的文字检测方法，其特征在于，包括如下步骤：
步骤一：图像数据的场景预处理,先将原始复杂场景中的大像素图像，划分成几个小图像块，分别进行检测，再将检测结果融合；
步骤二：网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet，计算检测模块检测框和分割模块检测框的交并比IOU，再由合并模块利用交并比参数值和文本存在概率值，判断该场景中某些局部位置是否存在文字；采用公式（1）计算交并比IOU：

（1）
其中，Pre_Rect是分割模块和检测模块的交并比参数值，Label_Rect表示文字存在的真实分布区域；
步骤三：损失函数,把检测框和真实框的IOU参数值设定为动态的权值参数，作为模型最终的目标函数再进行CNN迭代训练，这种回归长、宽比的损失函数计算方法为：
设定坐标原点为（0，0）点，x、y分别表示文字框的长和宽，坐标中的点A（x1，y1）和点B（x2，y2）分别表示检测框的真值和模型预测出的结果值，θ参数作为点A和点B之间的夹角，...

【专利技术属性】
技术研发人员：朱浩，张磊，郑全新，董小栋，刘阳，赵海波，孟祥松，张逞逞，冯鑫，江龙，邓家勇，刘婷婷，
申请(专利权)人：北京同方软件有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人