一种复杂场景下的文字检测方法技术

技术编号:24757989 阅读:50 留言:0更新日期:2020-07-04 09:34
本发明专利技术涉及人工智能和计算机视觉技术领域,特别是基于深度学习实现复杂场景下的文字检测方法。它通过融合了分割模块和检测模块的网络结构(SDetNet)以及损失函数(Shape Loss)学习数据的空间分布特征,能降低文字的误检率,降低检测框的冗余度,具有很好的可解释性。一种复杂场景下的文字检测方法,它的方法步骤为:图像数据的场景预处理;网络模型设计;损失函数。

A text detection method in complex scene

【技术实现步骤摘要】
一种复杂场景下的文字检测方法
本专利技术涉及人工智能和计算机视觉
,特别是基于深度学习实现复杂场景下的文字检测方法。
技术介绍
光学字符识别(OpticalCharacterRecognition,简称OCR)是指将图像上的文字转化为计算机可编辑的文字内容。其中,最重要的一步是通过特征提取,找出图像中候选的文字区域特征,也就是文字检测。文字检测分为三个主流方法:基于文本框回归的算法;基于像素分割的算法;基于分割和回归结合的研究算法。目前,文字检测面临诸多挑战,文字方向多变性、文字分布的不规则性、文字大小的不唯一性。由于以上挑战,导致复杂场景中的文字检测易出现误检和检测框过度冗余两种情况,进而对文字识别造成不良的影响。在计算机视觉领域,复杂场景的文字检测可以利用目标检测(ObjectDetection)和目标分割(ObjectSegmention)两种不同的检测思路。ZHITIAN等人2016年发表的论文《DetectingTextinNaturalImagewithConnectionistTextProposalNetwork》本文档来自技高网...

【技术保护点】
1.一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:/n步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合;/n步骤二:网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字;采用公式(1)计算交并比IOU:/n

【技术特征摘要】
1.一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:
步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合;
步骤二:网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字;采用公式(1)计算交并比IOU:

(1)
其中,Pre_Rect是分割模块和检测模块的交并比参数值,Label_Rect表示文字存在的真实分布区域;
步骤三:损失函数,把检测框和真实框的IOU参数值设定为动态的权值参数,作为模型最终的目标函数再进行CNN迭代训练,这种回归长、宽比的损失函数计算方法为:
设定坐标原点为(0,0)点,x、y分别表示文字框的长和宽,坐标中的点A(x1,y1)和点B(x2,y2)分别表示检测框的真值和模型预测出的结果值,θ参数作为点A和点B之间的夹角,...

【专利技术属性】
技术研发人员:朱浩张磊郑全新董小栋刘阳赵海波孟祥松张逞逞冯鑫江龙邓家勇刘婷婷
申请(专利权)人:北京同方软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1