【技术实现步骤摘要】
一种复杂场景下的文字检测方法
本专利技术涉及人工智能和计算机视觉
,特别是基于深度学习实现复杂场景下的文字检测方法。
技术介绍
光学字符识别(OpticalCharacterRecognition,简称OCR)是指将图像上的文字转化为计算机可编辑的文字内容。其中,最重要的一步是通过特征提取,找出图像中候选的文字区域特征,也就是文字检测。文字检测分为三个主流方法:基于文本框回归的算法;基于像素分割的算法;基于分割和回归结合的研究算法。目前,文字检测面临诸多挑战,文字方向多变性、文字分布的不规则性、文字大小的不唯一性。由于以上挑战,导致复杂场景中的文字检测易出现误检和检测框过度冗余两种情况,进而对文字识别造成不良的影响。在计算机视觉领域,复杂场景的文字检测可以利用目标检测(ObjectDetection)和目标分割(ObjectSegmention)两种不同的检测思路。ZHITIAN等人2016年发表的论文《DetectingTextinNaturalImagewithConnectionistTextPropos ...
【技术保护点】
1.一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:/n步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合;/n步骤二:网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字;采用公式(1)计算交并比IOU:/n
【技术特征摘要】
1.一种复杂场景下的文字检测方法,其特征在于,包括如下步骤:
步骤一:图像数据的场景预处理,先将原始复杂场景中的大像素图像,划分成几个小图像块,分别进行检测,再将检测结果融合;
步骤二:网络模型设计,设计了一种融合了分割模块和检测模块的网络结构SDetNet,计算检测模块检测框和分割模块检测框的交并比IOU,再由合并模块利用交并比参数值和文本存在概率值,判断该场景中某些局部位置是否存在文字;采用公式(1)计算交并比IOU:
(1)
其中,Pre_Rect是分割模块和检测模块的交并比参数值,Label_Rect表示文字存在的真实分布区域;
步骤三:损失函数,把检测框和真实框的IOU参数值设定为动态的权值参数,作为模型最终的目标函数再进行CNN迭代训练,这种回归长、宽比的损失函数计算方法为:
设定坐标原点为(0,0)点,x、y分别表示文字框的长和宽,坐标中的点A(x1,y1)和点B(x2,y2)分别表示检测框的真值和模型预测出的结果值,θ参数作为点A和点B之间的夹角,...
【专利技术属性】
技术研发人员:朱浩,张磊,郑全新,董小栋,刘阳,赵海波,孟祥松,张逞逞,冯鑫,江龙,邓家勇,刘婷婷,
申请(专利权)人:北京同方软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。