一种基于图像内容识别的本地图片快速检测方法技术

技术编号:23933004 阅读:66 留言:0更新日期:2020-04-25 02:08
本发明专利技术公开了一种基于图像内容识别的本地图片快速检测方法,主要包括:步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、中心点和旋转角等信息;步骤2,利用步骤1构建的训练数据在服务器端训练文本识别模型与目标检测模型;步骤3,利用训练好的文本识别模型与目标检测模型,自动将客户端的图像输入转化为带有语义标注的文件;步骤4,将步骤3得到的文件进行解析、整理并转存在用户本地数据库中;步骤5,根据客户端发出的请求信息,在数据库中进行检索,然后将检索结果反馈给客户端,并展示图片内容和对应标注。本发明专利技术提能够提高图像检索的准确性和速度。

A fast local image detection method based on image content recognition

【技术实现步骤摘要】
一种基于图像内容识别的本地图片快速检测方法
本专利技术涉及机器学习与图像处理,具体涉及一种基于图像内容识别的本地图片快速检测方法。
技术介绍
近年来,随着智能设备的发展和摄像头像素的不断提高,人们慢慢习惯了用相机来记录日常生活中的各种信息。但随着相册中照片越积越多,如何在相册文件夹中快速找到目标图片就成了一个新的难题。现有的搜索方式多为基于文件名的搜索,但相册图片一般根据拍照时间或者序列命名,基于名称的查找不能胜任此类图像查询任务。而手动为每一张图片进行重命名然后进行检索虽然可以完成搜索任务,但随着照片数量的增多,巨大的标注工作量无疑会带来大量人力和时间上的花费。目前,针对以上问题,大部分解决方案都是围绕快速重命名和图片注释,通过优化分类和注释方式,(如批量重命名模板和智能标签推荐等),虽然可以解决本地图片无从搜索的问题,但相册图片内容千变万化,且不同的人有不同的命名习惯,以上标注方式在准确率和速度方面就会产生很大的局限性。针对此情况,我们利用计算机在大规模计算上的优势,通过深度学习的方法自动识别图像中的文本和目标类别等语义信息,并对这些信息进行解读和整合,作为图像的隐藏注释和搜索依据,可以较好解决上述问题。
技术实现思路
本专利技术的目的是为了解决上述
技术介绍
存在的不足,提出了一种基于图像内容识别的本地图片快速检测方法。为了实现上述目的,本专利技术所采用的技术方案为:步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、以及内容文本区域的中心点和旋转角信息,所述内容文本区域即定位框;步骤2,利用步骤1构建的训练数据集在服务器端训练文本识别模型与目标检测模型,所述文本识别模型用于定位图片中的文本区域并提取图片中的关键字信息,目标检测模型用于识别图片的类别;步骤3,利用训练好的文本识别模型与目标检测模型,自动将客户端的图片输入转化为带有语义标注的文件;步骤4,将步骤3得到的文件进行解析、整理并转存在用户本地数据库中;步骤5,根据客户端发出的请求信息,在数据库中进行检索,然后将检索结果反馈给客户端,并显示图片内容和对应标注。进一步的,步骤1中通过定位框的顶点计算中心点坐标,并计算每个定位框相对水平方向的旋转角,旋转角的计算过程如下,Step11:对于给定的四个顶点{(x1,y1,),…,(x4,y4)},将横坐标最小的点xmin定义为A;Step12:其他三个点和A连线形成夹角,取中间点为C;Step13:以AC为连线,在AC上方为D,下方为B;Step14:比较AC和BD的斜率,如果kAC>kBD,则顺序调整为DABC,反之,则维持ABCD;Step15:定位框的旋转角θ为AB和水平线之间的夹角。进一步的,所述文本识别模块中,以特征金字塔网络为主干网络对原始图片I进行特征提取,将提取到的特征图FI输入到Anchor生成模块,所述Anchor生成模块包括三个分支,分别为位置预测分支、形状预测分支和角度预测分支,用于获得预测框的位置、形状和旋转角,然后针对形状预测分支的预测结果,用1×1卷积预测每个位置卷积核的偏置场,并基于该偏置场进行3×3的可变卷积完成对特征图的融合,最后将特征融合结果输入到CRNN文本识别网络中实现对图片中文本信息的识别;其中,位置预测分支接收主干网络FPN的基本特征输出FI,并对特征图进行1×1的卷积以获得目标概率的映射,然后对每个元素使用sigmoid函数从而转化为概率值,输出为与输入特征映射大小相同的概率图p(·|FI);形状预测分支接收主干网络FPN的基本特征输出FI,并对特征图进行1×1的卷积,该分支为每个位置预测(w,h)的最佳形状,其中,w为预测框的宽度,h为预测框的高度;角度预测分支的输入为基本特征图FI,输出为经过1×1卷积之后的角度预测信息iθ,最终角度预测值由求得。进一步的,所述文本识别模型采用多任务损失函数对模型进行优化训练,损失函数的计算公式如下,L=Lcls+Lreg+αLloc+βLshape+λLangle其中,分类损失Lcls采用FocalLoss,回归损失Lreg采用SmoothL1损失,通过引入位置预测损失Lloc,形状预测损失Lshape以及角度预测损失Langle三个部分,最终通过为这五个损失分配对应的权重来优化模型参数,经过反向传播进行梯度更新,训练文本识别模型;其中,Lloc=-(1-y′)γlogy′,y′∈(0,1)是位置预测分支中经过激活函数的输出,即p(·|FI),γ为平衡因子;此处L1为SmoothL1损失,w,h为形状预测分支的输出,wg和hg为训练数据集对应的真值标注;其中θ为角度预测分支的输出结果,θg为训练数据集的旋转角标注信息。进一步的,所述目标检测模型采用现有的Mask_Rcnn模型。本专利技术的有益效果在于:本专利技术提出了一种基于图像中的文本关键字和物体类别等信息进行本地图像文件搜索的模式,结合深度学习下的场景文本识别和目标检测模型,自动、快速的生成图像注释,且不会改变图像原本信息。本专利技术对场景文本和中文字符具有高鲁棒性,目前的场景文本识别算法大多针对英文字母和阿拉伯数字进行定位和识别,对于汉字的检测,尤其是对自然场景中汉字进行定位的研究结果不尽人意。本项目所做研究不仅仅适用于字母和数字,对于汉字的检测同样具有很高的重视程度和良好的表现。附图说明图1为本专利技术整体流程图。图2为本专利技术技术路线图。图3为本专利技术文本识别模型的网络结构示意图。图4为本专利技术目标检测模型的网络结构示意图。图5为本专利技术定位区域优劣判断算法示意图。图6为本专利技术实施例中中心角的示意图。具体实施方式为了具体说明使本专利技术的目的、技术方案、优点和可实现性,下面结合附图和实施例对本专利技术做进一步的说明。应当理解,此处所描述的具体实例仅仅用于解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互结合。如图2所示,一种基于图像内容识别的本地图片快速检测方法,该方法主要包括图片输入,目标检测,文本识别,图像搜索四个模块,该方法包括如下步骤:步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、中心点和旋转角等信息;由于常用的目标与文本识别数据集大多只对类别和定位框的顶点坐标做了注释,而本模型为了更好的解决现实中文本带有倾角的问题,需要额外的中心点和旋转角度等信息,所以需要通过定位框的顶点计算中心点坐标,并计算每个定位框相对水平方向的旋转角度。旋转角度的定义过程下所示,如图6所示。Step1:对于给定的四个顶点{(x1,y1,),…,(x4,y4)},我们将横坐标最小的点xmin定义为A;Step2:其他三个点和A连线形成夹角,取中间点为C;S本文档来自技高网...

【技术保护点】
1.一种基于图像内容识别的本地图片快速检测方法,其特征在于,包括如下步骤:/n步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、以及内容文本区域的中心点和旋转角信息,所述内容文本区域即定位框;/n步骤2,利用步骤1构建的训练数据集在服务器端训练文本识别模型与目标检测模型,所述文本识别模型用于定位图片中的文本区域并提取图片中的关键字信息,目标检测模型用于识别图片的类别;/n步骤3,利用训练好的文本识别模型与目标检测模型,自动将客户端的图片输入转化为带有语义标注的文件;/n步骤4,将步骤3得到的文件进行解析、整理并转存在用户本地数据库中;/n步骤5,根据客户端发出的请求信息,在数据库中进行检索,然后将检索结果反馈给客户端,并显示图片内容和对应标注。/n

【技术特征摘要】
1.一种基于图像内容识别的本地图片快速检测方法,其特征在于,包括如下步骤:
步骤1,构建训练数据集,包括采集不同噪声环境下的场景文本图片和标注图片对应的内容文本区域、以及内容文本区域的中心点和旋转角信息,所述内容文本区域即定位框;
步骤2,利用步骤1构建的训练数据集在服务器端训练文本识别模型与目标检测模型,所述文本识别模型用于定位图片中的文本区域并提取图片中的关键字信息,目标检测模型用于识别图片的类别;
步骤3,利用训练好的文本识别模型与目标检测模型,自动将客户端的图片输入转化为带有语义标注的文件;
步骤4,将步骤3得到的文件进行解析、整理并转存在用户本地数据库中;
步骤5,根据客户端发出的请求信息,在数据库中进行检索,然后将检索结果反馈给客户端,并显示图片内容和对应标注。


2.如权利要求1所述的一种基于图像内容识别的本地图片快速检测方法,其特征在于:步骤1中通过定位框的顶点计算中心点坐标,并计算每个定位框相对水平方向的旋转角,旋转角的计算过程如下,
Step11:对于给定的四个顶点{(x1,y1,),…,(x4,y4)},将横坐标最小的点xmin定义为A;
Step12:其他三个点和A连线形成夹角,取中间点为C;
Step13:以AC为连线,在AC上方为D,下方为B;
Step14:比较AC和BD的斜率,如果kAC>kBD,则顺序调整为DABC,反之,则维持ABCD;
Step15:定位框的旋转角θ为AB和水平线之间的夹角。


3.如权利要求1所述的一种基于图像内容识别的本地图片快速检测方法,其特征在于:所述文本识别模块中,以特征金字塔网络为主干网络对原始图片I进行特征提取,将提取到的特征图FI输入到Anchor生成模块,所述Anchor生成模块包括三个分支,分别为位置预测分支、形状预测分支和角度预测分支,用于获得预测框的位置、形状和旋转角,然后...

【专利技术属性】
技术研发人员:朱安娜杜行郭宏路雄博张晨
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1