基于FasterRcnn的图像文本检测方法及系统技术方案

技术编号:32784679 阅读:13 留言:0更新日期:2022-03-23 19:44
本发明专利技术涉及图像处理技术领域,公开了一种基于Faster Rcnn的图像文本检测方法及系统,其方法通过对待检测图像进行预处理,以提高图像的成像质量,并通过目标检测算法对文本信息进行定位,通过定位信息利用OCR识别算法对文本信息进行文本识别,将文本信息转换为字符信息,从而提高图像识别的准确性。从而提高图像识别的准确性。从而提高图像识别的准确性。

【技术实现步骤摘要】
基于Faster Rcnn的图像文本检测方法及系统


[0001]本专利技术涉及图像处理
,尤其涉及一种基于Faster Rcnn的图像文本检测方法及系统。

技术介绍

[0002]随着深度学习领域的发展,图像识别、语音识别、自然语言分析技术等人工智能技术的成熟,大量基于人工智能的新一代服务应用被广泛的应用在电力,金融,政府,军事等多个领域,而图像识别技术也得以广泛应用,例如在车牌识别、人脸识别、物体检测等方面,传统的数据收集、数据分析、查询检索方式已经逐渐被智能化方式所取代。但传统的图像识别的图像识别的准确率较低。

技术实现思路

[0003]本专利技术提供了一种基于Faster Rcnn的图像文本检测方法及系统,解决了图像识别的准确率较低的技术问题。
[0004]有鉴于此,本专利技术第一方面提供了一种基于Faster Rcnn的图像文本检测方法,包括以下步骤:
[0005]获取待检测图像,对所述待检测图像进行预处理;
[0006]基于目标检测算法检测所述待检测图像中的文本信息的所在位置和文本尺度范围;
[0007]基于OCR识别算法对所述文本信息的所在位置和文本尺度范围对应的文本信息进行文本识别,从而将所述文本信息转化为字符信息。
[0008]优选地,所述目标检测算法集成于Faster

RCNN二阶检测器、SSD一阶检测器和YOLOv3一阶检测器中的其中一种设备。
[0009]优选地,所述预处理的方式包括几何变换、畸变校正、去除模糊、图像增强和光线校正。
[0010]优选地,所述几何变换的过程具体为,
[0011]将所述待检测图像投影至二维几何平面上,对所述待检测图像的外廓进行离散化,以获得外廓离散点集合以及各外廓离散点的原始坐标信息;
[0012]根据预先输入的旋转角度和各外廓离散点的原始坐标信息确定所述外廓拐点的坐标变换差值,通过所述坐标变换差值对原始坐标信息进行补偿,从而对所述待检测图像进行几何变换。
[0013]优选地,基于OCR识别算法对所述文本信息的所在位置和文本尺度范围对应的文本信息进行文本识别,从而将所述文本信息转化为字符信息的步骤具体包括:
[0014]根据所述文本信息的所在位置和文本尺度范围对所述文本信息进行裁剪,以得到若干个文本区域;
[0015]判断相邻的所述文本区域是否重叠,若判定重叠,则将重叠的文本区域合并为同
一文本区域;
[0016]基于OCR识别算法对所述文本区域内的文本信息进行文本识别,从而将所述文本信息转化为字符信息。
[0017]第二方面,本专利技术还提供了一种基于Faster Rcnn的图像文本检测系统,包括:
[0018]预处理模块,用于获取待检测图像,对所述待检测图像进行预处理;
[0019]定位模块,用于基于目标检测算法检测所述待检测图像中的文本信息的所在位置和文本尺度范围;
[0020]文本识别模块,用于基于OCR识别算法对所述文本信息的所在位置和文本尺度范围对应的文本信息进行文本识别,从而将所述文本信息转化为字符信息。
[0021]优选地,所述目标检测算法集成于Faster

RCNN二阶检测器、SSD一阶检测器和YOLOv3一阶检测器中的其中一种设备。
[0022]优选地,所述预处理的方式包括几何变换、畸变校正、去除模糊、图像增强和光线校正。
[0023]优选地,本系统还包括:几何变换模块,所述几何变换模块用于将所述待检测图像投影至二维几何平面上,对所述待检测图像的外廓进行离散化,以获得外廓离散点集合以及各外廓离散点的原始坐标信息;还用于根据预先输入的旋转角度和各外廓离散点的原始坐标信息确定所述外廓拐点的坐标变换差值,通过所述坐标变换差值对原始坐标信息进行补偿,从而对所述待检测图像进行几何变换。
[0024]优选地,所述文本识别模块具体包括:
[0025]裁剪模块,用于根据所述文本信息的所在位置和文本尺度范围对所述文本信息进行裁剪,以得到若干个文本区域;
[0026]合并模块,用于判断相邻的所述文本区域是否重叠,若判定重叠,则将重叠的文本区域合并为同一文本区域;
[0027]识别模块,用于基于OCR识别算法对所述文本区域内的文本信息进行文本识别,从而将所述文本信息转化为字符信息。
[0028]从以上技术方案可以看出,本专利技术具有以下优点:
[0029]本专利技术通过对待检测图像进行预处理,以提高图像的成像质量,并通过目标检测算法对文本信息进行定位,通过定位信息利用OCR识别算法对文本信息进行文本识别,将文本信息转换为字符信息,从而提高图像识别的准确性。
附图说明
[0030]图1为本专利技术实施例提供的一种基于Faster Rcnn的图像文本检测方法的流程图;
[0031]图2为本专利技术实施例提供的一种基于Faster Rcnn的图像文本检测系统的结构示意图。
具体实施方式
[0032]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在
没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]为了便于理解,请参阅图1,本专利技术提供的一种基于Faster Rcnn的图像文本检测方法,包括以下步骤:
[0034]步骤一、获取待检测图像,对待检测图像进行预处理。
[0035]在本实施例中,预处理的方式包括几何变换、畸变校正、去除模糊、图像增强和光线校正。通过预处理可以对待检测图像的成像问题进行修正。
[0036]步骤二、基于目标检测算法检测待检测图像中的文本信息的所在位置和文本尺度范围。
[0037]其中,目标检测算法集成于Faster

RCNN二阶检测器、SSD一阶检测器和YOLOv3一阶检测器中的其中一种设备。目标检测算法在训练好后,对待检测图像中文本信息进行目标检测,得到文本信息的位置,并通过矩形框对文本信息的范围进行标注,从而得到文本尺度范围。
[0038]步骤三、基于OCR识别算法对文本信息的所在位置和文本尺度范围对应的文本信息进行文本识别,从而将文本信息转化为字符信息。
[0039]在一个具体示例中,字符信息可以为中文、英文或符号等。在转换为字符信息后,还可以对字符信息进行核对,以提高文本识别的准确性。
[0040]本实施例提供了一种基于Faster Rcnn的图像文本检测方法,通过对待检测图像进行预处理,以提高图像的成像质量,并通过目标检测算法对文本信息进行定位,通过定位信息利用OCR识别算法对文本信息进行文本识别,将文本信息转换为字符信息,从而提高图像识别的准确性。
[0041]在一个具体实施例中,几何本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Faster Rcnn的图像文本检测方法,其特征在于,包括以下步骤:获取待检测图像,对所述待检测图像进行预处理;基于目标检测算法检测所述待检测图像中的文本信息的所在位置和文本尺度范围;基于OCR识别算法对所述文本信息的所在位置和文本尺度范围对应的文本信息进行文本识别,从而将所述文本信息转化为字符信息。2.根据权利要求1所述的基于Faster Rcnn的图像文本检测方法,其特征在于,所述目标检测算法集成于Faster

RCNN二阶检测器、SSD一阶检测器和YOLOv3一阶检测器中的其中一种设备。3.根据权利要求1所述的基于Faster Rcnn的图像文本检测方法,其特征在于,所述预处理的方式包括几何变换、畸变校正、去除模糊、图像增强和光线校正。4.根据权利要求3所述的基于Faster Rcnn的图像文本检测方法,其特征在于,所述几何变换的过程具体为,将所述待检测图像投影至二维几何平面上,对所述待检测图像的外廓进行离散化,以获得外廓离散点集合以及各外廓离散点的原始坐标信息;根据预先输入的旋转角度和各外廓离散点的原始坐标信息确定所述外廓拐点的坐标变换差值,通过所述坐标变换差值对原始坐标信息进行补偿,从而对所述待检测图像进行几何变换。5.根据权利要求1所述的基于Faster Rcnn的图像文本检测方法,其特征在于,基于OCR识别算法对所述文本信息的所在位置和文本尺度范围对应的文本信息进行文本识别,从而将所述文本信息转化为字符信息的步骤具体包括:根据所述文本信息的所在位置和文本尺度范围对所述文本信息进行裁剪,以得到若干个文本区域;判断相邻的所述文本区域是否重叠,若判定重叠,则将重叠的文本区域合并为同一文本区域;基于OCR识别算法对所述文本区域内的文本信息进行文本识别,从而将所述文本信息转化为字符信息。6.基于Fas...

【专利技术属性】
技术研发人员:张茵翠关飞黄敏清黎康萍黄达文吴浩珊陈冠胜何晓彤梁浩麟伍绍聪
申请(专利权)人:广东电网有限责任公司肇庆供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1