当前位置: 首页 > 专利查询>汕头大学专利>正文

一种强噪声复杂背景图像中的汉字定位及识别方法技术

技术编号:22565669 阅读:36 留言:0更新日期:2019-11-16 12:16
本发明专利技术公开了一种强噪声复杂背景图像中的汉字定位及识别方法,该定位方法包括:先采集包含汉字的强噪声复杂背景图像,再根据采集数据样品,构建出神经网络模型,并以此训练和优化该神经网络模型的参数;对待定位的第一背景图像,通过训练好的神经网络模型对其进行尺寸调整,并筛选出相应的第一边界框集合和每个边界框对应的置信度,在根据置信度筛选出每个汉字对应的边界框,实现汉字定位。采用本发明专利技术技术方案能提高在强噪声复杂背景图像中汉字定位及识别的准确性。

A method of Chinese character location and recognition in complex background image with strong noise

The invention discloses a method for positioning and recognition of Chinese characters in a strong noise and complex background image, the positioning method includes: first collecting a strong noise and complex background image containing Chinese characters, then constructing a neural network model according to the collected data samples, and training and optimizing the parameters of the neural network model; for the first background image to be positioned, the trained neural network is used The model adjusts its size, and filters out the corresponding first bounding box set and the corresponding confidence of each bounding box. According to the confidence, it filters out the corresponding bounding box of each Chinese character to realize the positioning of Chinese characters. The technical scheme of the invention can improve the accuracy of Chinese character positioning and recognition in the strong noise and complex background image.

【技术实现步骤摘要】
一种强噪声复杂背景图像中的汉字定位及识别方法
本专利技术涉及计算机
,尤其涉及一种强噪声复杂背景图像中的汉字定位及识别方法。
技术介绍
自动识别图像、视频中的文字的计算机技术,具有广阔的应用场景,如在物流行业中,将物流快递运单进行快速扫描成像和自动识别,并提取出物流运单上的有效信息;在教育行业中,将图片中的文字信息转换为可编辑的Word文档;在安防行业中,对视频中出现的车牌等信息进行识别和提取。在进行文字识别前需要先对图像中的文字进行定位,传统的OCR技术能够实现汉字的定位和识别,但是在具有复杂背景和变形文字的强噪声图片上,其识别效果并不理想,准确率较低,无法应用到具体的场景或行业中。
技术实现思路
本专利技术实施例提出一种强噪声复杂背景图像中的汉字定位及识别方法,能提高在强噪声复杂背景图像中汉字定位及识别的准确性。本专利技术实施例提供一种强噪声复杂背景图像中的汉字定位方法,包括:获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;所述背景图像为强噪音复杂背景图像;以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别;获取待定位的第一背景图像,通过所述神经网络模型,调整所述第一背景图像的尺寸,并根据所述神经网络模型内设置的边框调整参数和默认边界框,确定所述第一背景图像的第一边界框集合;分别计算所述第一边界框集合内各边界框对应的置信度,并通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,以实现所述第一背景图像的汉字定位;其中,所述第一背景图像包含N个汉字,所述N个汉字分别一一对应所述N个边界框;N为正整数。进一步的,以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型,具体为:构建初始模型,并以所述背景图像为输入,以矩形边界框和置信度为输出,对所述初始模型进行训练,调整并优化所述初始模型的尺寸调整参数、边框调整参数、重合度筛选参数、置信度计算参数,并根据优化后的参数,构建所述神经网络模型;其中,所述尺寸调整参数用于供所述神经网络模型调整输入图像的尺寸;所述边框调整参数用于供所述神经网络模型调整默认边界框的尺度和长宽比例;所述重合度筛选参数用于供所述神经网络模型剔除高重合度的边界框;所述置信度计算参数用于供所述神经网络模型计算每个边界框的置信度。进一步的,所述通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,具体为:根据所述第一边界框集合内各边界框对应的置信度,筛选出分数最高的边界框box1,使用IoU方法剔除与边界框box1重合度高于所述重合度筛选参数的边界框,再从剩余的边界框中选出分数最高的边界框box2,按照相同的方法进行剔除,直到选出N个边界框。进一步的,所述神经网络模采用扩展后的图像数据进行训练,以便于进一步优化所述神经网络模型的参数;所述扩展后的图像数据为经过翻转操作的所述若干个背景图像和矩形边界框。进一步的,所述翻转操作为随机水平翻转、随机竖直翻转、随机旋转和/或随机裁剪。相应地,本专利技术实施例还提供一种强噪声复杂背景图像中的汉字识别方法,包括:根据上文所述的强噪声复杂背景图像中的汉字定位方法,对若干个原始图像进行汉字定位,获得多个汉字定位框;根据所述多个汉字定位框,对所述原始图像进行预处理,获得多个图像数据集;其中,每个图像数据集有且仅有一个汉字的多个汉字图像;基于深度学习网络InceptionV3,建立深度学习模型,并以所述多个图像数据集,优化所述深度学习模型的训练轮数、学习率、学习衰减率和训练批次;在训练结束后,根据优化后的参数生成识别模型文件,以便于在获取到待识别图像时,通过所述识别模型文件,对所述待识别图像进行汉字识别。进一步的,根据所述多个汉字定位框,对所述原始图像进行预处理,获得多个图像数据集,具体为:根据汉字定位框对所述原始图像进裁剪,获得第一图像数据集;剔除所述第一图像数据集中的错误图像数据,获得第二图像数据集;其中,所述错误图像数据为没有包含一个完整汉字的图像数据;将每个汉字作为单独的汉字类别,并以此将所述第二图像数据集中的图像数据进行分类,以使每个汉字类别对应一个图像数据集;由所有汉字类别分别对应的图像数据集组成所述多个图像数据集,并对每个汉字类别设置相应标签文件。进一步的,在所述第二图像数据集分类完成之后,还包括:对汉字类别对应的图像数据的数量少于预设的阈值的第三图像数据集,采用ImageDataGenerator方法对图像数据进行数据增强操作,以增加第三图像数据集中的图像数据的数量。进一步的,在训练结束后,还包括:根据优化后的参数生成权重文件;所述权重文件用于所述深度学习模型的再训练。实施本专利技术实施例,具有如下有益效果:本专利技术实施例提供的强噪声复杂背景图像中的汉字定位方法,先根据采集数据样品,构建出神经网络模型,并以此训练和优化该神经网络模型的参数;对待定位的第一背景图像,通过训练好的神经网络模型对其进行尺寸调整,并筛选出相应的第一边界框集合和每个边界框对应的置信度,在根据置信度筛选出每个汉字对应的边界框,实现汉字定位。相比于现有技术通过传统的OCR技术对强噪声复杂背景图像的定位不准确,本专利技术技术方案针对该类型的图像进采样并构建相应的神经网络模型,能够提高在强噪声复杂背景图像中汉字定位的准确性。相应地,本专利技术提供的汉字识别方法,在本专利技术的汉字定位后,基于深度学习网络,构建识别模型文件,并以此对待识别图像进行汉字识别,能够在在强噪声复杂背景图像中汉字识别的准确性。附图说明图1是本专利技术提供的强噪声复杂背景图像中的汉字定位方法的一种实施例的流程示意图;图2是本专利技术提供的强噪声复杂背景图像中的汉字识别方法的一种实施例的流程示意图;图3是本专利技术提供的深度学习网络的一种实施例的网络结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1参见图1,是本专利技术提供的强噪声复杂背景图像中的汉字定位方法的一种实施例的流程示意图。该示意图更详细、更具体的步骤包括步骤101至104,具体如下:步骤101:获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;背景图像为强噪音复杂背景图像。在本实施例中,通过编写网络爬虫程序,自动抓取大量图像,这些图像均为包含汉字的背景图,且均为强噪音复杂背景图像。本专利技术定义的强噪声复杂背景图像:在复杂背景下的强噪声图像。复杂背景本文档来自技高网...

【技术保护点】
1.一种强噪声复杂背景图像中的汉字定位方法,其特征在于,包括:/n获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;所述背景图像为强噪音复杂背景图像;/n以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别;/n获取待定位的第一背景图像,通过所述神经网络模型,调整所述第一背景图像的尺寸,并根据所述神经网络模型内设置的边框调整参数和默认边界框,确定所述第一背景图像的第一边界框集合;/n分别计算所述第一边界框集合内各边界框对应的置信度,并通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,以实现所述第一背景图像的汉字定位;其中,所述第一背景图像包含N个汉字,所述N个汉字分别一一对应所述N个边界框;N为正整数。/n

【技术特征摘要】
1.一种强噪声复杂背景图像中的汉字定位方法,其特征在于,包括:
获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;所述背景图像为强噪音复杂背景图像;
以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别;
获取待定位的第一背景图像,通过所述神经网络模型,调整所述第一背景图像的尺寸,并根据所述神经网络模型内设置的边框调整参数和默认边界框,确定所述第一背景图像的第一边界框集合;
分别计算所述第一边界框集合内各边界框对应的置信度,并通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,以实现所述第一背景图像的汉字定位;其中,所述第一背景图像包含N个汉字,所述N个汉字分别一一对应所述N个边界框;N为正整数。


2.根据权利要求1所述的强噪声复杂背景图像中的汉字定位方法,其特征在于,以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型,具体为:
构建初始模型,并以所述背景图像为输入,以矩形边界框和置信度为输出,对所述初始模型进行训练,调整并优化所述初始模型的尺寸调整参数、边框调整参数、重合度筛选参数、置信度计算参数,并根据优化后的参数,构建所述神经网络模型;
其中,所述尺寸调整参数用于供所述神经网络模型调整输入图像的尺寸;
所述边框调整参数用于供所述神经网络模型调整默认边界框的尺度和长宽比例;
所述重合度筛选参数用于供所述神经网络模型剔除高重合度的边界框;
所述置信度计算参数用于供所述神经网络模型计算每个边界框的置信度。


3.根据权利要求2所述的强噪声复杂背景图像中的汉字定位方法,其特征在于,所述通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,具体为:
根据所述第一边界框集合内各边界框对应的置信度,筛选出分数最高的边界框box1,使用IoU方法剔除与边界框box1重合度高于所述重合度筛选参数的边界框,再从剩余的边界框中选出分数最高的边界框box2,按照相同的方法进行剔除,直到选出N个边界框。


4.根据权利要求2所述的强噪声复杂背景图像中的汉字定位方法,其特征在于,所述神经网络模采用扩展后的图像数据进行训练,以便于进一...

【专利技术属性】
技术研发人员:蔡浩陈小明孙浩军张承钿姚浩生胡超刘正阳梁道远曾鑫白璐
申请(专利权)人:汕头大学广东叁玖捌大数据科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1