The invention discloses a method for positioning and recognition of Chinese characters in a strong noise and complex background image, the positioning method includes: first collecting a strong noise and complex background image containing Chinese characters, then constructing a neural network model according to the collected data samples, and training and optimizing the parameters of the neural network model; for the first background image to be positioned, the trained neural network is used The model adjusts its size, and filters out the corresponding first bounding box set and the corresponding confidence of each bounding box. According to the confidence, it filters out the corresponding bounding box of each Chinese character to realize the positioning of Chinese characters. The technical scheme of the invention can improve the accuracy of Chinese character positioning and recognition in the strong noise and complex background image.
【技术实现步骤摘要】
一种强噪声复杂背景图像中的汉字定位及识别方法
本专利技术涉及计算机
,尤其涉及一种强噪声复杂背景图像中的汉字定位及识别方法。
技术介绍
自动识别图像、视频中的文字的计算机技术,具有广阔的应用场景,如在物流行业中,将物流快递运单进行快速扫描成像和自动识别,并提取出物流运单上的有效信息;在教育行业中,将图片中的文字信息转换为可编辑的Word文档;在安防行业中,对视频中出现的车牌等信息进行识别和提取。在进行文字识别前需要先对图像中的文字进行定位,传统的OCR技术能够实现汉字的定位和识别,但是在具有复杂背景和变形文字的强噪声图片上,其识别效果并不理想,准确率较低,无法应用到具体的场景或行业中。
技术实现思路
本专利技术实施例提出一种强噪声复杂背景图像中的汉字定位及识别方法,能提高在强噪声复杂背景图像中汉字定位及识别的准确性。本专利技术实施例提供一种强噪声复杂背景图像中的汉字定位方法,包括:获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;所述背景图像为强噪音复杂背景图像;以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别;获取待定位的第一背景图像,通过所述神经网络模型,调整所述第一背景图像的尺寸,并根据所述神经网络模型内设置的边框调整参数和默认边界框,确定所述第一背景图像的第一边界框集合;分别计算所述第一边界框集合内各边界框对应的置信度,并通过 ...
【技术保护点】
1.一种强噪声复杂背景图像中的汉字定位方法,其特征在于,包括:/n获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;所述背景图像为强噪音复杂背景图像;/n以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别;/n获取待定位的第一背景图像,通过所述神经网络模型,调整所述第一背景图像的尺寸,并根据所述神经网络模型内设置的边框调整参数和默认边界框,确定所述第一背景图像的第一边界框集合;/n分别计算所述第一边界框集合内各边界框对应的置信度,并通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,以实现所述第一背景图像的汉字定位;其中,所述第一背景图像包含N个汉字,所述N个汉字分别一一对应所述N个边界框;N为正整数。/n
【技术特征摘要】
1.一种强噪声复杂背景图像中的汉字定位方法,其特征在于,包括:
获取若干个包含汉字的背景图像,其中,每个汉字分别设置在其对应预设的矩形边界框内;所述背景图像为强噪音复杂背景图像;
以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型;其中,每个矩形边界框对应一个置信度,每个置信度对应一个汉字类别;
获取待定位的第一背景图像,通过所述神经网络模型,调整所述第一背景图像的尺寸,并根据所述神经网络模型内设置的边框调整参数和默认边界框,确定所述第一背景图像的第一边界框集合;
分别计算所述第一边界框集合内各边界框对应的置信度,并通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,以实现所述第一背景图像的汉字定位;其中,所述第一背景图像包含N个汉字,所述N个汉字分别一一对应所述N个边界框;N为正整数。
2.根据权利要求1所述的强噪声复杂背景图像中的汉字定位方法,其特征在于,以所述背景图像为输入,以矩形边界框和置信度为输出,构建神经网络模型,具体为:
构建初始模型,并以所述背景图像为输入,以矩形边界框和置信度为输出,对所述初始模型进行训练,调整并优化所述初始模型的尺寸调整参数、边框调整参数、重合度筛选参数、置信度计算参数,并根据优化后的参数,构建所述神经网络模型;
其中,所述尺寸调整参数用于供所述神经网络模型调整输入图像的尺寸;
所述边框调整参数用于供所述神经网络模型调整默认边界框的尺度和长宽比例;
所述重合度筛选参数用于供所述神经网络模型剔除高重合度的边界框;
所述置信度计算参数用于供所述神经网络模型计算每个边界框的置信度。
3.根据权利要求2所述的强噪声复杂背景图像中的汉字定位方法,其特征在于,所述通过所述神经网络模型,从所述第一边界框集合中筛选出N个边界框,具体为:
根据所述第一边界框集合内各边界框对应的置信度,筛选出分数最高的边界框box1,使用IoU方法剔除与边界框box1重合度高于所述重合度筛选参数的边界框,再从剩余的边界框中选出分数最高的边界框box2,按照相同的方法进行剔除,直到选出N个边界框。
4.根据权利要求2所述的强噪声复杂背景图像中的汉字定位方法,其特征在于,所述神经网络模采用扩展后的图像数据进行训练,以便于进一...
【专利技术属性】
技术研发人员:蔡浩,陈小明,孙浩军,张承钿,姚浩生,胡超,刘正阳,梁道远,曾鑫,白璐,
申请(专利权)人:汕头大学,广东叁玖捌大数据科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。