【技术实现步骤摘要】
一种字符识别方法及字符识别装置
本专利技术涉及模式识别中的文字识别
,特别涉及一种字符识别方法及字符识别装置。
技术介绍
字符识别,主要是识别图像上的中文字符或英文字符,通过拍照或者截取包含字符的图像,然后识别该图像中的字符内容,最后将识别该图像中的字符内容输出成可编辑的电子化文本。目前针对字符识别的技术主要有以下几种:第一种,用滑动窗口对目标图像进行切分,拿切分块和样本集进行对比识别,但是手写体样本多样、变化多,框体的大小不好确定;第二种,在用户手写输入的时候采集用户书写轨迹,通过判断轨迹走势识别手写字符,但是该方法只能识别用户现场书写的轨迹,无法对损失了用户书写轨迹的手写字符图像进行识别;第三种,通过传统的光学字符识别技术识别扫描仪扫描出的含有手写字符图像中的字符,但是目前智能手机拍出图像的清晰度相比扫描仪差很多,传统的光学字符识别技术对这种清晰度较差的图像上的手写字符进行识别。以上几种对字符识别的方法均有不足,不能一次性快速准确的将大篇幅的字符图像中的字符识别成电子化文本。
技术实现思路
有鉴于此,本申请提供一种字符识别方法及字符识别装置,以实现快速准确的 ...
【技术保护点】
一种字符识别方法,其特征在于,包括:获取包含待识别字符的图像;对所述图像进行区域分割并获取每个区域的文本块;依次将每个文本块同时输入到至少两个识别模块进行识别,其中:每个所述识别模块有一个置信度,且所述至少两个识别模块的置信度不同;当所述识别模块之间识别的结果不同时,以置信度高的识别模块的识别结果作为当前文本块的识别结果;将所有文本块的识别结果进行整合,得到对所述图像中字符识别的结果。
【技术特征摘要】
1.一种字符识别方法,其特征在于,包括:获取包含待识别字符的图像;对所述图像进行区域分割并获取每个区域的文本块;依次将每个文本块同时输入到至少两个识别模块进行识别,其中:每个所述识别模块有一个置信度,且所述至少两个识别模块的置信度不同;当所述识别模块之间识别的结果不同时,以置信度高的识别模块的识别结果作为当前文本块的识别结果;将所有文本块的识别结果进行整合,得到对所述图像中字符识别的结果。2.根据权利要求1所述的方法,其特征在于,在获取包含待识别字符的图像之后,还包括:当确定所述图像模糊时,重新获取包含待识别字符的图像;和/或,当确定所述图像发生了旋转时,将所述图像调整为正向;和/或,当确定所述图像对应的灰度图像需要进行灰度反转时,对所述灰度图像进行灰度反转。3.根据权利要求2所述的方法,其特征在于,确定所述图像模糊包括:通过梯度算子确定出所述图像中的第一字符边缘;检测所述第一字符边缘的像素点数量;若所述第一字符边缘的像素点数量小于预设阈值则确定所述图像模糊;或者,通过梯度算子确定出所述图像中的第一字符边缘;检测出第一像素点的第一灰度值和第一像素点数量,所述第一像素点为所述第一字符边缘所包含的像素点;根据第一灰度值确定第二灰度值,所述第一灰度值与所述第二灰度值之间的差值在第一阈值范围内;根据所述第二灰度值的像素点确定文字区域,通过梯度算子确定出所述文字区域中的字符边缘作为第二字符边缘,检测出第二字符边缘的第二像素点和第二像素点数量;当所述第一像素点数量与第二像素点数量的比值在第二阈值范围内时,确定所述图像模糊。4.根据权利要求2所述的方法,其特征在于,确定所述图像发生了旋转包括:对所述图像做二值化处理,确定所述图像上每个字符的外接框;确定所述外接框横向成组的行数和纵向成组的列数;以字符外接框的左上角为原点,横向向右为x轴,纵向向下为y轴;将外接框按y坐标聚成行,逐行依次检查相邻外接框,若相邻外接框偏移量大于外接框高度的一半,则认为原先的行已经结束,外接框开始新的一行;将字符外接框按x坐标聚成列,逐列依次检查相邻外接框,若相邻外接框偏移量大于外接框宽度的一半,则认为原先的列已经结束,外接框开始新的一列,得到所述外接框横向成组的行数和纵向成组的列数;当所述行数与所述列数的差值在第三阈值范围内时,确定所述图像发生了旋转。5.根据权利要求2所述的方法,其特征在于,确定所述图像对应的灰度图像需要进行灰度反转包括:获取所述图像对应的灰度图;将所述灰度图进行灰度反转得到反转后的灰度图;对所述灰度图和反转后的灰度图进行二值化处理,确定所述灰度图和反转后的灰度图的外接框数量,所述外接框用于外接所述图像对应的字符;当反转后的灰度图上外接框的数量大于所述灰度图上外接框的数量时,确定所述图像对应的灰度图需要进行灰度反转。6.根据权利要求1所述的方法,其特征在于,在依次将每个文本块同时输入到至少两个识别模块进行识别之前,还包括对所述至少两个识别模块进行训练。7.根据权利要求6所述的方法,其特征在于,对所述至少两个识别模块进行训练之前,还包括构造训练数据。8.根据权利要求7所述的方法,其特征在于,所述构造训练数据包括:获取原始图像,将所述原始图像作为原始训练数据;将所述原始图像在预设范围内旋转任意角度;或者在保留所述原始图像预定数量信息的基础上进行裁剪;或者模糊所述原始图像上字符的边缘;或者在所述原始图像中加入椒盐噪声(salt-and-peppernoise);或者降低所述原始图像的质量;或者扭曲并映射所述原始图像至一般四边形;或者在预设范围内平移所述原始图像;将上述变化后的原始图像随机选择组合生成新的训练数据。9.根据权利要求1所述的方法,其特征在于,所述至少两个识别模块包括卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块。10.一种字符识别装置,其特征在于,包括:获取模块,用于获取包含待识别字符的图像;分割模块,用于对所述图...
【专利技术属性】
技术研发人员:李云锦,杨晓庆,孙萌,王锐坚,赵玲玲,陈孟阳,阎鹏,邓澍军,郭常圳,
申请(专利权)人:北京粉笔未来科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。