一种字符识别方法及装置制造方法及图纸

技术编号:14479667 阅读:111 留言:0更新日期:2017-01-25 12:20
本发明专利技术公开了一种字符识别方法及装置,用以降低字符像素值较低对识别效果造成的影响,提高识别的准确率。所述方法包括:在视频播放过程中截取视频帧;将所述截取到的视频帧转换为灰度图;确定所述灰度图中的字符区域;当所述字符区域的像素值小于所述字符区域的相邻区域的像素值时,将所述灰度图进行反色处理;当所述字符区域的像素值大于所述字符区域的相邻区域的像素值时,确定所述字符区域中每一个字符对应的子区域;识别所述子区域中的字符。采用本发明专利技术所提供的方法,能够使字符区域的像素值大于字符区域的相邻区域的像素值,从而降低了字符像素值较低对识别效果造成的影响,提高了识别的准确率。

【技术实现步骤摘要】

本专利技术涉及图像处理
,特别涉及一种字符识别方法及装置
技术介绍
随着各类拍摄设备的普及以及视频技术的飞速发展,互联网上的视频数量和传播速度出现了爆炸式的增长。视频中出现的字符,如视频标题、字幕等,携带大量信息,对视频内容的理解有着重要作用。现有技术中,出现了一些自动识别视频中出现的字符的技术,来提高对视频信息的收集速率。然而,受限于视频中可能出现的字符像素值较低的情况,采用现有的识别技术,识别效果并不理想。因而,如何降低字符像素值较低而对识别效果造成的影响,提高识别的准确率,是一亟待解决的技术问题。
技术实现思路
本专利技术提供一种字符识别方法及装置,用以降低字符像素值较低对识别效果造成的影响,提高识别的准确率。本专利技术提供一种字符识别方法,包括:在视频播放过程中截取视频帧;将所述截取到的视频帧转换为灰度图;确定所述灰度图中的字符区域;当所述字符区域的像素值小于所述字符区域的相邻区域的像素值时,将所述灰度图进行反色处理;当所述字符区域的像素值大于所述字符区域的相邻区域的像素值时,确定所述字符区域中每一个字符对应的子区域;识别所述子区域中的字符。本专利技术的有益效果在于:在确定灰度图中的字符区域之后,如果字符区域的像素值小于字符区域的相邻区域的像素值时,将灰度图进行反色处理,以使字符区域的像素值大于字符区域的相邻区域的像素值,从而降低了字符像素值较低对识别效果造成的影响,提高了识别的准确率。在一个实施例中,所述确定所述灰度图中的字符区域,包括:获得所述灰度图的边缘图;对所述边缘图进行二值化处理,以使所述边缘图的所有边缘的像素点都变为白色像素点;对所述边缘进行角点检测,以得到所述边缘图上存在角点信息的区域;将不存在角点信息的边缘中的白色像素点转换为黑色像素点;将剩余的白色像素点中距离小于预设距离阈值的白色像素点所在的区域进行合并;确定所述合并后的区域为字符区域。本实施例的有益效果在于:获得灰度图的边缘图,减少了图像的数据量,使图像中各个对象的轮廓更加明显;通过对边缘图进行二值化处理,以使图像呈现出更加明显的黑白效果,进一步凸显了图像中各个对象的轮廓,更加易于对字符的识别。在一个实施例中,当合并后的区域为多个时,所述确定所述合并后的区域为字符区域,包括:获取各个合并后的区域的面积;确定面积大于第一面积阈值且小于第二面积阈值的合并后的区域为字符区域。本实施例的有益效果在于:通过设置第一面积阈值和第二面积阈值,能够将面积过大和过小的区域排除,简化了字符区域的确定过程。在一个实施例中,在确定所述灰度图中的字符区域之后,所述方法还包括:将所述字符区域中的所有像素值进行聚类处理得到所述字符区域的所有像素值对应的两个聚类中心;获取与所述字符区域相邻的像素点的值;当与所述字符区域相邻的像素点的值与所述两个聚类中心中较大值接近时,确定所述字符区域的像素值小于所述字符区域的相邻区域的像素值;当与所述字符区域相邻的像素点的值与所述两个聚类中心中较小值接近时,确定所述字符区域的像素值大于所述字符区域的相邻区域的像素值。本实施例的有益效果在于:通过聚类处理,能够将字符区域内的像素点分成像素值较高的一类像素点与像素值较低的一类像素点,从而,能够与字符区域相邻区域中的像素点的值做整体比对,简化了比对过程。在一个实施例中,所述确定所述字符区域中每一个字符对应的子区域,包括:识别所述字符区域中白色像素点形成的多个连通区域;通过多个矩形框标识所述连通区域,其中,每个连通区域对应一个矩形框;将长和宽不满足预设比例阈值的相邻矩形框合并为同一矩形框;确定满足预设比例阈值的矩形框为一个字符对应的子区域。本实施例的有益效果在于:通过识别字符区域中白色像素点形成的连通区域来确定单个字符对应的子区域,将长和宽不满足预设比例阈值的相邻矩形合并为同一矩形区域,避免将上下结构或左右结构的文字误识别为两个字符。本专利技术还提供一种字符识别装置,包括:截取模块,用于在视频播放过程中截取视频帧;转换模块,将所述截取到的视频帧转换为灰度图;第一确定模块,用于确定所述灰度图中的字符区域;第一处理模块,用于当所述字符区域的像素值小于所述字符区域的相邻区域的像素值时,将所述灰度图进行反色处理;第二确定模块,用于当所述字符区域的像素值大于所述字符区域的相邻区域的像素值时,确定所述字符区域中每一个字符对应的子区域;识别模块,用于识别所述子区域中的字符。在一个实施例中,所述第一确定模块,包括:获得子模块,用于获得所述灰度图的边缘图;处理子模块,用于对所述边缘图进行二值化处理,以使所述边缘图的所有边缘的像素点都变为白色像素点;检测子模块,用于对所述边缘进行角点检测,以得到所述边缘图上存在角点信息的区域;转换子模块,用于将不存在角点信息的边缘中的白色像素点转换为黑色像素点;第一合并子模块,用于将剩余的白色像素点中距离小于预设距离阈值的白色像素点所在的区域进行合并;第一确定子模块,用于确定所述合并后的区域为字符区域。在一个实施例中,所述第一确定子模块,包括:当合并后的区域为多个时,获取各个合并后的区域的面积;确定面积大于第一面积阈值且小于第二面积阈值的合并后的区域为字符区域。在一个实施例中,所述装置还包括:第二处理模块,用于在确定所述灰度图中的字符区域之后,将所述字符区域中的所有像素值进行聚类处理得到所述字符区域的所有像素值对应的两个聚类中心;获取模块,用于获取与所述字符区域相邻的像素点的值;第三确定模块,用于当与所述字符区域相邻的像素点的值与所述两个聚类中心中较大值接近时,确定所述字符区域的像素值小于所述字符区域的相邻区域的像素值;第四确定模块,用于当与所述字符区域相邻的像素点的值与所述两个聚类中心中较小值接近时,确定所述字符区域的像素值大于所述字符区域的相邻区域的像素值。在一个实施例中,所述第二确定模块,包括:识别子模块,用于识别所述字符区域中白色像素点形成的多个连通区域;标识子模块,用于通过多个矩形框标识所述连通区域,其中,每个连通区域对应一个矩形框;第二合并子模块,用于将长和宽不满足预设比例阈值的相邻矩形框合并为同一矩形框;第二确定子模块,用于确定满足预设比例阈值的矩形框为一个字符对应的子区域。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术一实施例中字符识别方法的流程图;图2为本专利技术一实施例中字符识别方法的流程图;图3为本专利技术一实施例中字符识别方法的框图;图4为本专利技术一实施例中字符识别方法的框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。图1为本专利技术一实施例中字符识别方法的流程图,该方法可被实施为以下步骤S101-S106:在步骤S101中,在视频播放过程中截取视频帧;在步骤S102中,将截取到的视频帧转换为灰度图;在步骤S1本文档来自技高网...
一种字符识别方法及装置

【技术保护点】
一种字符识别方法,其特征在于,包括:在视频播放过程中截取视频帧;将所述截取到的视频帧转换为灰度图;确定所述灰度图中的字符区域;当所述字符区域的像素值小于所述字符区域的相邻区域的像素值时,将所述灰度图进行反色处理;当所述字符区域的像素值大于所述字符区域的相邻区域的像素值时,确定所述字符区域中每一个字符对应的子区域;识别所述子区域中的字符。

【技术特征摘要】
1.一种字符识别方法,其特征在于,包括:在视频播放过程中截取视频帧;将所述截取到的视频帧转换为灰度图;确定所述灰度图中的字符区域;当所述字符区域的像素值小于所述字符区域的相邻区域的像素值时,将所述灰度图进行反色处理;当所述字符区域的像素值大于所述字符区域的相邻区域的像素值时,确定所述字符区域中每一个字符对应的子区域;识别所述子区域中的字符。2.如权利要求1所述的方法,其特征在于,所述确定所述灰度图中的字符区域,包括:获得所述灰度图的边缘图;对所述边缘图进行二值化处理,以使所述边缘图的所有边缘的像素点都变为白色像素点;对所述边缘进行角点检测,以得到所述边缘图上存在角点信息的区域;将不存在角点信息的边缘中的白色像素点转换为黑色像素点;将剩余的白色像素点中距离小于预设距离阈值的白色像素点所在的区域进行合并;确定所述合并后的区域为字符区域。3.如权利要求2所述的方法,其特征在于,当合并后的区域为多个时,所述确定所述合并后的区域为字符区域,包括:获取各个合并后的区域的面积;确定面积大于第一面积阈值且小于第二面积阈值的合并后的区域为字符区域。4.如权利要求1所述的方法,其特征在于,在确定所述灰度图中的字符区域之后,所述方法还包括:将所述字符区域中的所有像素值进行聚类处理得到所述字符区域的所有像素值对应的两个聚类中心;获取与所述字符区域相邻的像素点的值;当与所述字符区域相邻的像素点的值与所述两个聚类中心中较大值接近时,确定所述字符区域的像素值小于所述字符区域的相邻区域的像素值;当与所述字符区域相邻的像素点的值与所述两个聚类中心中较小值接近时,确定所述字符区域的像素值大于所述字符区域的相邻区域的像素值。5.如权利要求1所述的方法,其特征在于,所述确定所述字符区域中每一个字符对应的子区域,包括:识别所述字符区域中白色像素点形成的多个连通区域;通过多个矩形框标识所述连通区域,其中,每个连通区域对应一个矩形框;将长和宽不满足预设比例阈值的相邻矩形框合并为同一矩形框;确定满足预设比例阈值的矩形框为一个字符对应的子区域。6.一种字符识别装置,其特征在于,包括:截取模块,用于在视频播放过程中截取视频帧;转换模块,将所述截取到的视频帧转换为灰度图;第一确定模块,...

【专利技术属性】
技术研发人员:刘帅
申请(专利权)人:无锡天脉聚源传媒科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1