一种繁体字的识别方法及装置制造方法及图纸

技术编号:14514822 阅读:31 留言:0更新日期:2017-02-01 16:14
本发明专利技术公开了一种繁体字的识别方法及装置。所述方法包括:获取待检测的目标图片;确定所述目标图片中的预设文字区域;根据所述预设文字区域中的每个像素点的像素值确定所述预设文字区域中的至少一个繁体字;识别所述至少一个繁体字,并确定所述至少一个繁体字的识别精度;当所述识别精度低于预设识别精度时,将所述至少一个繁体字中的第一目标繁体字提示给用户,其中,所述第一目标繁体字的识别错误率高于预设错误率。通过本发明专利技术的技术方案,提高图片中的繁体字的识别正确率和精度。

【技术实现步骤摘要】

本专利技术涉及繁体字
,特别涉及一种繁体字的识别方法及装置。
技术介绍
众所周知,港澳台频道是一些很难处理的频道,除了节目中事繁多,同一个事件中标题名称多变外,识别出节目中每张图片的繁体字也很困难。这也是严重影响其新闻拆条(简称:闪编)速度和正确率的因素。而目前识别每张图片的繁体字的方法为:1.正确识别出图片上的繁体字的位置;2.正确识别出繁体字的所有笔画。但是这两步骤的精度都达不到实用的程度。
技术实现思路
本专利技术提供一种繁体字的识别方法及装置,用以提高图片中的繁体字的识别正确率和精度。本专利技术提供一种繁体字的识别方法,包括:获取待检测的目标图片;确定目标图片中的预设文字区域;根据所述预设文字区域中的每个像素点的像素值确定所述预设文字区域中的至少一个繁体字;识别所述至少一个繁体字,并确定所述至少一个繁体字的识别精度;当所述识别精度低于预设识别精度时,将所述至少一个繁体字中的第一目标繁体字提示给用户,其中,所述第一目标繁体字的识别错误率高于预设错误率。在一个实施例中,当所述识别精度大于或等于预设识别精度时,将所述至少一个繁体字与所述目标图片进行对应存储。在一个实施例中,所述方法还包括:预测与所述第一目标繁体字相对应的目标简体字;将所述目标简体字转化为第二目标繁体字;判断所述第二目标繁体字与所述第一目标繁体字是否匹配;当所述第二目标繁体字与所述第一目标繁体字相匹配时,判定预测出的所述目标简体字正确,并将所述第二目标繁体字和所述至少一个繁体字中的其他繁体字与所述目标图片进行对应存储;否则,判定预测出的所述目标简体字错误,并重新预测所述目标简体字。在一个实施例中,所述根据所述预设文字区域中的每个像素点的像素值确定所述预设文字区域中的至少一个繁体字,包括:判断每个所述像素点的像素值是否在预设像素值范围内;确定像素值在所述预设像素值范围内的目标像素点;根据所述目标像素点确定所述至少一个繁体字。在一个实施例中,所述识别所述至少一个繁体字,包括:确定所述至少一个繁体字中的每个所述繁体字的笔画;将每个所述繁体字的笔画与字体模板库中的第三目标繁体字的笔画进行匹配,以识别出每个所述繁体字。本专利技术还提供一种繁体字的识别装置,包括:获取模块,用于获取待检测的目标图片;第一确定模块,用于确定目标图片中的预设文字区域;第二确定模块,用于根据所述预设文字区域中的每个像素点的像素值确定所述预设文字区域中的至少一个繁体字;识别模块,用于识别所述至少一个繁体字;第三确定模块,用于确定所述至少一个繁体字的识别精度;提示模块,用于当所述识别精度低于预设识别精度时,将所述至少一个繁体字中的第一目标繁体字提示给用户,其中,所述第一目标繁体字的识别错误率高于预设错误率。在一个实施例中,所述装置还包括:存储模块,用于当所述识别精度大于或等于预设识别精度时,将所述至少一个繁体字与所述目标图片进行对应存储。在一个实施例中,所述装置还包括:预测模块,用于预测与所述第一目标繁体字相对应的目标简体字;转化模块,用于将所述目标简体字转化为第二目标繁体字;判断模块,用于判断所述第二目标繁体字与所述第一目标繁体字是否匹配;处理模块,用于当所述第二目标繁体字与所述第一目标繁体字相匹配时,判定预测出的所述目标简体字正确,并将所述第二目标繁体字和所述至少一个繁体字中的其他繁体字与所述目标图片进行对应存储;否则,判定预测出的所述目标简体字错误,并重新预测所述目标简体字。在一个实施例中,所述第二确定模块包括:判断子模块,用于判断每个所述像素点的像素值是否在预设像素值范围内;第一确定子模块,用于确定像素值在所述预设像素值范围内的目标像素点;第二确定子模块,用于根据所述目标像素点确定所述至少一个繁体字。在一个实施例中,所述识别模块包括:第三确定子模块,用于确定所述至少一个繁体字中的每个所述繁体字的笔画;匹配子模块,用于将每个所述繁体字的笔画与字体模板库中的第三目标繁体字的笔画进行匹配,以识别出每个所述繁体字。本公开的实施例提供的技术方案可以包括以下有益效果:在确定待检测的目标图片的预设文字区域中的至少一个繁体字,可以自动识别该至少一个繁体字并确定这些繁体字的识别精度,然后自动定位出识别精度较低的这些繁体字中的识别错误率较高的第一目标繁体字,并提示给用户,以避免人工确定这些第一目标繁体字,有助于减少人力,提高用户的体验。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是根据一示例性实施例示出的一种繁体字的识别方法的流程图。图2是根据一示例性实施例示出的另一种繁体字的识别方法的流程图。图3是根据一示例性实施例示出的又一种繁体字的识别方法的流程图。图4是根据一示例性实施例示出的再一种繁体字的识别方法的流程图。图5是根据一示例性实施例示出的一种繁体字的识别装置的框图。图6是根据一示例性实施例示出的另一种繁体字的识别装置的框图。图7是根据一示例性实施例示出的又一种繁体字的识别装置的框图。图8是根据一示例性实施例示出的再一种繁体字的识别装置的框图。图9是根据一示例性实施例示出的再一种繁体字的识别装置的框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。相关技术中,识别出港澳台节目中每张图片的繁体字也很困难。这也是严重影响其新闻拆条(简称:闪编)速度和正确率的因素。而目前识别每张图片的繁体字的方法为:1.正确识别出图片上的繁体字的位置;2.正确识别出繁体字的所有笔画。但是这两步骤的精度都达不到实用的程度。为了解决上述技术问题,本公开实施例提供了一种繁体字的识别方法,该方法适用于繁体字的识别程序、系统或装置中,如图1所示,步骤S101,获取待检测的目标图片;其中,该目标图片是从港澳台节目、新闻或广告视频中选取出的图片。步骤S102,确定目标图片中的预设文字区域;一张目标图片中的预设文字区域一般是固定的,如新闻图片中标题所在的文字区域通常为该目标图片的最下面1/3处的区域位置。步骤S103,根据预设文字区域中的每个像素点的像素值确定预设文字区域中的至少一个繁体字;由于预设文字区域周围可能存在其他图形(如台标或黑框等),但字体的像素值与图像的像素值是不同的,因此,通过根据该预设文字区域中的每个像素点的像素值可以确定该像素点为字体的像素点还是其他图像的像素点,从而确定该预设文字区域所包含的至少一个繁体字。步骤S104,识别至少一个繁体字,并确定至少一个繁体字的识别精度;在识别出目标图片中的繁体字时,通常是先逐步识别出预设文字区域中代表字体的像素点所组成笔画,然后根据识别出的笔画来具体确定这些繁体字。而确定这些繁体字的识别精度,则可以判断该识别精度是否达标,以便于后期进一步提高这些繁体字的识别精度。而这些繁体字的识别精度取决本文档来自技高网...

【技术保护点】
一种繁体字的识别方法,其特征在于,包括:获取待检测的目标图片;确定所述目标图片中的预设文字区域;根据所述预设文字区域中的每个像素点的像素值确定所述预设文字区域中的至少一个繁体字;识别所述至少一个繁体字,并确定所述至少一个繁体字的识别精度;当所述识别精度低于预设识别精度时,将所述至少一个繁体字中的第一目标繁体字提示给用户,其中,所述第一目标繁体字的识别错误率高于预设错误率。

【技术特征摘要】
1.一种繁体字的识别方法,其特征在于,包括:获取待检测的目标图片;确定所述目标图片中的预设文字区域;根据所述预设文字区域中的每个像素点的像素值确定所述预设文字区域中的至少一个繁体字;识别所述至少一个繁体字,并确定所述至少一个繁体字的识别精度;当所述识别精度低于预设识别精度时,将所述至少一个繁体字中的第一目标繁体字提示给用户,其中,所述第一目标繁体字的识别错误率高于预设错误率。2.根据权利要求1所述的方法,其特征在于,当所述识别精度大于或等于预设识别精度时,将所述至少一个繁体字与所述目标图片进行对应存储。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:预测与所述第一目标繁体字相对应的目标简体字;将所述目标简体字转化为第二目标繁体字;判断所述第二目标繁体字与所述第一目标繁体字是否匹配;当所述第二目标繁体字与所述第一目标繁体字相匹配时,判定预测出的所述目标简体字正确,并将所述第二目标繁体字和所述至少一个繁体字中的其他繁体字与所述目标图片进行对应存储;否则,判定预测出的所述目标简体字错误,并重新预测所述目标简体字。4.根据权利要求1所述的方法,其特征在于,所述根据所述预设文字区域中的每个像素点的像素值确定所述预设文字区域中的至少一个繁体字,包括:判断每个所述像素点的像素值是否在预设像素值范围内;确定像素值在所述预设像素值范围内的目标像素点;根据所述目标像素点确定所述至少一个繁体字。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述识别所述至少一个繁体字,包括:确定所述至少一个繁体字中的每个所述繁体字的笔画;将每个所述繁体字的笔画与字体模板库中的第三目标繁体字的笔画进行匹配,以识别出每个所述繁体字。6.一种繁体字的识别装置,其特征在于,包括:获取模块,用于获取待检测的目标图片;第一确定模块,用于...

【专利技术属性】
技术研发人员:胡东方
申请(专利权)人:无锡天脉聚源传媒科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1