文字识别方法和装置制造方法及图纸

技术编号:13448311 阅读:41 留言:0更新日期:2016-08-01 16:42
本发明专利技术的实施例提供了一种文字识别方法和装置。该文字识别方法包括:获取待识别图像;检测待识别图像,以获得包含文字的期望文字框;对期望文字框进行扩充和合并,以生成文字行;以及识别所生成的文字行中的文字。根据本发明专利技术实施例的文字识别方法和装置,通过将文字框扩充为文字行并针对文字行进行文字识别,可以避免字符间和字符内的混淆以及文字缺失现象。

【技术实现步骤摘要】
文字识别方法和装置
本专利技术涉及图像处理领域,更具体地涉及一种文字识别方法和装置。
技术介绍
由于机器识别文字能够带来巨大收益,市场对于文字识别有很大的需求。目前一般地对于文字识别采用的方法是,首先对图像进行分层扫描,获取初步的含有文字的文字框,然后再针对每个文字框获取对应的文字,这两步分别称为检测和识别。传统的文字识别方法具有以下缺陷:在检测过程中,同一行的文字常常有缺失现象,不能得到很好的解决,极大的影响了识别的效果。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种文字识别方法和装置。根据本专利技术一方面,提供了一种文字识别方法。该文字识别方法包括:获取待识别图像;检测所述待识别图像,以获得包含文字的期望文字框;对所述期望文字框进行扩充和合并,以生成文字行;以及识别所生成的文字行中的文字。示例性地,所述对所述期望文字框进行扩充和合并包括:步骤S231:确定所述期望文字框为初始文字框;步骤S232:利用训练好的反馈神经网络计算与每个初始文字框相对应的扩充文字框的端点坐标以及扩充置信度;步骤S233:将需要合并的扩充文字框进行合并,以生成新文字框,其中,每个新文字框的扩充置信度根据合并为该新文字框的扩充文字框的扩充置信度确定;步骤S234:根据所有新文字框的扩充置信度判断是否存在需要进一步扩充的新文字框,如果存在,则转至步骤S235,否则转至步骤S236;步骤S235:确定需要进一步扩充的新文字框为初始文字框并返回步骤S232;以及步骤S236:确定最后获得的文字框为所述文字行,其中,所述最后获得的文字框包括所述期望文字框、所述扩充文字框和所述新文字框中的一种或多种。示例性地,所述步骤S233包括:根据两个扩充文字框的相对角度和重叠程度判断是否需要合并所述两个扩充文字框,如果需要合并,则合并所述两个扩充文字框,以生成与所述两个扩充文字框相对应的新文字框。示例性地,所述合并所述两个扩充文字框包括:对所述两个扩充文字框的长宽、中心坐标以及倾斜角度进行加权平均,以生成与所述两个扩充文字框相对应的新文字框。示例性地,所述检测所述待识别图像以获得包含文字的期望文字框包括:从所述待识别图像中检测包含文字的初级文字框;以及对所述初级文字框的大小、位置和/或倾斜角度进行修正,以获得所述期望文字框。示例性地,在所述对所述初级文字框的大小、位置和/或倾斜角度进行修正以获得所述期望文字框之前,所述检测所述待识别图像以获得包含文字的期望文字框进一步包括:按照预定比例扩大所述初级文字框。示例性地,所述对所述初级文字框的大小、位置和/或倾斜角度进行修正以获得所述期望文字框包括:利用训练好的第一卷积神经网络计算所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度;根据所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度对所述初级文字框进行修正;以及根据经修正的初级文字框获得所述期望文字框。示例性地,所述根据经修正的初级文字框获得所述期望文字框包括:利用训练好的第二卷积神经网络计算所述经修正的初级文字框中存在文字的第一文字置信度;以及根据所述第一文字置信度对所述经修正的初级文字框进行过滤,以获得所述期望文字框。示例性地,所述从所述待识别图像中检测包含文字的初级文字框包括:利用基于滑动窗的卷积神经网络计算在所述待识别图像的图像块中存在文字的第二文字置信度;以及根据所述第二文字置信度选择其中存在文字的图像块作为所述初级文字框。示例性地,所述识别所生成的文字行中的文字包括:利用训练好的分割器对所述文字行进行拆分;以及利用训练好的文字分类器识别拆分后的文字行中的文字。根据本专利技术另一方面,提供了一种文字识别装置。该文字识别装置包括:图像获取模块,用于获取待识别图像;检测模块,用于检测所述待识别图像,以获得包含文字的期望文字框;文字行生成模块,用于对所述期望文字框进行扩充和合并,以生成文字行;以及识别模块,用于识别所生成的文字行中的文字。示例性地,文字行生成模块包括初始子模块、扩充子模块、合并子模块、判断子模块、第一确定子模块和第二确定子模块,所述初始子模块用于确定所述期望文字框为初始文字框;所述扩充子模块用于利用训练好的反馈神经网络计算与每个初始文字框相对应的扩充文字框的端点坐标以及扩充置信度;所述合并子模块用于将需要合并的扩充文字框进行合并,以生成新文字框,其中,每个新文字框的扩充置信度根据合并为该新文字框的扩充文字框的扩充置信度确定;所述判断子模块用于根据所有新文字框的扩充置信度判断是否存在需要进一步扩充的新文字框,如果存在,则启动所述第一确定子模块,否则启动所述第二确定子模块;所述第一确定子模块用于确定需要进一步扩充的新文字框为初始文字框并启动所述扩充子模块;第二确定子模块用于确定最后获得的文字框为所述文字行,其中,所述最后获得的文字框包括所述期望文字框、所述扩充文字框和所述新文字框中的一种或多种。示例性地,所述合并子模块包括合并判断单元,用于根据两个扩充文字框的相对角度和重叠程度判断是否需要合并所述两个扩充文字框,如果需要合并,则合并所述两个扩充文字框,以生成与所述两个扩充文字框相对应的新文字框。示例性地,所述检测模块包括:初级检测子模块,用于从所述待识别图像中检测包含文字的初级文字框;以及修正子模块,用于对所述初级文字框的大小、位置和/或倾斜角度进行修正,以获得所述期望文字框。示例性地,所述检测模块进一步包括扩大子模块,用于按照预定比例扩大所述初级文字框。示例性地,所述修正子模块包括:第一计算单元,用于利用训练好的第一卷积神经网络计算所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度;修正单元,用于根据所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度对所述初级文字框进行修正;以及期望文字框获得单元,用于根据经修正的初级文字框获得所述期望文字框。示例性地,所述期望文字框获得单元包括:计算子单元,用于利用训练好的第二卷积神经网络计算所述经修正的初级文字框中存在文字的第一文字置信度;以及过滤子单元,用于根据所述第一文字置信度对所述经修正的初级文字框进行过滤,以获得所述期望文字框。示例性地,所述初级检测子模块包括:第二计算单元,用于利用基于滑动窗的卷积神经网络计算在所述待识别图像的图像块中存在文字的第二文字置信度;以及选择单元,用于根据所述第二文字置信度选择其中存在文字的图像块作为所述初级文字框。示例性地,所述识别模块包括:拆分子模块,用于利用训练好的分割器对所述文字行进行拆分;以及识别子模块,用于利用训练好的文字分类器识别拆分后的文字行中的文字。根据本专利技术实施例的文字识别方法和装置,通过将文字框扩充为文字行并针对文字行进行文字识别,可以避免字符间和字符内的混淆以及文字缺失现象。附图说明通过结合附图对本专利技术实施例进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1示出用于实现根据本专利技术实施例的文字识别方法和装置的示例电子设备的示意性框图;图2示出根据本专利技术一个实施例本文档来自技高网...

【技术保护点】
一种文字识别方法,包括:获取待识别图像;检测所述待识别图像,以获得包含文字的期望文字框;对所述期望文字框进行扩充和合并,以生成文字行;以及识别所生成的文字行中的文字。

【技术特征摘要】
1.一种文字识别方法,包括:获取待识别图像;检测所述待识别图像,以获得包含文字的期望文字框;对所述期望文字框进行扩充和合并,以生成文字行;以及识别所生成的文字行中的文字;其中,所述对所述期望文字框进行扩充和合并包括:步骤S231:确定所述期望文字框为初始文字框;步骤S232:利用训练好的反馈神经网络计算与每个初始文字框相对应的扩充文字框的端点坐标以及扩充置信度;步骤S233:将需要合并的扩充文字框进行合并,以生成新文字框,其中,每个新文字框的扩充置信度根据合并为该新文字框的扩充文字框的扩充置信度确定;步骤S234:根据所有新文字框的扩充置信度判断是否存在需要进一步扩充的新文字框,如果存在,则转至步骤S235,否则转至步骤S236;步骤S235:确定需要进一步扩充的新文字框为初始文字框并返回步骤S232;以及步骤S236:确定最后获得的文字框为所述文字行,其中,所述最后获得的文字框包括所述期望文字框、所述扩充文字框和所述新文字框中的一种或多种。2.如权利要求1所述的文字识别方法,其中,所述步骤S233包括:根据两个扩充文字框的相对角度和重叠程度判断是否需要合并所述两个扩充文字框,如果需要合并,则合并所述两个扩充文字框,以生成与所述两个扩充文字框相对应的新文字框。3.如权利要求2所述的文字识别方法,其中,所述合并所述两个扩充文字框包括:对所述两个扩充文字框的长宽、中心坐标以及倾斜角度进行加权平均,以生成与所述两个扩充文字框相对应的新文字框。4.如权利要求1所述的文字识别方法,其中,所述检测所述待识别图像以获得包含文字的期望文字框包括:从所述待识别图像中检测包含文字的初级文字框;以及对所述初级文字框的大小、位置和/或倾斜角度进行修正,以获得所述期望文字框。5.如权利要求4所述的文字识别方法,其中,在所述对所述初级文字框的大小、位置和/或倾斜角度进行修正以获得所述期望文字框之前,所述检测所述待识别图像以获得包含文字的期望文字框进一步包括:按照预定比例扩大所述初级文字框。6.如权利要求4或5所述的文字识别方法,其中,所述对所述初级文字框的大小、位置和/或倾斜角度进行修正以获得所述期望文字框包括:利用训练好的第一卷积神经网络计算所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度;根据所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度对所述初级文字框进行修正;以及根据经修正的初级文字框获得所述期望文字框。7.如权利要求6所述的文字识别方法,其中,所述根据经修正的初级文字框获得所述期望文字框包括:利用训练好的第二卷积神经网络计算所述经修正的初级文字框中存在文字的第一文字置信度;以及根据所述第一文字置信度对所述经修正的初级文字框进行过滤,以获得所述期望文字框。8.如权利要求4所述的文字识别方法,其中,所述从所述待识别图像中检测包含文字的初级文字框包括:利用基于滑动窗的卷积神经网络计算在所述待识别图像的图像块中存在文字的第二文字置信度;以及根据所述第二文字置信度选择其中存在文字的图像块作为所述初级文字框。9.如权利要求1所述的文字识别方法,其中,所述识别所生成的文字行中的文字包括:利用训练好的分割器对所述文字行进行拆分;以及利用训练好的文字分类器识别拆...

【专利技术属性】
技术研发人员:张逸玮张弛印奇
申请(专利权)人:北京旷视科技有限公司北京小孔科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1