文字识别方法和装置制造方法及图纸

技术编号：13448311 阅读：41 留言：0更新日期：2016-08-01 16:42

本发明专利技术的实施例提供了一种文字识别方法和装置。该文字识别方法包括：获取待识别图像；检测待识别图像，以获得包含文字的期望文字框；对期望文字框进行扩充和合并，以生成文字行；以及识别所生成的文字行中的文字。根据本发明专利技术实施例的文字识别方法和装置，通过将文字框扩充为文字行并针对文字行进行文字识别，可以避免字符间和字符内的混淆以及文字缺失现象。

全部详细技术资料下载

【技术实现步骤摘要】
文字识别方法和装置
本专利技术涉及图像处理领域，更具体地涉及一种文字识别方法和装置。
技术介绍
由于机器识别文字能够带来巨大收益，市场对于文字识别有很大的需求。目前一般地对于文字识别采用的方法是，首先对图像进行分层扫描，获取初步的含有文字的文字框，然后再针对每个文字框获取对应的文字，这两步分别称为检测和识别。传统的文字识别方法具有以下缺陷：在检测过程中，同一行的文字常常有缺失现象，不能得到很好的解决，极大的影响了识别的效果。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种文字识别方法和装置。根据本专利技术一方面，提供了一种文字识别方法。该文字识别方法包括：获取待识别图像；检测所述待识别图像，以获得包含文字的期望文字框；对所述期望文字框进行扩充和合并，以生成文字行；以及识别所生成的文字行中的文字。示例性地，所述对所述期望文字框进行扩充和合并包括：步骤S231：确定所述期望文字框为初始文字框；步骤S232：利用训练好的反馈神经网络计算与每个初始文字框相对应的扩充文字框的端点坐标以及扩充置信度；步骤S233：将需要合并的扩充文字框进行合并，以生成新文字框，其中，每个新文字框的扩充置信度根据合并为该新文字框的扩充文字框的扩充置信度确定；步骤S234：根据所有新文字框的扩充置信度判断是否存在需要进一步扩充的新文字框，如果存在，则转至步骤S235，否则转至步骤S236；步骤S235：确定需要进一步扩充的新文字框为初始文字框并返回步骤S232；以及步骤S236：确定最后获得的文字框为所述文字行，其中，所述最后获得的文字框包括所述期望文字框、所述扩充文字...

【技术保护点】
一种文字识别方法，包括：获取待识别图像；检测所述待识别图像，以获得包含文字的期望文字框；对所述期望文字框进行扩充和合并，以生成文字行；以及识别所生成的文字行中的文字。

【技术特征摘要】
1.一种文字识别方法，包括：获取待识别图像；检测所述待识别图像，以获得包含文字的期望文字框；对所述期望文字框进行扩充和合并，以生成文字行；以及识别所生成的文字行中的文字；其中，所述对所述期望文字框进行扩充和合并包括：步骤S231：确定所述期望文字框为初始文字框；步骤S232：利用训练好的反馈神经网络计算与每个初始文字框相对应的扩充文字框的端点坐标以及扩充置信度；步骤S233：将需要合并的扩充文字框进行合并，以生成新文字框，其中，每个新文字框的扩充置信度根据合并为该新文字框的扩充文字框的扩充置信度确定；步骤S234：根据所有新文字框的扩充置信度判断是否存在需要进一步扩充的新文字框，如果存在，则转至步骤S235，否则转至步骤S236；步骤S235：确定需要进一步扩充的新文字框为初始文字框并返回步骤S232；以及步骤S236：确定最后获得的文字框为所述文字行，其中，所述最后获得的文字框包括所述期望文字框、所述扩充文字框和所述新文字框中的一种或多种。2.如权利要求1所述的文字识别方法，其中，所述步骤S233包括：根据两个扩充文字框的相对角度和重叠程度判断是否需要合并所述两个扩充文字框，如果需要合并，则合并所述两个扩充文字框，以生成与所述两个扩充文字框相对应的新文字框。3.如权利要求2所述的文字识别方法，其中，所述合并所述两个扩充文字框包括：对所述两个扩充文字框的长宽、中心坐标以及倾斜角度进行加权平均，以生成与所述两个扩充文字框相对应的新文字框。4.如权利要求1所述的文字识别方法，其中，所述检测所述待识别图像以获得包含文字的期望文字框包括：从所述待识别图像中检测包含文字的初级文字框；以及对所述初级文字框的大小、位置和/或倾斜角度进行修正，以获得所述期望文字框。5.如权利要求4所述的文字识别方法，其中，在所述对所述初级文字框的大小、位置和/或倾斜角度进行修正以获得所述期望文字框之前，所述检测所述待识别图像以获得包含文字的期望文字框进一步包括：按照预定比例扩大所述初级文字框。6.如权利要求4或5所述的文字识别方法，其中，所述对所述初级文字框的大小、位置和/或倾斜角度进行修正以获得所述期望文字框包括：利用训练好的第一卷积神经网络计算所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度；根据所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度对所述初级文字框进行修正；以及根据经修正的初级文字框获得所述期望文字框。7.如权利要求6所述的文字识别方法，其中，所述根据经修正的初级文字框获得所述期望文字框包括：利用训练好的第二卷积神经网络计算所述经修正的初级文字框中存在文字的第一文字置信度；以及根据所述第一文字置信度对所述经修正的初级文字框进行过滤，以获得所述期望文字框。8.如权利要求4所述的文字识别方法，其中，所述从所述待识别图像中检测包含文字的初级文字框包括：利用基于滑动窗的卷积神经网络计算在所述待识别图像的图像块中存在文字的第二文字置信度；以及根据所述第二文字置信度选择其中存在文字的图像块作为所述初级文字框。9.如权利要求1所述的文字识别方法，其中，所述识别所生成的文字行中的文字包括：利用训练好的分割器对所述文字行进行拆分；以及利用训练好的文字分类器识别拆...

【专利技术属性】
技术研发人员：张逸玮，张弛，印奇，
申请(专利权)人：北京旷视科技有限公司，北京小孔科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人