一种文字识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:20177701 阅读:23 留言:0更新日期:2019-01-23 00:39
本发明专利技术公开一种文字识别方法、装置及服务器,在所述文字识别方法中,获取待识别图像,所述待识别图像中包含有不成行排列的多个待识别文字,根据所述待识别图像,生成所述多个待识别文字成行排列的目标图像,将目标图像输入至识别模型,得到所述多个待识别文字的识别结果,通过上述方案,有效识别出待识别图像中的不规整文字,提高了文字识别的多样化。

A Method, Device and Computer Readable Storage Media for Character Recognition

The invention discloses a method, device and server for character recognition. In the method, the image to be recognized is acquired. The image to be recognized contains a plurality of characters to be recognized in different rows. According to the image to be recognized, the target image of the plurality of characters to be recognized is generated in rows, and the target image is input into the recognition model to obtain the plurality of characters to be recognized. Through the above scheme, the irregular characters in the image to be recognized can be effectively recognized and the diversity of character recognition can be improved.

【技术实现步骤摘要】
一种文字识别方法、装置及计算机可读存储介质
本专利技术涉及图像处理领域,尤其涉及一种文字识别方法、装置及计算机可读存储介质。
技术介绍
随着科学技术的不断发展,文字识别技术得到了广泛的应用,例如对扫描文档的文字进行识别、对拍摄照片中的文字进行识别等。目前通常采用OCR(OpticalCharacterRecognition,光学字符识别)来对排列规整的文字进行识别。
技术实现思路
本说明书实施例提供及一种文字识别方法、装置及服务器。第一方面,本说明书实施例提供一种文字识别方法,包括:获取待识别图像,所述待识别图像中包含有多个待识别文字,所述多个待识别文字不成行排列;根据所述待识别图像,生成目标图像,所述目标图像中包含所述多个待识别文字且所述多个待识别文字成行排列;根据所述目标图像,以及与所述目标图像对应的识别模型,生成所述多个待识别文字的识别结果。第二方面,本说明书实施例提供一种文字识别装置,包括:获取模块,用于获取待识别图像,所述待识别图像中包含有多个待识别文字,所述多个待识别文字不成行排列;图像处理模块,用于根据所述待识别图像,生成目标图像,所述目标图像中包含所述多个待识别文字且所述多个待识别文字成行排列;识别模块,用于根据所述目标图像,以及与所述目标图像对应的识别模型,生成所述多个待识别文字的识别结果。第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行上述任一项所述方法的步骤。第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。本说明书实施例有益效果如下:在本说明书实施例提供的文字识别方法中,待识别图像中包含有多个待识别文字,多个待识别文字不成行排列,即待识别图像中包含有排列杂乱、不规整的文字,通过获取待识别图像,对待识别图像进行处理,将多个待识别文字进行重组,得到多个待识别文字成行排列的目标图像,将目标图像送入识别模型,以得到多个待识别文字的识别结果,因此,本说明书实施例中的方案能够有效识别待识别图像中的不规整文字,提高了文字识别的多样化。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本说明书实施例第一方面提供的一种文字识别方法的流程图;图2为本说明书实施例体提供的一种图像分割方法的流程图;图3为本说明书实施例示出的待识别图像的示意图;图4为本说明书实施例示出的分离背景后的待识别文字图像的示意图;图5为本说明书实施例示出的膨胀处理图像的示意图;图6为本说明书实施例示出的多个分割图像的示意图;图7为本说明书实施例示出的目标图像的示意图;图8为本说明书实施例示出的样本示意图;图9为本说明书实施例提供的另一种文字识别方法的流程图;图10为本说明书实施例第二方面提供的文字识别装置的示意图;图11为本说明书实施例第三方面提供的文字识别装置的示意图。具体实施方式为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。第一方面,本说明书实施例提供的一种文字识别方法,如图1所示,为本说明书实施例提供的一种文字识别方法的流程图,该方法包括以下步骤:步骤S11:获取待识别图像,所述待识别图像中包含有多个待识别文字,所述多个待识别文字不成行排列;本说明书实施例中,待识别图像可以是通过扫描仪扫描文件得到的图像,也可以是拍照获得的图像,还可以是其他图像。待识别图像中包含有不成行排列的多个待识别文字,例如,待识别图像为扫描一张宣传海报获得的图像,在该宣传海报中,包含有杂乱排列的宣传标语,待识别文字可以为该宣传标语。或者,待识别图像中包含有公章,待识别文字可以为公章上成圆弧形排列的公司名称。应理解的是,待识别文字可以是汉字、英文、蒙古文、数字等,这里不做限定。步骤S12:根据所述待识别图像,生成目标图像,所述目标图像中包含所述多个待识别文字且所述多个待识别文字成行排列;本说明书实施例中,为了对待识别文字进行识别,可以先对待识别图像进行处理,使得待识别文字成行排列,生成目标图像。目标图像的生成方法可以根据需要进行选择,在一个实施例中,可以将待识别图像中的单字区域进行提取,再将提取的单字区域进行成行拼接,获得目标图像。在进行成行拼接时,可以根据待识别文字在待识别图像中的位置来拼接,如从上到下的位置顺序来拼接,也可以按照其他规则进行拼接。步骤S13:根据所述目标图像,以及与所述目标图像对应的识别模型,生成所述多个待识别文字的识别结果。应理解的是,识别模型与目标图像为相互对应的,即,识别模型能够对至少包括目标图像在内的对象进行识别。例如,目标图像中包含的待识别文字为汉字,则识别模型可以为汉字识别模型,或者,目标图像为文字成单行排列的图像,则识别模型可以为单行文字识别模型。在一个实施例中,为了提高识别准确率,识别模型可以根据目标图像的特征来进行训练。将目标图像作为输入数据输入至识别模型中,能够输出与多个识别文字对应的识别结果。可选地,所述根据所述待识别图像,生成目标图像,包括:对所述待识别图像进行分割,获得多个分割图像,所述多个分割图像中的每个分割图像中至少包含一个待识别文字;对所述多个分割图像进行成行排列拼接,生成所述目标图像。本说明书实施例中,在对待识别图像进行分割时,可以将每个待识别文字单独进行分割,也可以对多个待识别文字作为整体进行分割。在一个实施例中,可以将相邻文字之间的距离作为分割条件,例如,当两个相邻文字之间的距离小于或等于一阈值时,将这两个相邻文字作为一个整体从待识别图像中分割出来,当两个相邻文字之间的距离大于该阈值时,将这两个相邻文字作为单独的两部分从待识别图像中分割出来。可选地,所述对所述多个分割图像进行成行排列拼接,生成所述目标图像,包括:将所述多个分割图像中的每个分割图像的尺寸均调整为预设尺寸;对尺寸调整后的所述多个分割图像进行成行排列拼接,生成所述目标图像。应理解的是,获得的多个分割图像的尺寸有可能不同,在进行分割图像成行排列时,可以对多个分割图像的尺寸进行统一。预设尺寸可以根据实际需要进行设置,在一个实施例中,可以在多个分割图像中确定出尺寸最大的分割图像,将该最大的分割图像尺寸作为预设尺寸,将其他分割图像的尺寸均调整为该最大的分割图像尺寸。另外,当分割图像为不规则形状时,可以将分割图像调整为预设形状,例如将其他形状的图像调整为矩形。在成行拼接时,可以沿每个分割图像的边缘进行拼接,也可以将每个分割图像的边缘按照预设的重叠尺寸进行部分重叠拼接,这里不做限定。需要说明的是,由于待识别图像中的待识别文字可能存在倾角,且多个待识别文字的倾角有可能不同,本说明书实施例中,可以针对每个分割图像,对每个分割图像中的待识别文字的倾角进行纠正,对纠正后的分割图像进行成行排列。当然,本文档来自技高网...

【技术保护点】
1.一种文字识别方法,所述方法包括:获取待识别图像,所述待识别图像中包含有多个待识别文字,所述多个待识别文字不成行排列;根据所述待识别图像,生成目标图像,所述目标图像中包含所述多个待识别文字且所述多个待识别文字成行排列;根据所述目标图像,以及与所述目标图像对应的识别模型,生成所述多个待识别文字的识别结果。

【技术特征摘要】
1.一种文字识别方法,所述方法包括:获取待识别图像,所述待识别图像中包含有多个待识别文字,所述多个待识别文字不成行排列;根据所述待识别图像,生成目标图像,所述目标图像中包含所述多个待识别文字且所述多个待识别文字成行排列;根据所述目标图像,以及与所述目标图像对应的识别模型,生成所述多个待识别文字的识别结果。2.根据权利要求1所述的文字识别方法,所述根据所述待识别图像,生成目标图像,包括:对所述待识别图像进行分割,获得多个分割图像,所述多个分割图像中的每个分割图像中包含一个以上的待识别文字;对所述多个分割图像进行成行排列拼接,生成所述目标图像。3.根据权利要求2所述的文字识别方法,所述对待识别图像进行分割,获得多个分割图像之前,所述方法包括:将所述多个待识别文字从所述待识别图像的背景中分离,获得待识别文字图像;对所述待识别文字图像进行膨胀处理,得到膨胀处理图像;确定所述膨胀处理图像中的多个连通区域;所述对待识别图像进行分割,获得多个分割图像,包括:对所述多个连通区域中的每个连通区域进行分割,获得所述多个分割图像。4.根据权利要求2所述的文字识别方法,所述对所述多个分割图像进行成行排列拼接,生成所述目标图像,包括:将所述多个分割图像中的每个分割图像的尺寸均调整为预设尺寸;对尺寸调整后的所述多个分割图像进行成行排列拼接,生成所述目标图像。5.根据权利要求2所述的文字识别方法,所述对所述多个分割图像进行成行排列拼接,生成所述目标图像,包括:按照预设排列规则对所述多个分割图像进行成行排列拼接,生成所述目标图像。6.根据权利要求1所述的文字识别方法,在所述根据所述目标图像,以及与所述目标图像对应的识别模型,生成所述多个待识别文字的识别结果之前,所述方法还包括:根据所述多个待识别文字的特征以及预设字库,生成一预设数量的样本,所述样本为文字成行排列的图像;根据所述样本,对初始识别模型进行训练,获得所述识别模型。7.根据权利要求6所述的文字识别方法,所述多个待识别文字的特征至少包括待识别文字的倾斜角度特征,所述根据所述多个待识别文字的特征以及预设字库,生成一预设数量的样本,包括:根据所述倾斜角度特征以及所述预设字库,生成所述样本。8.根据权利要求1所述的文字识别方法,所述识别模型为长短时记忆网络及联结主义时间分类识别模型。9.根据权利要求1所述的文字识别方法,所述方法还包括:获取标准测试图像,所述标准测试图像包含有用于标记所述标准测试图像的真实识别结果的图像标签;通过所述识别模型对所述标准测试图像进行识别,获得目标识别结果;根据所述目标识别结果,以及所述真实识别结果,对所述识别模型的参数进行调整。10.一种文字识别装置,所述装置包括:获取模块,用于获取待识别图像,所述待识别图像中包含有多个待识别文字,所述多个待识别文字不成行排列;图像处理模块,用于根据所述...

【专利技术属性】
技术研发人员:魏袁新
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1