一种文本识别方法、装置、电子设备、介质及产品制造方法及图纸

技术编号：31810872 阅读：19 留言：0更新日期：2022-01-08 11:13

本公开提供了一种文本识别方法、装置、电子设备、介质及产品，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于文字识别技术领域。具体实现方案为：获取待识别图片，然后基于待识别图片的长度确定滑窗，并利用滑窗对待识别图片进行裁剪，得到多个子图片，其中滑窗的宽度为待识别图片的宽度，滑窗的长度为指定长度，相邻的子图片之间的重叠区域尺寸为预设尺寸。接着将各子图片分别输入预先训练的识别模型，得到识别模型对每个子图片的输出结果。再根据各子图片对应的输出结果，确定对待识别图片的文本识别结果。从而提高了对图片中文本的识别准确率。高了对图片中文本的识别准确率。高了对图片中文本的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别方法、装置、电子设备、介质及产品

[0001]本公开涉及人工智能
，具体为深度学习、计算机视觉
，可应用于文字识别

技术介绍

[0002]光学字符识别(optical character recognition，OCR)可以从图片中识别文本。OCR技术的应用广泛，例如，智能词典笔可以通过摄像头扫描文字，得到包括文本的图片，并进一步对图片采用OCR技术得到图片中的文本。

技术实现思路

[0003]本公开提供了一种文本识别方法、装置、电子设备、介质及产品。
[0004]本公开实施例的第一方面，提供了一种文本识别方法，包括：
[0005]获取待识别图片；
[0006]基于所述待识别图片的长度确定滑窗，并利用所述滑窗对待识别图片进行裁剪，得到多个子图片，其中，所述滑窗的宽度与所述待识别图片的宽度相同，所述滑窗的长度小于所述待识别图片的长度，相邻的子图片之间存在重叠区域；
[0007]将各子图片分别输入预先训练的识别模型，得到所述识别模型对每个子图片的输出结果；
[0008]根据各子图片对应的输出结果，确定对所述待识别图片的文本识别结果。
[0009]本公开实施例的第二方面，提供了一种文本识别装置，包括：
[0010]获取模块，用于获取待识别图片；
[0011]裁剪模块，用于基于所述获取模块获取的所述待识别图片的长度确定滑窗，并利用所述滑窗对待识别图片进行裁剪，得到多个子图片，其中，所述滑窗的宽度与所述待识别图片的...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，包括：获取待识别图片；基于所述待识别图片的长度确定滑窗，并利用所述滑窗对待识别图片进行裁剪，得到多个子图片，其中，所述滑窗的宽度与所述待识别图片的宽度相同，所述滑窗的长度小于所述待识别图片的长度，相邻的子图片之间存在重叠区域；将各子图片分别输入预先训练的识别模型，得到所述识别模型对每个子图片的输出结果；根据各子图片对应的输出结果，确定对所述待识别图片的文本识别结果。2.根据权利要求1所述的方法，其中，子图片对应的输出结果包括子图片中的文字、每个文字的位置和置信度，所述根据各子图片对应的输出结果，确定对所述待识别图片的文本识别结果，包括：按照每个子图片在所述待识别图片中的排列顺序，针对每个子图片，保留该子图片中非重叠区域的文本，并针对该子图片与相邻子图片的重叠区域，对比该重叠区域中相同位置的文字的置信度，保留置信度最高的文字，得到所述文本识别结果。3.根据权利要求1所述的方法，在所述基于所述待识别图片的长度确定滑窗之前，所述方法还包括：设置所述待识别图片的宽度为预设宽度；确定所述待识别图片的长度所属的目标长度范围，并设置所述待识别图片的长度为所述目标长度范围的最小值。4.根据权利要求1
‑
3任一项所述的方法，其中，所述获取待识别图片，包括：获取初始图片；将所述初始图片输入预先训练的检测模型，得到所述检测模型输出的多个检测框，每个检测框内包括文字；确定所述初始图片的第一中心线，所述第一中心线与所述初始图片的底边平行；分别计算每个检测框的第二中心线与所述第一中心线之间的距离，将第二中心线与所述第一中心线之间的距离小于预设距离的检测框作为候选框，每个检测框的第二中心线与自身的底边平行；将各候选框合并，并计算合并后的候选框的最小外接矩形，得到待检测框；在所述初始图片中按照所述待检测框进行裁剪，得到所述待识别图片。5.根据权利要求4所述的方法，在所述将所述初始图片输入预先训练的检测模型之前，所述方法还包括：判断所述初始图片的长度是否大于等于指定长度；若是，则将所述初始图片的长度设置为第一长度，所述第一长度小于指定长度；若否，则将所述初始图片的长度设置为第二长度，所述第二长度小于第一长度；按照预设的长宽比，根据所述初始图片的长度，设置所述初始图片的宽度。6.一种文本识别装置，包括：获取模块，用于获取待识别图片；裁剪模块，用于基于所述获取模块获取的所述待识别图片的长度确定滑窗，并利用所述滑窗对待识别图片进行裁剪，得到多个子图片，其中，所述滑窗的宽度与所述待识别图片
的宽度相同，所述滑窗的长度小于所述待识别图片的长度，相邻的子图片之间存在重叠区域；输入模块，用于将所述裁剪模块裁剪的各子图片分别输入预先训练的识别模型，得到所述识别模型对每个子...

【专利技术属性】
技术研发人员：刘珊珊，乔美娜，吴亮，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人