图像的文字识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:25087748 阅读:15 留言:0更新日期:2020-07-31 23:31
本申请提供了一种图像的文字识别方法、装置、电子设备及可读存储介质,该方法包括:对待处理图像进行多尺度检测,得到像素级热力图;基于像素级热力图进行实例分割,提取出待处理图像对应的各个文本框信息;根据各个文本框信息,在待处理图像中确定出与各个文本框信息分别对应的文本框图像;对各个文本框图像进行识别,得到分别对应的文字识别结果,即本申请采用基于像素级别的预测和实例分割,可以在待处理图像中分割出各种角度以及各种弯曲形状的文本,有效抵抗复杂场景中的噪音、褶皱和光线不均等因素的干扰,再通过对文本整体进行识别,避免了单字分割可能会引起的识别错误,显著提升图像的文字识别的准确率和召回率。

【技术实现步骤摘要】
图像的文字识别方法、装置、电子设备及可读存储介质
本申请涉及OCR(OpticalCharacterRecognition,光学字符识别)
,具体而言,本申请涉及一种图像的文字识别方法、装置、电子设备及可读存储介质。
技术介绍
OCR是指将一幅图像中的文字信息识别出来的技术。它的本质就是将光学设备捕捉的图像进行检测并对文字进行识别,将视觉和识字能力延伸到机器上。OCR技术现已广泛地应用在医疗、保险、金融、物流、传统制造业等领域。例如,在医疗健康业务的一种预约场景中,需要识别用户使用手机拍摄上传的临床病历照片中的文字,以实现精准预约。而通过OCR技术能够节省可观的识别、判别时间,节省大量人力和物力,提高处理效率。但是,通常的业务场景中,照片的文字信息普遍较为复杂,例如会存在阴影、遮挡、褶皱、扭曲、多方向、多行密集等情况。使用现有技术中的图像检测方式仍无法达到理想的识别效果。例如,传统目标检测算法无法适应文本横跨整个页面的需求。又例如,语义分割的图像检测方式,只会将同一类型的目标所在的整体区域划分出来,可能会导致较为紧密的多行文字无法有效地区分开,结果产生多行检测为一行的情况,影响后续识别过程。
技术实现思路
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:第一方面,本申请提供了一种图像的文字识别方法,该方法包括:对待处理图像进行多尺度检测,得到像素级热力图;基于所述像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息;根据所述各个文本框信息,在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像;对各个文本框图像进行识别,得到分别对应的文字识别结果。在一种可选的实现方式中,所述对待处理图像进行多尺度检测,得到像素级热力图,包括:将所述对待处理图像缩放为多种预设尺度的图像;对所述多种预设尺度的图像分别进行多尺度检测,得到所述多种预设尺度的像素级热力图。在一种可选的实现方式中,对任一种预设尺度的图像进行多尺度检测,得到所述任一种预设尺度的像素级热力图,包括:对所述任一种预设尺度的图像提取多个尺度层的特征图;将所述多个尺度层的特征图进行融合,得到融合后的特征图;将所述融合后的特征图进行分类,得到所述任一种预设尺度的像素级热力图。在一种可选的实现方式中,所述像素级热力图包含每个像素点的两种通道信息,任一像素点的两种通道信息包括:像素通道信息,用于表征所述任一像素点是否为文字;连通通道信息,用于表征所述任一像素点与周围预定数量的像素点是否连通。在一种可选的实现方式中,基于所述像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息,包括:将所述多种预设尺度的像素级热力图的尺度均调整至所述多种预设尺度中的最大尺度;分别确定调整后的各个像素级热力图的同一像素点的平均值,得到各个像素点为平均值的平均像素级热力图;基于所述平均像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息。在一种可选的实现方式中,所述基于所述平均像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息,包括:将所述平均像素级热力图中像素通道信息大于或等于像素阈值的像素点确定为文本像素点;根据所述文本像素点的连通通道信息,确定对应的文本连通域;根据各个文本连通域,提取出对应的所述待处理图像中的各个文本框信息。在一种可选的实现方式中,所述文本框信息包括文本框在所述待处理图像中的坐标信息;所述根据所述各个文本框信息,在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像,包括:根据各个文本框在所述待处理图像中的坐标信息,从所述待处理图像中确定出与各个文本框信息分别对应的文本框图像。在一种可选的实现方式中,对任一文本框图像进行识别,得到对应的文字识别结果,包括:提取所述任一文本框图像的文字特征,并对所述文字特征进行编码;基于预定领域专业词典对编码后的文字特征进行解码,得到对应的文字识别结果。在一种可选的实现方式中,所述提取所述任一文本框图像的文字特征,包括:确定所述任一文本框图像的特征向量序列;根据所述特征向量序列,提取对应的文字特征。在一种可选的实现方式中,所述确定所述任一文本框图像的特征向量序列,包括:提取所述任一文本框图像的语义特征;将所述语义特征转换为特征向量序列。在一种可选的实现方式中,所述根据所述特征向量序列,提取对应的文字特征,并对所述文字特征进行编码,包括以下任一项:根据所述特征向量序列,通过深度双向循环神经网络提取对应的文字特征,并对所述文字特征进行编码;根据所述特征向量序列,通过包含注意力机制的深度双向循环神经网络提取对应的文字特征,并对所述文字特征进行编码。第二方面,本申请提供了一种图像的文字识别装置,该装置包括:预测模块,用于对待处理图像进行多尺度检测,得到像素级热力图;提取模块,用于基于所述像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息;确定模块,用于根据所述各个文本框信息,在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像;识别模块,用于对各个文本框图像进行识别,得到分别对应的文字识别结果。在一种可选的实现方式中,所述预测模块具体用于将所述对待处理图像缩放为多种预设尺度的图像;对所述多种预设尺度的图像分别进行多尺度检测,得到所述多种预设尺度的像素级热力图。在一种可选的实现方式中,所述预测模块具体用于对所述任一种预设尺度的图像提取多个尺度层的特征图;将所述多个尺度层的特征图进行融合,得到融合后的特征图;将所述融合后的特征图进行分类,得到所述任一种预设尺度的像素级热力图。在一种可选的实现方式中,所述像素级热力图包含每个像素点的两种通道信息,任一像素点的两种通道信息包括:像素通道信息,用于表征所述任一像素点是否为文字;连通通道信息,用于表征所述任一像素点与周围预定数量的像素点是否连通。在一种可选的实现方式中,所述提取模块具体用于将所述多种预设尺度的像素级热力图的尺度均调整至所述多种预设尺度中的最大尺度;分别确定调整后的各个像素级热力图的同一像素点的平均值,得到各个像素点为平均值的平均像素级热力图;基于所述平均像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息。在一种可选的实现方式中,所述提取模块具体用于将所述平均像素级热力图中像素通道信息大于或等于像素阈值的像素点确定为文本像素点;根据所述文本像素点的连通通道信息,确定对应的文本连通域;根据各个文本连通域,提取出对应的所述待处理图像中的各个文本框信息。在一种可选的实现方式中,所述文本框信息包括文本框在所述待处理图像中的坐标信息;所述确定模块具体用于根据各个文本框在所本文档来自技高网...

【技术保护点】
1.一种图像的文字识别方法,其特征在于,包括:/n对待处理图像进行多尺度检测,得到像素级热力图;/n基于所述像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息;/n根据所述各个文本框信息,在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像;/n对各个文本框图像进行识别,得到分别对应的文字识别结果。/n

【技术特征摘要】
1.一种图像的文字识别方法,其特征在于,包括:
对待处理图像进行多尺度检测,得到像素级热力图;
基于所述像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息;
根据所述各个文本框信息,在所述待处理图像中确定出与各个文本框信息分别对应的文本框图像;
对各个文本框图像进行识别,得到分别对应的文字识别结果。


2.根据权利要求1所述的文字识别方法,其特征在于,所述对待处理图像进行多尺度检测,得到像素级热力图,包括:
将所述对待处理图像缩放为多种预设尺度的图像;
对所述多种预设尺度的图像分别进行多尺度检测,得到所述多种预设尺度的像素级热力图。


3.根据权利要求2所述的文字识别方法,其特征在于,对任一种预设尺度的图像进行多尺度检测,得到所述任一种预设尺度的像素级热力图,包括:
对所述任一种预设尺度的图像提取多个尺度层的特征图;
将所述多个尺度层的特征图进行融合,得到融合后的特征图;
将所述融合后的特征图进行分类,得到所述任一种预设尺度的像素级热力图。


4.根据权利要求1-3任一项所述的文字识别方法,其特征在于,所述像素级热力图包含每个像素点的两种通道信息,任一像素点的两种通道信息包括:
像素通道信息,用于表征所述任一像素点是否为文字;
连通通道信息,用于表征所述任一像素点与周围预定数量的像素点是否连通。


5.根据权利要求2-4所述的文字识别方法,其特征在于,基于所述像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息,包括:
将所述多种预设尺度的像素级热力图的尺度均调整至所述多种预设尺度中的最大尺度;
分别确定调整后的各个像素级热力图的同一像素点的平均值,得到各个像素点为平均值的平均像素级热力图;
基于所述平均像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息。


6.根据权利要求5所述的文字识别方法,其特征在于,所述基于所述平均像素级热力图进行实例分割,提取出所述待处理图像对应的各个文本框信息,包括:
将所述平均像素级热力图中像素通道信息大于或等于像素阈值的像素点确定为文本像素点;
根据所述文本像素点的连通通道信息,确定对应的文本连通域;
根据各个文本连通域,提取出对应的所述待处理图像中的各个文本框信息。


7.根据权利要求1-6任一项所述的文字识别方法,其特征在于,所述文本框信息包括文本框在所述待处理图像中的坐标...

【专利技术属性】
技术研发人员:杨帆高文龙欧贫扶
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1