【技术实现步骤摘要】
文本识别方法、装置、设备及存储介质
[0001]本申请实施例涉及计算机
,尤其涉及一种文本识别方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]中英文场景大部分以单行文本识别,而公式场景以多行文本识别任务为主,传统的单行文本识别方法无法兼顾公式场景识别和中英文场景识别
。
因此,多行文本识别应用而生
。
[0003]目前的多行文本识别方法包括基于自注意力的方案和基于单个双向长短期记忆网络(
Bi
‑
directional Long Short
‑
Term Memory
,简称
BiLSTM
)的方案
。
但是,目前的多行文本识别方法,存在识别不准确的问题
。
技术实现思路
[0004]本申请提供一种文本识别方法
、
装置
、
设备及存储介质,实现对图像中多行文本的准确识别
。
[0005]第一方面,本申请提供一种文本识别方法,包括:获取包括待识别文本的目标图像;对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到 ...
【技术保护点】
【技术特征摘要】
1.
一种文本识别方法,其特征在于,包括:获取包括待识别文本的目标图像;对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系及所述图像特征信息中同一行特征信息之间的左右位置关系;基于所述第二特征信息,得到所述目标图像的文本识别结果
。2.
根据权利要求1所述的方法,其特征在于,所述对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,包括:基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,所述第一列特征信息的行数与所述图像特征信息的行数一致,且所述第一列特征信息中不同位置的特征信息表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一列特征信息和所述图像特征信息,确定所述第一特征信息
。3.
根据权利要求2所述的方法,其特征在于,所述基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,包括:将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息,所述第二列特征信息的行数与所述图像特征信息的行数一致;基于所述第二列特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特性信息
。4.
根据权利要求3所述的方法,其特征在于,所述将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特性信息,包括:通过水平池化操作,将所述图像特征信息中的每一行特征信息聚合为一个特征值,得到所述第二列特性信息
。5.
根据权利要求3所述的方法,其特征在于,所述基于所述第二列特性信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特性信息,包括:通过上下位置提取模块,对所述第二列特性信息中特征信息的上下位置关系进行提取,得到所述第一列特性信息
。6.
根据权利要求5所述的方法,其特征在于,所述上下位置提取模块包括至少一个第一双向长短期记忆网络
BiLSTM
模块
。7.
根据权利要求2所述的方法,其特征在于,所述基于所述第一列特性信息和所述图像特征信息,确定所述第一特征信息,包括:将所述第一列特性信息与所述图像特征信息进行广播式相加,确定所述第一特征信息
。8.
根据权利要求1‑7任一项所述的方法,其特征在于,所述基于所述第一特征信息对所
述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,包括:将所述第一特征信息的每一行进行...
【专利技术属性】
技术研发人员:王翔翔,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。