文本识别方法、装置、设备及存储介质制造方法及图纸

技术编号:26479414 阅读:21 留言:0更新日期:2020-11-25 19:24
本发明专利技术实施方式涉及图像处理技术领域,公开了一种文本识别方法、装置、设备及存储介质。本发明专利技术中,在基于预设的文本检测模型识别出待识别文本图像中包含的多个文本框后,通过基于各文本框的定位信息来确定对应文本框的中心坐标和行高,进而基于确定的中心坐标和行高对各文本框进行排序,从而将断开的同行文本、多个短文本能够按照实际顺序进行排序,最终基于排序获得的能够标识文本框在待识别文本图像中正确顺序的目标识别顺序将文本框输入预设的文本识别模型进行解析,从而保证了从待识别文本图像中识别出的文本信息的完整性和准确性。

【技术实现步骤摘要】
文本识别方法、装置、设备及存储介质
本专利技术实施方式涉及图像处理
,特别涉及一种文本识别方法、装置、设备及存储介质。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。在OCR识别过程中,传统的图像文字识别,由于需要将待识别文本图像中的文本信息分隔为单个字符,然后再对单个字符逐一进行识别、组合,进而得到文本信息,因此通常只能对规范的文档图像进行识别。为了克服这一缺陷,目前虽然会基于预先构建的文本检测模型和文本识别模型对待识别文本图像中的文本信息进行识别,但是在实际应用中,采用扫描仪或数码相机拍摄的待识别文本图像中除了含有待识别的文本信息,还还有背景,而背景部分则会存在较多干扰因素,加上图片质量可能会存在如失真、形变、低分辨率、非均匀光照等影响,因而同一文本行区域不同字符间可能存在差异大,间隔远,文本存在倾斜、弯曲等问题。因此,在基于预先构建的文本检测模型和文本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n获取待识别文本图像;/n基于预设的文本检测模型对所述待识别文本图像进行识别,得到所述待识别文本图像中包含的多个文本框;/n获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高;/n基于所述中心坐标和所述行高,对各文本框进行排序,得到目标识别顺序;/n将排序后的各文本框按照所述目标识别顺序输入预设的文本识别模型进行解析,得到所述待识别文本图像包含的文本信息。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
获取待识别文本图像;
基于预设的文本检测模型对所述待识别文本图像进行识别,得到所述待识别文本图像中包含的多个文本框;
获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高;
基于所述中心坐标和所述行高,对各文本框进行排序,得到目标识别顺序;
将排序后的各文本框按照所述目标识别顺序输入预设的文本识别模型进行解析,得到所述待识别文本图像包含的文本信息。


2.根据权利要求1所述的文本识别方法,其特征在于,所述获取各文本框的定位信息,并基于所述定位信息确定各文本框的中心坐标和行高,包括:
对于每一个文本框,获取所述文本框四个顶点的横坐标和纵坐标,得到所述文本框的定位信息;
基于所述定位信息中的四个横坐标和四个纵坐标,确定所述文本框的中心坐标;
从所述定位信息中的四个纵坐标中选取最大纵坐标和最小纵坐标;
基于所述最大纵坐标和所述最小纵坐标,确定所述文本框的行高。


3.根据权利要求1或2所述的文本识别方法,其特征在于,所述基于所述中心坐标和所述行高,对各文本框进行排序,得到目标识别顺序,包括:
基于所述中心坐标的纵坐标,对各文本框进行预排序,得到第一识别顺序;
基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测,去除重复的文本框,得到第二识别顺序;
基于所述中心坐标的横坐标,对按照所述第二识别顺序排序的文本框进行同排调序,得到所述目标识别顺序。


4.根据权利要求3所述的文本识别方法,其特征在于,所述基于所述中心坐标的纵坐标和所述行高,对按照所述第一识别顺序排序的文本框进行同排检测,去除重复的文本框,得到第二识别顺序,包括:
基于所述中心坐标的纵坐标和所述行高,确定每一个文本框对应的核心纵区间;
按照所述第一识别顺序,检测相邻的文本框对应的核心纵区间是否存在重叠;
若存在重叠,则确定相邻的文本框为重复的文本框;
对重复的文本框择一保留,得到第二识别顺序。


5.根据权利要求4所述的文本识别方法,其特征在于,所述基于所述中心坐标的纵坐标和所述行高,确定每一个文本框对应的核心纵区间,包括:
对于每一个文本框,对所述中心坐标的纵坐标和所述行高...

【专利技术属性】
技术研发人员:章婷婷沙源丁隆乾罗红
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1