一种文字识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号：24252205 阅读：44 留言：0更新日期：2020-05-22 23:54

本发明专利技术提供了一种文字识别方法、装置及计算机可读存储介质，所述方法包括：针对待识别的圆形印章图像进行二值化处理，得到二值图像；对二值图像中的文字进行区域连通，得到多个连通区域；根据每个连通区域的中心到二值图像的圆心的距离，以及与穿过圆心的射线所相交的连通区域的数量，从多个连通区域中分别确定第一连通区域、第二连通区域；分别对位于第一目标区域中的文字和第二目标区域中的文字进行识别。上述方法将弯曲型文字和直线型文字准确区分开来，提高了文字识别的准确度；并分别对第一连通区域中的文字和第二连通区域中的文字单独进行识别，使得可以按照语义顺序进行提取，降低了文字识别难度。

A character recognition method, device and computer readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种文字识别方法、装置及计算机可读存储介质
本专利技术属于图像处理领域，特别是涉及一种文字识别方法、装置及计算机可读存储介质。
技术介绍
日常生活中增值税发票、医疗收费票据等票据均需盖有印章，才能用于报销流程，它是开票单位授权的证明。印章中一般刻有企业名称、印章类型以及印章编号等信息，一般包含两种类型文字行：弯曲型文字行、直线型文字行。其中弯曲型文字行一般代表企业名称，直线型文字行一般表示印章类型、印章编号等。例如，在某医疗门诊收费票据示意图中，印章图像中弯曲型文字行内容为“**市中医医院”、直线型文字行内容分别为“门急诊收费章”和“(30)”。虽然OCR(OpticalCharacterRecognition，光学字符识别)技术已经相当成熟并应用在多个领域，例如医院化验单、个人体检单等识别，但医疗收费票据依然是OCR技术难以覆盖的领域。多个省或直辖市的众多医疗收费票据中没有直接机打“医院名称”这一关键信息，而是以印章文字的形式出现，因此印章文字的检测与识别至关重要。但是，目前票据图像中的圆形印章文字检测仍然...

【技术保护点】
1.一种文字识别方法，其特征在于，所述方法包括：/n针对待识别的圆形印章图像进行二值化处理，得到二值图像；/n对所述二值图像中的文字进行区域连通，得到多个连通区域；/n根据每个所述连通区域的中心到所述二值图像的圆心的距离，以及与穿过所述圆心的射线所相交的所述连通区域的数量，从所述多个连通区域中分别确定呈弯曲型分布的文字的至少一个第一连通区域、呈直线型分布的文字的至少一个第二连通区域；所述至少一个所述第一连通区域形成第一目标区域，所述至少一个所述第二连通区域形成第二目标区域；/n分别对位于所述第一目标区域中的文字和所述第二目标区域中的文字进行识别。/n

【技术特征摘要】
1.一种文字识别方法，其特征在于，所述方法包括：
针对待识别的圆形印章图像进行二值化处理，得到二值图像；
对所述二值图像中的文字进行区域连通，得到多个连通区域；
根据每个所述连通区域的中心到所述二值图像的圆心的距离，以及与穿过所述圆心的射线所相交的所述连通区域的数量，从所述多个连通区域中分别确定呈弯曲型分布的文字的至少一个第一连通区域、呈直线型分布的文字的至少一个第二连通区域；所述至少一个所述第一连通区域形成第一目标区域，所述至少一个所述第二连通区域形成第二目标区域；
分别对位于所述第一目标区域中的文字和所述第二目标区域中的文字进行识别。

2.根据权利要求1所述的方法，其特征在于，所述从所述多个连通区域中分别确定呈弯曲型分布的文字的至少一个第一连通区域、呈直线型分布的文字的至少一个第二连通区域，包括：
对于每个所述连通区域，计算所述连通区域的中心到所述圆形印章图像的圆心的距离，得到所述连通区域与所述圆心的目标距离；
将所述目标距离相互之间的差值小于或等于预设的距离阈值的连通区域确定为第三连通区域；以及，将剩余的至少一个所述连通区域确定为呈直线型分布的文字的第二连通区域；
针对每个所述第三连通区域，若所述第三连通区域与所述圆心确定的直线与至少两个连通区域相交，则确定所述第三连通区域为所述第二连通区域；
将所述第三连通区域中，剩余的至少一个所述第三连通区域确定为呈弯曲型分布的文字的第一连通区域。

3.根据权利要求1或2所述的方法，其特征在于，在针对待识别的圆形印章图像进行二值化处理之前，还包括：
基于RGB颜色空间和CMYK颜色空间对待识别的圆形印章图像进行图像增强。

4.根据权利要求3所述的方法，其特征在于，所述基于RGB颜色空间和CMYK颜色空间对待识别的圆形印章图像进行图像增强，包括：
对于所述圆形印章图像中的每个像素点，确定所述像素点的R分量、G分量、B分量之间的方差，得到方差矩阵；
对于所述圆形印章图像中的每个像素点，确定所述像素点的R分量与G分量的差值，得到差值矩阵；
在CMYK颜色空间上确定所述圆形印章图像的M分量，得到M分量矩阵；
根据所述方差矩阵、所述差值矩阵、所述M分量矩阵其中的至少一个确定目标矩阵；
基于所述目标矩阵对待识别的圆形印章图像进行图像增强。

5.根据权利要求1或2所述的方法，其特征在于，在从所述多个连通区域中...

【专利技术属性】
技术研发人员：马文伟，刘设伟，沈程秀，闫永泽，
申请(专利权)人：泰康保险集团股份有限公司，泰康在线财产保险股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人