字符识别处理方法及装置制造方法及图纸

技术编号：20746222 阅读：64 留言：0更新日期：2019-04-03 10:34

本发明专利技术公开了一种字符识别处理方法及装置，其中，字符识别处理方法包括：从待识别文件中提取待识别区域；对待识别区域进行连通域分析，得到多个连通域；根据多个连通域对应的字符参数信息，对多个连通域进行合并，得到连通域合并处理结果；按照连通域合并处理结果，对待识别区域内的字符识别结果进行组合或拆分，得到多个字符组。根据本发明专利技术提供的技术方案，实现了对识别出的字符的有效拆分，有效地提高了字符识别处理精度，而且充分利用了现有的字符识别算法所识别得到的字符识别结果，极大地节约了开发成本，提高了字符识别处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
字符识别处理方法及装置
本专利技术涉及字符识别
，具体涉及一种字符识别处理方法及装置。
技术介绍
现有技术中常用的字符识别算法包括OCR(光学字符识别，OpticalCharacterRecognition)算法等，利用字符识别算法能够对图片、文档等文件中的字符进行自动识别，将文件中所有的字符识别出来。然而现有技术中的字符识别算法大多只能按行或列进行识别，不同字号、不同颜色和间隔较大的字符会被组合拼接成一段字符，无法对识别出的字符进行有效拆分，导致字符识别处理精度较低，无法很好地满足用户使用需求。为解决字符识别精度低的问题，申请公布号为CN103854019A的中国专利申请提供了一种图像中的字段提取方法，该方法将文字区域的像素按颜色划分为若干个聚类，对文字区域的像素进行连通域分析，并对识别出的每个像素连通区域的像素设定对应该连通区域中的像素所属聚类的颜色，对像素连通区域进行文本行识别，将同在一个文本行中且颜色相同的像素连通区域判定为一个字段，从而能够按照颜色从文字区域中提取出字段。然而，采用该方法，需对现有的字符识别算法进行修改，提高了人工成本，降低了字符识...

【技术保护点】
1.一种字符识别处理方法，所述方法包括：从待识别文件中提取待识别区域；对所述待识别区域进行连通域分析，得到多个连通域；根据所述多个连通域对应的字符参数信息，对多个连通域进行合并，得到连通域合并处理结果；按照所述连通域合并处理结果，对待识别区域内的字符识别结果进行组合或拆分，得到多个字符组。

【技术特征摘要】
1.一种字符识别处理方法，所述方法包括：从待识别文件中提取待识别区域；对所述待识别区域进行连通域分析，得到多个连通域；根据所述多个连通域对应的字符参数信息，对多个连通域进行合并，得到连通域合并处理结果；按照所述连通域合并处理结果，对待识别区域内的字符识别结果进行组合或拆分，得到多个字符组。2.根据权利要求1所述的字符识别处理方法，其中，所述从待识别文件中提取待识别区域进一步包括：对待识别文件进行字符识别处理得到字符识别结果，根据所述字符识别结果从待识别文件中提取待识别区域。3.根据权利要求1所述的字符识别处理方法，其中，所述对所述待识别区域进行连通域分析，得到多个连通域进一步包括：利用种子填充算法对所述待识别区域进行连通域分析，得到多个初始连通域，针对每个初始连通域，获取该初始连通域的外接矩形；依据多个外接矩形的参数信息，对所述多个初始连通域进行合并，得到多个连通域。4.根据权利要求3所述的字符识别处理方法，其中，所述利用种子填充算法对所述待识别区域进行连通域分析，得到多个初始连通域进一步包括：利用最大类间方差算法对所述待识别区域进行二值化处理，得到二值图片；利用种子填充算法对所述二值图片进行连通域分析，得到多个初始连通域。5.根据权利要求3所述的字符识别处理方法，其中，所述依据多个外接矩形的参数信息，对所述多个初始连通域进行合并，得到多个连通域进一步包括：依据所述多个外接矩形的位置参数信息，判断所述多个外接矩形是否存在重叠区域；若是，则将存在重叠...

【专利技术属性】
技术研发人员：贺三元，罗晗璐，
申请(专利权)人：浙江口碑网络技术有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人