【技术实现步骤摘要】
用于识别图像中的表格内的字符的方法和装置
本公开的实施方式涉及图像识别领域,具体涉及用于识别图像中的表格内的字符的方法、装置、设备和计算机可读存储介质。
技术介绍
随着计算机技术的发展,图像识别技术得到了快速发展,而且用于识别各类图像的图像识别技术也越来越多。现在图像识别技术已经越来越广泛地被应用,诸如人脸识别等。随着识别技术的提高,越来越多的行业也开始使用图像识别技术。图像识别技术也开始用于辅助办公自动化。以企业财务领域为例,目前存在大量纸质表格,而财务部门需要将这些表格数据录入电脑进行处理。然而,人工进行数据的录入成本是比较高的,因此通过将这些票据扫描成图像,然后通过使用光学字符识别(OCR,OpticalCharacterRecognition)方法,自动将票据上的字段识别出来。OCR可以很大程序上提高处理的效率。然而由于图表放置问题,会导致存存无法识别图像中表格中的字符的问题。
技术实现思路
根据本公开内容的示例实施方式,提供了一种用于识别图像中的表格内的字符的方案在本公开内容的第一方面中,提供了一种用于识别图像中的表格内的字符的方法。具体地,该方法包括:识别图像中的一组内容点,该内容点表示与表格的边或字符相关联的像素点;基于一组内容点与图像中的一组预定义直线之间的位置关系,确定表格的边相对于图像的边线的斜率;基于斜率来将表格调整为与边线平行;以及获取经调整的表格内的字符。在本公开内容的第二方面中,提供了一种用于识别图像中的表格内的字符的装置。具体地,该装置包括:识别模块,识别模块被配置为识别图像中的一组内容点,该内容点表示与表格的边或字符相关联的像素 ...
【技术保护点】
1.一种用于识别图像中的表格内的字符的方法,所述方法包括:识别所述图像中的一组内容点,所述内容点表示与所述表格的边或所述字符相关联的像素点;基于所述一组内容点与所述图像中的一组预定义直线之间的位置关系,确定所述表格的所述边相对于所述图像的边线的斜率;基于所述斜率来将所述表格调整为与所述边线平行;以及获取经调整的所述表格内的字符。
【技术特征摘要】
1.一种用于识别图像中的表格内的字符的方法,所述方法包括:识别所述图像中的一组内容点,所述内容点表示与所述表格的边或所述字符相关联的像素点;基于所述一组内容点与所述图像中的一组预定义直线之间的位置关系,确定所述表格的所述边相对于所述图像的边线的斜率;基于所述斜率来将所述表格调整为与所述边线平行;以及获取经调整的所述表格内的字符。2.根据权利要求1所述的方法,其中识别所述图像中的所述一组内容点包括:将所述图像中的像素点的像素值进行排序;基于排序的像素点中的一部分像素点的像素值确定阈值像素值;以及针对所述图像中的特定像素点,响应于所述特定像素点的像素值低于所述阈值像素值,将所述特定像素点标识为内容点。3.根据权利要求2所述的方法,其中基于排序的像素点中的一部分像素点的像素值确定阈值像素值包括:在排序的像素点中选择一组像素点;以及基于选择的所述一组像素点的像素值的平均值确定所述阈值像素值。4.根据权利要求1所述的方法,其中确定所述斜率包括:统计与所述一组预定义直线中的预定义直线之间的距离满足预定条件的所述图像中的像素点的数量;以及基于所述一组预定义直线中的与最大数量相关联的预定义直线的斜率,确定所述斜率。5.根据权利要求4所述的方法,进一步包括获取所述一组预定义直线,包括:获取不高于所述图像的阈值斜率的一组斜率,所述阈值斜率是基于所述图像的高度和宽度比而确定的;获取不高于所述图像的高度的一组偏移值;以及基于所述一组斜率和所述一组偏移值定义所述一组预定义直线。6.根据权利要求1所述的方法,其中基于所述斜率来将所述表格调整为与所述边线平行包括:基于所述斜率确定所述表格的所述边相对于所述图像的所述边线的倾斜角度;以及基于所述倾斜角度对图像进行旋转。7.根据权利要求1所述的方法,其中获取经调整的所述表格内的所述字符包括:在经调整的所述图像内,分别确定所述表格的水平表格线和垂直表格线;基于确定的所述水平表格线和垂直表格线来确定所述表格的表格单元;以及识别所述表格单元内的字符。8.根据权利要求7所述的方法,其中确定所述水平表格线包括:获取经调整的所述图像内的像素点在水平方向上的累积像素值;以及基于所述累积像素值确定所述水平表格线。9.根据权利要求7所述的方法,其中确定所述垂直表格线包括:获取经调整的所述图像内的像素点在垂直方向上的累积像素值;以及基于所述累积像素值确定所述垂直表格线。10.一种用于识别图像中的表格内的字符的装置,所述装置包括:识别模块,所述识别模块被配置为识别所述图像中的一组内容点,所述内容点表示与所述表格的边或所述字符相关联的像素点;斜率确定模块,所述斜率确定模块被配置为基于所述一组内容点与所述图像中的一组预定义直线之间的位置关系,确定所述表格的所述边相对于所述图像的边线的斜率;调整模块,所述调整模块被配置为基于所述斜率来将所述表格调整为与所述边线平行;以及获取模块,所述获取模块被配置为获取经调整的所述表格内的字符。11.根据权利要求10所述的装置,其中所述识别模块包括:排序模块,所述排序模块被配置为将所述图像中的像素点的像素值进行排序;阈值像素值确定模块,所述阈值像素值确定模块被配置为基于排序的像素点中的一部分像素点的像素值确定阈...
【专利技术属性】
技术研发人员:徐作新,方胜,
申请(专利权)人:兴业数字金融服务上海股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。