【技术实现步骤摘要】
带表格印刷体图片文字提取方法、装置、设备及存储介质
本申请涉及文字识别领域,尤其涉及一种带表格印刷体图片文字提取方法、装置、设备及存储介质。
技术介绍
通常对于印刷体文字识别首先要做的是文字提取,然后遇到有些文字图片里面带有表格,这就需要在提取印刷体文字前去除表格,然后才能提取文字,为下一步文字识别准备。因此,需要提供准确和高效的技术方法去去除图片里的表格,从而实现文字提取。目前针对文字图片去表格的应用中,基本流程是对原始图片进行灰度化和二值化,然后再进行腐蚀和膨胀算法提取横线和纵线,从而实现表格提取。然而,这种现有技术存在两个必要条件,一是在进行腐蚀和膨胀过程需要定结构元素的长度,而这个长度往往有个默认出始值,需要根据不同的图片进行调整才能达到最佳效果;二是需要形成的横线和纵线,有时候会有文字的笔画连接,从而形成干扰的短线,而不是实际的横纵线,由于存在这两个缺陷,导致现有文字识别技术的识别精确度低。
技术实现思路
本申请目的在于公开一种带表格印刷体图片文字提取方法、装置、设备及存储介质,用于在提取到图片中的表格图片后,去除表格图片中的干扰线,从而基于去除干扰线的表格精确提取图片的文字。本申请第一方面公开一种带表格印刷体图片文字提取方法,所述方法包括:获取待处理图片,所述待处理图片包括表格;根据所述待处理图片的每个像素点的RGB值计算每个所述像素点的灰度值;依次将每个所述像素点的灰度值与预设阈值比较并根据比较结果将每个所述像素点的灰度值转换为0或255,以使 ...
【技术保护点】
1.一种带表格印刷体图片文字提取方法,其特征在于,所述方法包括:/n获取待处理图片,所述待处理图片包括表格;/n根据所述待处理图片的每个像素点的RGB值计算每个所述像素点的灰度值;/n依次将每个所述像素点的灰度值与预设阈值比较并根据比较结果将每个所述像素点的灰度值转换为0或255,以使得将所述待处理图片转换为二值化图片;/n根据结构元素、腐蚀算法和膨胀算法识别所述二值化图片中若干条横线和/或若干条竖线;/n计算每条所述横线的水平投影积分和/或每条所述竖线的水平投影积分;/n从所述若干条横线和/或若干条竖线去去除投影积分小于第一预设间距阈值的横线和/或小于第二预设间距阈值的竖线并得到所述二值化图片的表格;/n将所述二值化图片的表格删除并保留所述二值化图片中的文字内容。/n
【技术特征摘要】
1.一种带表格印刷体图片文字提取方法,其特征在于,所述方法包括:
获取待处理图片,所述待处理图片包括表格;
根据所述待处理图片的每个像素点的RGB值计算每个所述像素点的灰度值;
依次将每个所述像素点的灰度值与预设阈值比较并根据比较结果将每个所述像素点的灰度值转换为0或255,以使得将所述待处理图片转换为二值化图片;
根据结构元素、腐蚀算法和膨胀算法识别所述二值化图片中若干条横线和/或若干条竖线;
计算每条所述横线的水平投影积分和/或每条所述竖线的水平投影积分;
从所述若干条横线和/或若干条竖线去去除投影积分小于第一预设间距阈值的横线和/或小于第二预设间距阈值的竖线并得到所述二值化图片的表格;
将所述二值化图片的表格删除并保留所述二值化图片中的文字内容。
2.如权利要求1所述的方法,其特征在于,在所述计算每条所述横线的水平投影积分和/或每条所述竖线的水平投影积分之后,所述从所述若干条横线和/或若干条竖线去去除投影积分小于第一预设间距阈值的横线和/或小于第二预设间距阈值的竖线并得到所述二值化图片的表格之前,所述方法还包括:
获取所述二值化图片的文字内容在行方向的水平投影积分和在列方向的水平投影积分;
将所述文字内容在行方向的水平投影积分的量位作为所述第一预设间距阈值;
将所述文字内容在列方向的水平投影积分作为所述第二预设间距阈值。
3.如权利要求1所述的方法,其特征在于,所述根据结构元素、腐蚀算法和膨胀算法识别所述二值化图片中若干条横线和/或若干条竖线,包括:
根据所述二值化图片的行数及列数确定所述结构元素;
将所述结构元素与所述二值化图片中的每个像做腐蚀运算并得到腐蚀运算结果;
将所述结构元素与所述二值化图片中的每个像素作膨胀运算并得到膨胀运算结果;
根据所述腐蚀运算结果和所述膨胀运算结识别所述二值化图片中若干条横线和/或若干条竖线。
4.如权利要求3所述的方法,其特征在于,所述根据所述二值化图片的行数及列数确定所述结构元素的计算式为:
S=COLS//SCALE,或S=ROWS//SCALE;
其中,COLS表示所述二值化图片的列数,ROWS表示所述二值化图片的行数,//符合代表取整数,去掉余数;
以及,SCALE=COLS//D_COL或SCALE=ROWS//D_ROW,其中,D_COL表示所述二值化图片的列间距,D_ROW表示所述二值化图片的行间距。
5.如权利要求1所述的方法,其特征在于,所述根据所述待处...
【专利技术属性】
技术研发人员:李佳,杨阳,刘旭东,
申请(专利权)人:遥相科技发展北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。