一种基于霍夫变换直线检测去除页眉页脚的方法技术

技术编号:32127981 阅读:20 留言:0更新日期:2022-01-29 19:20
本发明专利技术公开一种基于霍夫变换直线检测去除页眉页脚的方法,通过基于相位一致性方法提取合同类文本图像边缘信息,并通过霍夫变换直线检测页眉页脚处的横线,用背景色填充页眉页脚处区域,以此抹除页眉页脚,提高后续文本信息的提取精度,适应多样性板式合同类文本图像的识别需求,提高识别效率。提高识别效率。提高识别效率。

【技术实现步骤摘要】
一种基于霍夫变换直线检测去除页眉页脚的方法


[0001]本专利技术涉及OCR文字识别
,尤其涉及一种基于霍夫变换直线检测去除页眉页脚的方法。

技术介绍

[0002]OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。在业务流程中用户上传的合同类文本图像中包含页眉页脚信息,其中,页眉页脚信息中存在合同名称和公司名称文本信息会对后续文本关键信息提取造成大的干扰。用户提供合同类文本图像中由于拍照方式多样和合同类文本图像模板多样,设定固定图片比例去除页眉页脚会出现以下两种情况:第一种情况是固定高度比例设定太小导致页眉页脚未能全部去除,出现页眉页脚信息干扰后续文本关键信息提取;第二种情况是固定高度比例设定太大导致文本关键信息丢失。现有的技术通过高度比例识别版式固定的图片中页眉页脚,计算OCR文本识别出文本行的位置信息,计算行高、行距等排版信息;根据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于霍夫变换直线检测去除页眉页脚的方法,其特征在于,包括如下步骤:步骤1:对读入的合同类文本图像进行预处理;步骤2:初步设定页眉页脚处横线所占图像高度比例,剪切页眉页脚横线区域;步骤3:对剪切之后的图像进行灰度化处理,获得灰度图像;步骤4:基于相位一致性方法提取灰度图像边缘并获得边缘图像;步骤5:对获得的边缘图片采用霍夫变换检测直线方法检测页眉页脚处横线位置;步骤6:对页眉处横线以上部分区域以及页脚处横线以下部分区域进行背景色填充;步骤7:完成背景色填充后,输出图像,实现文本类图像的页眉页脚去除。2.根据权利要求1所述的基于霍夫变换直线检测去除页眉页脚的方法,其特征在于,所述步骤1的具体步骤如下:步骤1.1:对读入的图片进行预判,利用傅里叶变换对读入的图片进行分类,将图片分为正常图片或噪声图片;步骤1.2...

【专利技术属性】
技术研发人员:石朵伟陈淑华
申请(专利权)人:深圳前海环融联易信息科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1