一种文档图像分类方法与装置制造方法及图纸

技术编号:38860710 阅读:44 留言:0更新日期:2023-09-17 10:03
本发明专利技术公开一种文档图像分类方法与装置,涉及文档图像分类技术领域,步骤1,对文档图像进行标题检测,得到标题区域;步骤2,对标题区域进行文本识别,得到标题文本内容;步骤3,对标题文本内容进行文本纠错,纠正因文字扭曲变形和遮挡带来的误识别;步骤4,对纠正后的标题文本内容基于无损压缩器和K邻近进行分类。当需要增加新的类型时,只需要更新K近邻的训练数据点集即可。本发明专利技术所提出方法旨在解决因为拍摄的环境不同、纸质材料为非刚体而产生的非刚体形变、文字被印章或者其他东西部分遮挡、文档材料内容复杂多变和随时会出现新增加的文档类型等情形带来的文档分类问题,文档分类准确高效。准确高效。准确高效。

【技术实现步骤摘要】
一种文档图像分类方法与装置


[0001]本专利技术涉及文档图像分类
,尤其是涉及一种文档图像分类方法与装置。

技术介绍

[0002]随着数字化转型在各行各业的逐步推进,电子文档图像的数量持续增长。在金融领域(如银行、保险、证券、税务等),为了长期保存各种各样的纸质材料,需要将其电子化处理,因而形成了庞大的电子文档图像数据集。近年来,由于外部环境的影响,各种远程金融行为持续推广,例如远程开户、线上报销等。在这些远程金融行为中,需要将纸质材料电子化,通常采用用户手机或平板拍摄完成。大量的电子化材料需要进行分类归档和识别处理。电子文档中包含大量与行业相关的图像和文本信息,手动处理这些信息费时且成本高昂,因此迫切需要实现电子文档图像的自动分类。然而,对这些文档图像进行分类面临以下困难:(1)拍摄的环境不同,如光照、角度、背景,拍摄的设备也不同,与设备相关的分辨率、曝光时间、畸变程度等也不同,产生的文档图像差异大,且难以统一规范;(2)纸质材料为非刚体,本身也容易发生各种形变,导致文字扭曲变形;(3)文字被印章或者其他东西部分遮挡,例如各种票据的标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档图像分类方法,其特征在于,包括以下步骤:步骤1,对文档图像进行标题检测,得到标题区域;步骤2,对标题区域进行文本识别,得到标题文本内容;步骤3,对标题文本内容进行文本纠错,纠正因文字扭曲变形和遮挡带来的误识别;步骤4,对纠正后的标题文本内容基于无损压缩器和K邻近进行分类;步骤4的具体的方法是:步骤41,建立K近邻的训练数据点集,并采用无损压缩器分别对训练数据点集的各个训练数据进行压缩,并获取压缩后的训练数据长度;步骤42,对纠正后的标题文本内容,利用无损压缩器进行压缩,并获取压缩后的标题文本内容长度;步骤43,将标题文本内容和各个训练数据连接起来,得到长文本,采用无损压缩器对长文本进行压缩,并获取压缩后的长文本长度;步骤44,根据上述的三种文本长度,确定纠正后的标题文本内容的k近邻;步骤45,根据k近邻的类别信息,确定文档图像的类别;步骤41中,设每个训练数据点的压缩后长度为Lt,t=1,2,

,N,N为训练数据点的数量,无损压缩器是基于Huffman、预测编码或字典编码的压缩器;步骤42中,对标题文本内容y采用无损压缩器进行压缩,获取压缩后的长度Ly;步骤43中,将标题文本内容和各个训练数据连接起来,得到=长文本ty,利用无损压缩器对长文本ty进行压缩,并获取压缩后的长度Lty;步骤44中,根据Lt、Ly和Lty,确定文档图像的k近邻:定义距离D(...

【专利技术属性】
技术研发人员:申意萍陈友斌张志坚徐一波
申请(专利权)人:湖北微模式科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1