【技术实现步骤摘要】
一种文档图像分类方法与装置
[0001]本专利技术涉及文档图像分类
,尤其是涉及一种文档图像分类方法与装置。
技术介绍
[0002]随着数字化转型在各行各业的逐步推进,电子文档图像的数量持续增长。在金融领域(如银行、保险、证券、税务等),为了长期保存各种各样的纸质材料,需要将其电子化处理,因而形成了庞大的电子文档图像数据集。近年来,由于外部环境的影响,各种远程金融行为持续推广,例如远程开户、线上报销等。在这些远程金融行为中,需要将纸质材料电子化,通常采用用户手机或平板拍摄完成。大量的电子化材料需要进行分类归档和识别处理。电子文档中包含大量与行业相关的图像和文本信息,手动处理这些信息费时且成本高昂,因此迫切需要实现电子文档图像的自动分类。然而,对这些文档图像进行分类面临以下困难:(1)拍摄的环境不同,如光照、角度、背景,拍摄的设备也不同,与设备相关的分辨率、曝光时间、畸变程度等也不同,产生的文档图像差异大,且难以统一规范;(2)纸质材料为非刚体,本身也容易发生各种形变,导致文字扭曲变形;(3)文字被印章或者其他东西部分遮 ...
【技术保护点】
【技术特征摘要】
1.一种文档图像分类方法,其特征在于,包括以下步骤:步骤1,对文档图像进行标题检测,得到标题区域;步骤2,对标题区域进行文本识别,得到标题文本内容;步骤3,对标题文本内容进行文本纠错,纠正因文字扭曲变形和遮挡带来的误识别;步骤4,对纠正后的标题文本内容基于无损压缩器和K邻近进行分类;步骤4的具体的方法是:步骤41,建立K近邻的训练数据点集,并采用无损压缩器分别对训练数据点集的各个训练数据进行压缩,并获取压缩后的训练数据长度;步骤42,对纠正后的标题文本内容,利用无损压缩器进行压缩,并获取压缩后的标题文本内容长度;步骤43,将标题文本内容和各个训练数据连接起来,得到长文本,采用无损压缩器对长文本进行压缩,并获取压缩后的长文本长度;步骤44,根据上述的三种文本长度,确定纠正后的标题文本内容的k近邻;步骤45,根据k近邻的类别信息,确定文档图像的类别;步骤41中,设每个训练数据点的压缩后长度为Lt,t=1,2,
…
,N,N为训练数据点的数量,无损压缩器是基于Huffman、预测编码或字典编码的压缩器;步骤42中,对标题文本内容y采用无损压缩器进行压缩,获取压缩后的长度Ly;步骤43中,将标题文本内容和各个训练数据连接起来,得到=长文本ty,利用无损压缩器对长文本ty进行压缩,并获取压缩后的长度Lty;步骤44中,根据Lt、Ly和Lty,确定文档图像的k近邻:定义距离D(...
【专利技术属性】
技术研发人员:申意萍,陈友斌,张志坚,徐一波,
申请(专利权)人:湖北微模式科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。