System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文档图像分类,尤其是涉及一种基于字频的文档图像分类方法。
技术介绍
1、随着银行、证券、保险金融机构逐步迈向数字化时代,电子文档图像的数量呈现出不断增长的态势。银行的账户系统在运行过程中会产生多种类型的文档图像,这些图像涵盖了账户开立、交易凭证、业务文件等多个方面。这些文档图像不仅是银行业务处理的重要记录,也是银行进行信息管理和风险控制的重要依据。因此,对这些文档图像进行高效、准确地管理和处理,对于保障银行业务的正常运行和风险防控具有重要意义。又例如,保险行业在其业务流程中会产生多种类型的文档图像:在保险产品的销售环节,会产生大量的保险申请书和投保单等文档图像,这些文档图像详细记录了客户的个人信息、保险需求、保险条款等内容,是保险公司进行风险评估和核保的重要依据;在保险理赔过程中,会产生各种类型的理赔申请书、医疗证明、事故认定书等文档图像,这些图像是保险公司进行理赔审核和赔款处理的关键依据。鉴于大量的电子化材料亟待规整与分类,并需进行专业的识别处理,这些电子文档图像中充斥着丰富的行业相关图像与文本信息。若单凭人工处理,不仅耗时耗力,成本亦会急剧上升。因此,我们亟需开发一套电子文档图像的自动分类方法,以满足日益增长的处理需求。
2、现有的文档图像的自动分类方法主要有以下几类:
3、1)基于规则的分类方法:这种方法通过事先定义好的规则和模板来判断页面中的不同版面模块。例如,可以利用规则来判断位于页面顶部的较大字体文本是否为标题,或者根据文本的位置、字体大小、格式等特征来确定其类型。
5、3)基于图像处理的分类方法:利用图像处理技术,如边缘检测、连通域分析、投影法等,对文档图像进行预处理和特征提取,然后基于这些特征进行分类。
6、4)基于层次式或非层次式方法的文档图像分割:层次式方法如自顶向下或自底向上,通过逐步分割文档图像来识别版面结构。非层次式方法则更注重整体分析和处理,适用于复杂的文档图像。
7、5)混合型方法:这种方法结合了上述几种方法,通过互补来提高文档图像分类的准确性和效率。
8、在实际的生产实践中,上述5类文档图像分类算法面临多方面的挑战,算法的鲁棒性不足,无法应对文档图像的多样性和复杂性。具体地说,包含以下5个方面的挑战:
9、(1)拍摄环境和设备的差异性:光照、角度和背景的不同会导致图像明暗不均、阴影过重或文字模糊等问题,这些都会影响图像的质量,使得分类算法难以准确识别。设备的分辨率、曝光时间和畸变程度不同,会导致图像清晰度、色彩还原度和几何形状的差异,增加了分类的难度。
10、(2)纸质材料的形变问题:纸质文档在扫描或拍摄过程中,由于纸张的弯曲、褶皱或折叠,可能导致文字发生扭曲变形,这会对文字的识别和分析造成困扰。
11、(3)文字遮挡问题:文档图像中的文字可能被印章、贴纸或其他物品遮挡,这会导致部分信息丢失或难以识别,对分类算法来说是一个挑战。
12、(4)文档图像内容的复杂性和多样性:文档图像的内容往往复杂多变,即使是同一类文档图像,其布局、文字排版和图像布局也可能存在很大差异。
13、(5)新文档图像类型的不断增加:随着时间的推移,新的文档图像类型可能会不断出现。对于预先训练好的分类器来说,这意味着需要重新收集数据、训练模型,以适应新的分类需求。这不仅增加了工作量和成本,还可能影响分类器的性能和稳定性。
技术实现思路
1、为了解决上述文档图像分类的技术问题,本专利技术提供一种基于字频的文档图像分类方法。采用如下的技术方案:
2、一种基于字频的文档图像分类方法,包括文档图像注册和未知类型的待分类文档图像分类两个步骤;
3、文档图像注册包括以下步骤:
4、步骤10,对每一类待分类的文档图像获得一幅示例文档图像,组成示例文档图像集,为待分类的文档图像的类型数,为第类文档图像的示例文档图像;
5、步骤11,使用示例文档图像统计所有文档图像的标题字符集;
6、步骤12,统计每一类文档图像的注册标题字频;
7、步骤13,当有新增的文档图像类型时,更新所有文档图像的标题字符集和每一类文档图像的注册标题字频;
8、步骤14,使用示例文档图像统计所有文档图像的键字符集;
9、步骤15,统计每一类文档图像的注册键字频;
10、步骤16,当有新增的文档图像类型时,更新所有文档图像的键字符集和每一类文档图像的注册键字频;
11、未知类型的待分类文档图像分类包括以下步骤:
12、步骤20,对待分类文档图像进行文本行检测与文本行识别;
13、步骤21,把文本行检测结果分为标题和正文两个类型;
14、步骤22,获得待分类文档图像的标题字频;
15、步骤23,获得待分类文档图像的键字频;
16、步骤24,基于注册标题字频和待分类文档图像的标题字频之间的余弦距离、注册键字频和待分类文档图像的键字频之间的余弦距离来计算分数,并基于分数分析得到文档图像分类的类型标签结果。
17、通过采用上述技术方案,每种文档图像只需要一张样本(即示例文档图像)即可完成文档图像注册,特别地,对于表格类型的文档图像,只需要一张空白的表格即可。
18、对各种原因造成的文本行检测算法的错误(误报和漏报)鲁棒;
19、对各种原因造成的文本行识别算法的错误(误识和漏识)鲁棒;
20、能适应增加新的文档图像类型。
21、可选的,步骤11包括以下子步骤:
22、步骤111:获得每一幅示例文档图像的标题,组成标题集合t,,为待分类的文档图像的类型数,为的标题;
23、步骤112:由标题集合t中的每一个标题中的字符构成标题字符集,p为标题字符集中的字符数量。
24、步骤111中采用人工查看每一幅示例文档图像并获得每一幅示例文档图像的标题。
25、需要说明的是,步骤111必须是由人工完成,不可以使用ocr技术获得,这样可以保证标题字符集a的正确性。
26、可选的,步骤13中,当有新增的文档图像类型时,则获取新增的文档图像类型的一幅示例文档图像,加入示例文档图像集,重复步骤11和步骤12,对标题字符集和注册标题字频进行更新。
27、可选的,步骤14包括以下子步骤:
28、步骤141:人工查看每一幅示例文档图像并获得键,组成键集合k;
29、步骤142:由键集合k中的每一个键中的字符构成键字符集,q为键字符集中的字符数量。
30、需要说明本文档来自技高网...
【技术保护点】
1.一种基于字频的文档图像分类方法,其特征在于,包括文档图像注册和未知类型的待分类文档图像分类两个步骤;
2.根据权利要求1所述的一种基于字频的文档图像分类方法,其特征在于:步骤11包括以下子步骤:
3.根据权利要求2所述的一种基于字频的文档图像分类方法,其特征在于:采用人工查看每一幅示例文档图像并获得每一幅示例文档图像的标题。
4.根据权利要求1所述的一种基于字频的文档图像分类方法,其特征在于:步骤13中,当有新增的文档图像类型时,则获取新增的文档图像类型的一幅示例文档图像,加入示例文档图像集,重复步骤11和步骤12。
5.根据权利要求1所述的一种基于字频的文档图像分类方法,其特征在于:步骤14包括以下子步骤:
6.根据权利要求5所述的一种基于字频的文档图像分类方法,其特征在于:采用人工查看每一幅示例文档图像并获得每一幅示例文档图像的键。
7.根据权利要求1所述的一种基于字频的文档图像分类方法,其特征在于:步骤21中基于标题的三个特征进行分类,标题的三个特征是:位于文档图像的前1-3行,居中,字号大于等于正
8.一种计算机可读存储介质,其特征在于:存储介质存储采用权利要求1-7任一项所述的一种基于字频的文档图像分类方法设计的文档图像分类程序。
9.一种基于字频的文档图像分类装置,其特征在于:包括存储器和处理器,所述存储器存储采用权利要求1-7任一项所述的一种基于字频的文档图像分类方法设计的文档图像分类程序,所述处理器与存储器通信连接,运行文档图像分类程序,并输出文档图像分类结果。
10.根据权利要求9所述的一种基于字频的文档图像分类装置,其特征在于:还包括显示器,所述显示器与处理器通信连接,处理器控制显示器显示文档图像分类结果。
...【技术特征摘要】
1.一种基于字频的文档图像分类方法,其特征在于,包括文档图像注册和未知类型的待分类文档图像分类两个步骤;
2.根据权利要求1所述的一种基于字频的文档图像分类方法,其特征在于:步骤11包括以下子步骤:
3.根据权利要求2所述的一种基于字频的文档图像分类方法,其特征在于:采用人工查看每一幅示例文档图像并获得每一幅示例文档图像的标题。
4.根据权利要求1所述的一种基于字频的文档图像分类方法,其特征在于:步骤13中,当有新增的文档图像类型时,则获取新增的文档图像类型的一幅示例文档图像,加入示例文档图像集,重复步骤11和步骤12。
5.根据权利要求1所述的一种基于字频的文档图像分类方法,其特征在于:步骤14包括以下子步骤:
6.根据权利要求5所述的一种基于字频的文档图像分类方法,其特征在于:采用人工查看每一幅示例文档图像并获得...
【专利技术属性】
技术研发人员:张志坚,陈友斌,申意萍,徐一波,
申请(专利权)人:湖北微模式科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。