System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档分类方法、装置、电子设备和介质制造方法及图纸_技高网

文档分类方法、装置、电子设备和介质制造方法及图纸

技术编号:40520788 阅读:5 留言:0更新日期:2024-03-01 13:38
提供了一种文档分类方法、装置、电子设备和介质,可以应用于大数据技术领域。所述方法包括:获取待分类的纸质文档,对所述纸质文档进行数字化扫描,获取待分类图像;对所述待分类图像进行文字识别和图像分析;选取具有统一排序格式的待分类图像进行第一归类排序,形成第一归类文档;选取包含章节排版信息的待分类图像进行第二归类排序,形成第二归类文档;选取具有上下文语义顺序关系的待分类图像进行第三归类排序,形成第三归类文档;将除所述第一归类文档、所述第二归类文档和所述第三归类文档外的待分类图像归类为第四归类文档;以及对归类文档对应的纸质文档进行识别和整理,输出分类后的纸质文档。

【技术实现步骤摘要】

本专利技术涉及大数据,更具体地涉及一种文档分类方法、装置、电子设备和介质


技术介绍

1、随着金融行业的不断发展,实体票据和纸质文件在银行和金融机构的日常业务处理中仍然占据重要地位。这些文档包括各种制式票据、合同和申请表格等,记录了金融交易和客户信息的重要细节。然而,纸质文档在处理和管理过程中经常面临一系列挑战,包括文档的混乱、丢失、重复和错误分类,这可能导致业务延误、效率降低以及客户服务问题。

2、目前,在现有技术和流程下,处理实体票据和纸质文件仍依赖于人工分拣和整理,由于这是一项费时、繁琐且容易出错的工作,因此人工处理容易导致文件被错误地分类或混在一起,给后续业务流程带来麻烦;同时,人工处理需要大量时间和劳动力,效率低下,容易导致业务延误。


技术实现思路

1、鉴于上述问题,根据本专利技术的第一方面,提供了一种文档分类方法,其特征在于,所述方法包括:获取待分类的纸质文档,对所述纸质文档进行数字化扫描,获取待分类图像;对所述待分类图像进行文字识别和图像分析,获取所述待分类图像的文字内容信息和文字位置信息;基于所述文字位置信息,选取具有统一排序格式的待分类图像进行第一归类排序,形成第一归类文档;基于所述文字内容信息,将不具有统一排序格式的待分类图像进行第一自然语言分析,选取包含章节排版信息的待分类图像进行第二归类排序,形成第二归类文档;将不具有统一排序格式且不包含章节排版信息的待分类图像进行第二自然语言分析,选取具有上下文语义顺序关系的待分类图像进行第三归类排序,形成第三归类文档;将除所述第一归类文档、所述第二归类文档和所述第三归类文档外的待分类图像归类为第四归类文档;以及对所述第一归类文档、所述第二归类文档、所述第三归类文档和所述第四归类文档对应的纸质文档进行识别和整理,输出分类后的纸质文档。

2、根据一些示例性实施例,对所述待分类图像进行图像分析,获取文字位置信息,具体包括:对所述待分类图像进行图像分割和区域检测,获取所述待分类图像的顶部、底部和/或页面边缘的目标区域;提取目标区域的特征,其中,所述目标区域的特征包括区域高度特征、分界线特征、区域文本样式特征和区域相对位置特征;以及基于所述目标区域的特征,获取文字位置信息,所述文字位置信息用于判断是否具有页眉和/或页脚的同类文字标识以及页码信息。

3、根据一些示例性实施例,所述基于所述文字内容信息,将不具有统一排序格式的待分类图像进行第一自然语言分析,选取包含章节排版信息的待分类图像进行第二归类排序,形成第二归类文档,具体包括:对所述不具有统一排序格式的待分类图像进行文本样式分析、标识符检测和关键词检测,获取章节排版信息,其中,所述章节排版信息包括章节排版的文本样式、标识符和关键词;基于所述章节排版信息,对所述不具有统一排序格式的待分类图像进行筛选,获取具有规范章节排版格式的文档;基于所述章节排版信息进行章节划分,获取划分章节结果;以及将所述具有规范章节排版格式的文档按照所述划分章节结果进行第二归类排序,形成第二归类文档。

4、根据一些示例性实施例,所述将不具有统一排序格式且不包含章节排版的待分类图像进行第二自然语言分析,选取具有上下文语义顺序关系的待分类图像进行第三归类排序,形成第三归类文档,具体包括:对所述不具有统一排序格式且不包含章节排版的待分类图像进行上下文语义衔接分析,获取不同的待分类图像的语义联系和语义排序关系;基于所述语义联系,对所述不具有统一排序格式且不包含章节排版的待分类图像进行筛选,获取具有语义关系的文档;以及将所述具有语义关系的文档按照所述语义排序关系进行第三归类排序,形成第三归类文档。

5、根据一些示例性实施例,所述待分类图像包括图像信息和图像特征值,所述获取待分类的纸质文档,对所述纸质文档进行数字化扫描,获取待分类图像,具体包括:基于所述数字化扫描,获得所述图像信息,其中,所述图像信息包括外形尺寸和颜色信息;以及对所述图像信息进行特征值提取,获取图像特征值。

6、根据一些示例性实施例,所述方法还包括:基于所述图像特征值,对所述第一归类文档、所述第二归类文档和所述第三归类文档中的同类文档进行图像特征值比对,识别人工书写签字笔迹和戳章信息,获取比对结果;以及基于所述比对结果,进行疑似伪造文件的标记。

7、根据一些示例性实施例,在所述对所述第一归类文档、所述第二归类文档、所述第三归类文档和所述第四归类文档对应的纸质文档进行识别和整理之前,所述方法还包括:对所述第一归类文档、所述第二归类文档、所述第三归类文档和所述第四归类文档中的每类文档的每个图像进行第二隐式标记,所述第二隐式标记的内容包括所述图像对应的归类和在归类中的排序。

8、根据一些示例性实施例,所述纸质文档包括票据和纸质文件,在所述对所述待分类图像进行文字识别,提取所述待分类图像的文字内容信息之前,所述方法还包括:基于每个所述待分类图像的外形尺寸和颜色信息,进行初步归类;以及对每个所述待分类图像进行第一隐式标记。

9、根据一些示例性实施例,所述对所述第一归类文档、所述第二归类文档、所述第三归类文档和所述第四归类文档对应的纸质文档进行识别和整理,具体包括:按照所述第二隐式标记识别纸质文档的对应归类和排序;以及根据预先设定的装订需求进行装订。

10、根据本专利技术的第二方面,提出了一种文档分类装置,所述装置包括:待分类图像获取模块,用于:获取待分类的纸质文档,对所述纸质文档进行数字化扫描,获取待分类图像;文字内容信息和文字位置信息获取模块,用于:对所述待分类图像进行文字识别和图像分析,获取所述待分类图像的文字内容信息和文字位置信息;第一归类文档形成模块,用于:基于所述文字位置信息,选取具有统一排序格式的待分类图像进行第一归类排序,形成第一归类文档;第二归类文档形成模块,用于:基于所述文字内容信息,将不具有统一排序格式的待分类图像进行第一自然语言分析,选取包含章节排版的待分类图像进行第二归类排序,形成第二归类文档;第三归类文档形成模块,用于:将不具有统一排序格式且不包含章节排版的待分类图像进行第二自然语言分析,选取具有上下文语义顺序关系的待分类图像进行第三归类排序,形成第三归类文档;第四归类文档形成模块,用于:将除所述第一归类文档、所述第二归类文档和所述第三归类文档外的待分类图像归类为第四归类文档;以及分类模块,用于:对所述第一归类文档、所述第二归类文档、所述第三归类文档和所述第四归类文档对应的纸质文档进行识别和整理,输出分类后的纸质文档。

11、根据一些示例性实施例,所述待分类图像获取模块可以包括图像信息获取单元和特征值提取单元。

12、根据一些示例性实施例,所述图像信息获取单元可以用于基于所述数字化扫描,获得所述图像信息,其中,所述图像信息包括外形尺寸和颜色信息。

13、根据一些示例性实施例,所述特征值提取单元可以用于对所述图像信息进行特征值提取,获取图像特征值。

14、根据一些示例性实施例,所述文字内容信息和文字位置信息获取模块本文档来自技高网...

【技术保护点】

1.一种文档分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,对所述待分类图像进行图像分析,获取文字位置信息,具体包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述文字内容信息,将不具有统一排序格式的待分类图像进行第一自然语言分析,选取包含章节排版信息的待分类图像进行第二归类排序,形成第二归类文档,具体包括:

4.根据权利要求3所述的方法,其特征在于,所述将不具有统一排序格式且不包含章节排版的待分类图像进行第二自然语言分析,选取具有上下文语义顺序关系的待分类图像进行第三归类排序,形成第三归类文档,具体包括:

5.根据权利要求1或2或4所述的方法,其特征在于,所述待分类图像包括图像信息和图像特征值,所述获取待分类的纸质文档,对所述纸质文档进行数字化扫描,获取待分类图像,具体包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,在所述对所述第一归类文档、所述第二归类文档、所述第三归类文档和所述第四归类文档对应的纸质文档进行识别和整理之前,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述对所述第一归类文档、所述第二归类文档、所述第三归类文档和所述第四归类文档对应的纸质文档进行识别和整理,具体包括:

9.根据权利要求5所述的方法,其特征在于,所述纸质文档包括票据和纸质文件,在所述对所述待分类图像进行文字识别,提取所述待分类图像的文字内容信息之前,所述方法还包括:

10.一种文档分类装置,其特征在于,所述装置包括:

11.一种电子设备,包括:

12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~9中任一项所述的方法。

13.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~9中任一项所述的方法。

...

【技术特征摘要】

1.一种文档分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,对所述待分类图像进行图像分析,获取文字位置信息,具体包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述文字内容信息,将不具有统一排序格式的待分类图像进行第一自然语言分析,选取包含章节排版信息的待分类图像进行第二归类排序,形成第二归类文档,具体包括:

4.根据权利要求3所述的方法,其特征在于,所述将不具有统一排序格式且不包含章节排版的待分类图像进行第二自然语言分析,选取具有上下文语义顺序关系的待分类图像进行第三归类排序,形成第三归类文档,具体包括:

5.根据权利要求1或2或4所述的方法,其特征在于,所述待分类图像包括图像信息和图像特征值,所述获取待分类的纸质文档,对所述纸质文档进行数字化扫描,获取待分类图像,具体包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权...

【专利技术属性】
技术研发人员:张舟
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1