一种基于AI分类的单/多页文件混合扫描自动合并的方法技术

技术编号:46062435 阅读:9 留言:0更新日期:2025-08-11 15:48
本发明专利技术公开了一种基于AI分类的单/多页文件混合扫描自动合并的方法,该方法具体包括如下步骤:S1,构建AI分类模块;S2,将打标签后的影像数据进行训练数据和测试数据的划分;S3,通过OCR技术将训练集和测试集的影像文件数据转化为文本数据;S4,利用FastText分类算法建立FastText模型,并训练出对应的文本分类模型;S5,扫描仪对放入的附件文本进行扫描获取附件的影像数据;S6,AI分类模块中的文本分类模型对影像数据进行识别判断影像数据为单页数据或多页数据,并对识别的影像数据进行储存。本发明专利技术通过文本分类模型的设置,在文件扫描阶段自动完成附件的识别扫描和合并储存工作,提高了文件扫描的效率。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及到一种基于ai分类的单/多页文件混合扫描自动合并的方法。


技术介绍

1、随着财务共享服务模式的逐渐成熟,以及人工智能技术的发展,需要深度应用电子影像扫描技术,实现业务单据审批的无纸化办公以及审核流程全自动化。

2、电子影像作为财务审核的凭证依据,每个电子影像文件都关联于一个审批单据。作为纸质附件转化为电子影像的源头,电子影像扫描系统至少需要满足如下功能或步骤,1、扫描存储,2、关联单据,3.ai解析。

3、在部分企业中,电子影像仅有存储功能,即前台人员会自行将纸质附件拍照,自行将多页附件合并后,进行提单上传,电子影像直接将这些附件存储即可。这类情况并不在本专利讨论范围中。本专利主要讨论的是,需要由电子影像系统完成纸质附件扫描+存储的业务情况,即提单人的附件均通过邮寄、现场转交的方式,批量交给影像扫描人员,由影像扫描人员通过电子影像系统,将纸质附件转化为电子附件。

4、传统的电子影像,在扫描存储时,往往是需要一张一张的扫描,无法批量完成;对于多页附件(如合同),会将其与单页附件一样,每一页都本文档来自技高网...

【技术保护点】

1.一种基于AI分类的单/多页文件混合扫描自动合并的方法,其特征在于,该方法具体包括如下步骤:

2.根据权利要求1所述的一种基于AI分类的单/多页文件混合扫描自动合并的方法,其特征在于,所述AI分类模块的构建具体为:

3.根据权利要求2所述的一种基于AI分类的单/多页文件混合扫描自动合并的方法,其特征在于,所述真实影像数据进行打标签包括影像数据的内容、影像数据类型和影像数据关键词。

4.根据权利要求2所述的一种基于AI分类的单/多页文件混合扫描自动合并的方法,其特征在于,所述文本分类模型训练具体为:将训练集中的文本数据输入至FastText模型中进行训...

【技术特征摘要】

1.一种基于ai分类的单/多页文件混合扫描自动合并的方法,其特征在于,该方法具体包括如下步骤:

2.根据权利要求1所述的一种基于ai分类的单/多页文件混合扫描自动合并的方法,其特征在于,所述ai分类模块的构建具体为:

3.根据权利要求2所述的一种基于ai分类的单/多页文件混合扫描自动合并的方法,其特征在于,所述真实影像数据进行打标签包括影像数据的内容、影像数据类型和影像数据关键词。

4.根据权利要求2所述的一种基于ai分类的单/多页文件混合扫描自动合并的方法,其特征在于,所述文本分类模型训练具体为:将训练集中的文本数据输入至fasttext模型中进行训练,使用n-gram特征表示文本,并采用层级softmax和负采样技术加速模型训练,获得对应文本数据的文本分类模型。

5.根据权利要求4所述的一种基于ai分类的单/多页文件混合扫描自动合并的方法,其特征在于,所...

【专利技术属性】
技术研发人员:边一雄金克邵万骏张莹华陈运文纪达麒
申请(专利权)人:达观数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1