文档图像自动分类和清洗方法、装置、系统及存储介质制造方法及图纸

技术编号:41536086 阅读:22 留言:0更新日期:2024-06-03 23:14
本发明专利技术公开了一种文档图像自动分类和清洗方法、装置、系统及存储介质,属于计算机视觉领域。该方法包括:文本识别步骤:基于多个串联的深度学习模型对文档图像的文本进行识别,得到文档图像文本内容;样本选取步骤:从多种文档图像构成的原始样本集中选取少量样本图像,针对所述少量样本图像的文档图像文本内容进行分类,并得到类别列表;样本分类步骤:将所述类别列表作为提示词输入至大语言模型,对剩余样本图像的文档图像文本内容进行分类。本申请技术方案基于OCR和大语言模型技术,提出一种文档图像自动分类和清洗方法、装置、系统及存储介质,可以完全代替人工操作,具有通用、高效且分类精度高的特点。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,尤其是一种利用ocr和大语言模型技术,针对文档图像的一种文档图像自动分类和清洗方法、装置、系统及存储介质


技术介绍

1、现实中,经常存在需要将大量混合的文档图像进行分类和清洗的需求,如金融等业务场景下长期积累的业务影像数据库,其内部存储了大量的非结构化文档图像数据。但是,由于这些影像数据缺乏类别标签,因此无法实现各种类别数据的自动检索和获取,通常只能以人工的方式进行查找和筛选,耗时耗力,且容易出错。

2、ocr是将纸质文档、图片等非数字化文件中的文字内容转换为数字化格式的技术。当前主流方法采用深度学习模型技术,通过文字、表格、印章、勾选和二维码识别等模型,能够在一个通用ocr识别接口中,实现图像中所有通用元素的统一识别和输出。

3、大语言模型是一种基于深度学习算法的自然语言处理技术,旨在让计算机能够理解和生成自然语言文本。大语言模型的训练通常需要海量的文本数据(如维基百科、新闻文章、社交媒体等)和强大的计算资源。在训练过程中,大语言模型会通过学习这些数据中的模式和规律来调整自己的权重和参数,从而提高自本文档来自技高网...

【技术保护点】

1.一种文档图像自动分类和清洗方法,所述文档图像包括多个文本行区域,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的文档图像自动分类和清洗方法,其特征在于,所述步骤1中,多个串联的深度学习模型包括文本行区域检测模型、文本方向分类模型和文本内容识别模型,共同构成光学字符识别模型。

3.根据权利要求2所述的文档图像自动分类和清洗方法,其特征在于,所述步骤1具体包括:

4.根据权利要求1所述的文档图像自动分类和清洗方法,其特征在于,所述步骤2中,所述少量样本占原始样本集的1%。

5.根据权利要求1所述的文档图像自动分类和清洗方法,其特...

【技术特征摘要】

1.一种文档图像自动分类和清洗方法,所述文档图像包括多个文本行区域,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的文档图像自动分类和清洗方法,其特征在于,所述步骤1中,多个串联的深度学习模型包括文本行区域检测模型、文本方向分类模型和文本内容识别模型,共同构成光学字符识别模型。

3.根据权利要求2所述的文档图像自动分类和清洗方法,其特征在于,所述步骤1具体包括:

4.根据权利要求1所述的文档图像自动分类和清洗方法,其特征在于,所述步骤2中,所述少量样本占原始样本集的1%。

5.根据权利要求1所述的文档图像自动分类和清洗方法,其特征在于,所述步骤2中,所述类别列表:类别1、类别2、...类别n,其中,n为正整数。

6.根据权利要求1所述的文档图像自动...

【专利技术属性】
技术研发人员:王勇沈达伟朱军民
申请(专利权)人:北京易道博识科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1