一种构建多模态联合学习的文档图像处理智能体的方法及系统技术方案

技术编号：41133485 阅读：27 留言：0更新日期：2024-04-30 18:04

本发明专利技术属于信息技术领域，涉及一种构建多模态联合学习的文档图像处理智能体的方法及系统，其特点为立体感知、全域协同、精准判断、持续进化和开放性。本发明专利技术以多模态联合学习为核心，有效解决了光学字符识别技术无法解析复杂布局文档图像的问题，通过提高图像中文字部分的分辨率来增强低质量文档图像的可读性，通过基于深度学习的对象检测方法准确定位和分辨不同模态的文字区域，通过基于深度学习的光学字符识别模型将图像中不同模态的文字内容转化为机器可读的文本，通过光学字符识别结果纠正模型提高光学字符识别结果的准确性。本发明专利技术结合了多模态信息进行联合学习，解决了复杂版面文档图像的版块识别、表格识别、手写识别和信息还原等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息，涉及图像处理、光学字符识别、自然语言处理和深度学习等多个领域，提出一种构建以多模态联合学习为核心的文档图像处理智能体(documentintelligent processing agent，dipa)的方法及系统，该方法构建的系统特点为立体感知、全域协同、精准判断、持续进化和开放性。

技术介绍

1、光学字符识别技术能够将图像中的文字转化为机器可读的文本，然而，由于图像清晰度、内容的多模态和文字图像中的噪声等问题，此技术的文字转化率较低。特别是当图像中包含文本段落、表格和图表等多种模态元素时(即复杂布局文档图像)，光学字符识别技术往往无法正确转化文字内容。

2、本专利技术以多模态联合学习为核心，提出一种构建立体感知、全域协同、精准判断、持续进化、开放的文档图像处理智能体系统的方法并形成了系统，该系统有效解决了光学字符识别技术无法解析复杂布局文档图像的问题。本专利技术涉及的
包括：

3、1.基于超分辨率的图像文字增强技术：通过提高图像中文字部分的分辨率来增强低质量文档图像的可读性，重点优化...

【技术保护点】

1.一种构建多模态联合学习的文档图像处理智能体的方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述多模态场景文本超分辨网络包括生成器和判别器，生成器负责将低分辨率图像转换为高分辨率图像，判别器用来区分生成器生成的高分辨率图像和真实高分辨率图像，并且与生成器相互对抗逐渐提高生成的图像的质量。

3.根据权利要求1所述的方法，其特征在于，所述布局分析采用目标检测方法在图像中定位并识别不同类型的对象，并绘制适当的边界框，以描述每个对象在图像中的准确位置。

4.根据权利要求3所述的方法，其特征在于，所述布局分析包括建立文档图像对象检测模型，所述...

【技术特征摘要】

1.一种构建多模态联合学习的文档图像处理智能体的方法，包括以下步骤：

4.根据权利要求3所述的方法，其特征在于，所述布局分析包括建立文档图像对象检测模型，所述文档图像对象检测模型的训练过程包括：

5.根据权利要求1所述的方法，其特征在于，所述文...

【专利技术属性】
技术研发人员：刘晓东，刘明瑞，齐国荃，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人