【技术实现步骤摘要】
本专利技术属于信息,涉及图像处理、光学字符识别、自然语言处理和深度学习等多个领域,提出一种构建以多模态联合学习为核心的文档图像处理智能体(documentintelligent processing agent,dipa)的方法及系统,该方法构建的系统特点为立体感知、全域协同、精准判断、持续进化和开放性。
技术介绍
1、光学字符识别技术能够将图像中的文字转化为机器可读的文本,然而,由于图像清晰度、内容的多模态和文字图像中的噪声等问题,此技术的文字转化率较低。特别是当图像中包含文本段落、表格和图表等多种模态元素时(即复杂布局文档图像),光学字符识别技术往往无法正确转化文字内容。
2、本专利技术以多模态联合学习为核心,提出一种构建立体感知、全域协同、精准判断、持续进化、开放的文档图像处理智能体系统的方法并形成了系统,该系统有效解决了光学字符识别技术无法解析复杂布局文档图像的问题。本专利技术涉及的
包括:
3、1.基于超分辨率的图像文字增强技术:通过提高图像中文字部分的分辨率来增强低质量文档图像的可读性,重点优化
...【技术保护点】
1.一种构建多模态联合学习的文档图像处理智能体的方法,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述多模态场景文本超分辨网络包括生成器和判别器,生成器负责将低分辨率图像转换为高分辨率图像,判别器用来区分生成器生成的高分辨率图像和真实高分辨率图像,并且与生成器相互对抗逐渐提高生成的图像的质量。
3.根据权利要求1所述的方法,其特征在于,所述布局分析采用目标检测方法在图像中定位并识别不同类型的对象,并绘制适当的边界框,以描述每个对象在图像中的准确位置。
4.根据权利要求3所述的方法,其特征在于,所述布局分析包括建立文档图
...【技术特征摘要】
1.一种构建多模态联合学习的文档图像处理智能体的方法,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述多模态场景文本超分辨网络包括生成器和判别器,生成器负责将低分辨率图像转换为高分辨率图像,判别器用来区分生成器生成的高分辨率图像和真实高分辨率图像,并且与生成器相互对抗逐渐提高生成的图像的质量。
3.根据权利要求1所述的方法,其特征在于,所述布局分析采用目标检测方法在图像中定位并识别不同类型的对象,并绘制适当的边界框,以描述每个对象在图像中的准确位置。
4.根据权利要求3所述的方法,其特征在于,所述布局分析包括建立文档图像对象检测模型,所述文档图像对象检测模型的训练过程包括:
5.根据权利要求1所述的方法,其特征在于,所述文...
【专利技术属性】
技术研发人员:刘晓东,刘明瑞,齐国荃,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。