一种基于查询解耦和原型分类的通用文档图像分割方法技术

技术编号:45184098 阅读:19 留言:0更新日期:2025-05-09 12:54
本发明专利技术涉及图像分割领域,提供一种基于查询解耦和原型分类的通用文档图像分割方法,包括:利用视觉骨架网络对输入文档图像提取多尺度视觉特征,并进行优化得到优化后的多尺度视觉特征;利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量;将优化后的多尺度视觉特征、语义查询向量以及实例查询向量输入混合查询解码器中得到更新后的语义查询向量和实例查询向量;利用更新后的语义查询向量和实例查询向量分别进行语义分割和实例分割,得到语义分割结果和实例分割结果。本发明专利技术不仅能处理多种类型文档图像上的多种分割任务,还能够以任意文档图像和分割任务提示为输入,输出相应的分割结果。

【技术实现步骤摘要】

本专利技术涉及图像分割,尤其涉及一种基于查询解耦和原型分类的通用文档图像分割方法


技术介绍

1、文档图像分割(document image segmentation,dis)是文档分析与识别(document analysis and recognition,dar)领域的一个基本任务,旨在将复杂的文档图像内容分解成更小、更有意义的组成部分,例如文本区域、图片、表格和其他元素等,从而服务于文本识别、信息提取(information extraction,ie)和文档视觉问答(documentvisual question answering,docvqa)等下游应用。通过准确地分割出文本区域、图片、表格和其他元素,可以提高这些技术的精度和效率,使得机器能够更好地理解和解析文档中的信息,对于自动化文档处理流程至关重要。尽管文档图像分割在文档处理中具有重要地位,但由于文档类型的多样性、页面布局的复杂性、内容标注的异质性和文档结构的复杂性,文档图像分割仍面临诸多挑战。

2、现有的文档图像分割方法主要可以分为两类:基于规则的方法和基于机器学习的方法。本文档来自技高网...

【技术保护点】

1.一种基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,包括:

2.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述利用预先构建的视觉骨架网络对所述输入文档图像提取多尺度视觉特征,并利用预先构建的可变形注意力网络对提取到的多尺度视觉特征进行优化得到优化后的多尺度视觉特征,包括:

3.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述文本编码器包括分词器、嵌入层和编码层;所述利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量,包括:

...

【技术特征摘要】

1.一种基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,包括:

2.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述利用预先构建的视觉骨架网络对所述输入文档图像提取多尺度视觉特征,并利用预先构建的可变形注意力网络对提取到的多尺度视觉特征进行优化得到优化后的多尺度视觉特征,包括:

3.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述文本编码器包括分词器、嵌入层和编码层;所述利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量,包括:

4.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,将所述优化后的多尺度视觉特征、所述语义查询向量以及所述实例查询向量输入预先构建的混合查询解码器中,利用交叉注意力机制使用所述语义查询向量以及所述实例查询向量对所述优化后的多尺度视觉特征进行多轮解码,得到更新后的语义查询向量和更新后的实例查询向量,包括:

5.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述方法还包括:使用...

【专利技术属性】
技术研发人员:李晓辉殷飞刘成林
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1