【技术实现步骤摘要】
本专利技术涉及图像分割,尤其涉及一种基于查询解耦和原型分类的通用文档图像分割方法。
技术介绍
1、文档图像分割(document image segmentation,dis)是文档分析与识别(document analysis and recognition,dar)领域的一个基本任务,旨在将复杂的文档图像内容分解成更小、更有意义的组成部分,例如文本区域、图片、表格和其他元素等,从而服务于文本识别、信息提取(information extraction,ie)和文档视觉问答(documentvisual question answering,docvqa)等下游应用。通过准确地分割出文本区域、图片、表格和其他元素,可以提高这些技术的精度和效率,使得机器能够更好地理解和解析文档中的信息,对于自动化文档处理流程至关重要。尽管文档图像分割在文档处理中具有重要地位,但由于文档类型的多样性、页面布局的复杂性、内容标注的异质性和文档结构的复杂性,文档图像分割仍面临诸多挑战。
2、现有的文档图像分割方法主要可以分为两类:基于规则的方法和
...【技术保护点】
1.一种基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,包括:
2.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述利用预先构建的视觉骨架网络对所述输入文档图像提取多尺度视觉特征,并利用预先构建的可变形注意力网络对提取到的多尺度视觉特征进行优化得到优化后的多尺度视觉特征,包括:
3.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述文本编码器包括分词器、嵌入层和编码层;所述利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量
...
【技术特征摘要】
1.一种基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,包括:
2.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述利用预先构建的视觉骨架网络对所述输入文档图像提取多尺度视觉特征,并利用预先构建的可变形注意力网络对提取到的多尺度视觉特征进行优化得到优化后的多尺度视觉特征,包括:
3.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述文本编码器包括分词器、嵌入层和编码层;所述利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量,包括:
4.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,将所述优化后的多尺度视觉特征、所述语义查询向量以及所述实例查询向量输入预先构建的混合查询解码器中,利用交叉注意力机制使用所述语义查询向量以及所述实例查询向量对所述优化后的多尺度视觉特征进行多轮解码,得到更新后的语义查询向量和更新后的实例查询向量,包括:
5.根据权利要求1所述的基于查询解耦和原型分类的通用文档图像分割方法,其特征在于,所述方法还包括:使用...
【专利技术属性】
技术研发人员:李晓辉,殷飞,刘成林,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。