用于富视觉文档中非文本对象分析与理解的统一解决方法技术

技术编号：45268115 阅读：13 留言：0更新日期：2025-05-13 19:04

本发明专利技术公开了一种用于富视觉文档中非文本对象分析与理解的统一解决方法，包括步骤：S1、输入富视觉文档至UNTOA‑VRD模型，UNTOA‑VRD模型对富视觉文档执行版面分析P，用户输入指令形成用户指令C，UNTOA‑VRD模型根据用户指令C形成识别任务T；根据识别任务T的情况分别输出分析结果R，R＝P；R＝P∪{rt∣t∈T}；R＝{rt∣t∈T}；采用上述方法，使得模型可以对多任务进行统一分析，不仅简化了建模过程，还在提高了富视觉文档理解的整体准确性的同时，增强了多任务分析之间的协同性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与自然语言处理，尤其涉及一种用于富视觉文档中非文本对象分析与理解的统一解决方法。

技术介绍

1、互联网和移动设备的广泛应用催生了大量的数字文档，如学术论文、商业报告和技术手册等。这些富视觉文档不仅包含丰富的文本信息，还集成了诸如公式、表格和图表等非文本元素。

2、在富视觉文档分析领域，高效且准确地处理各种非文本对象面临着重大挑战。尽管自然语言处理和计算机视觉技术在文本提取和语义分析方面取得了显著进展，例如光学字符识别和深度学习模型的应用，但在多模态集成领域仍存在诸多技术难题。现有的方法主要依赖自动化系统提取语义信息，但存在两个主要问题：首先，对于诸如公式、表格和图表等非文本元素的识别和解释仍然不够完善；其次，现有模型在处理丰富视觉文档中的非文本对象时，通常仅限于单一任务分析。这一局限性需要采用多阶段建模策略，导致模型维护和更新复杂，效率降低，且无法满足大规模文档处理的需求。此外，文档类型和格式的多样性限制了单任务模型的适应性和泛化能力，增加了系统部署和可扩展性的成本。

3、在此背景下，业界...

【技术保护点】

1.一种用于富视觉文档中非文本对象分析与理解的统一解决方法，其特征在于，包括步骤：

2.根据权利要求1所述的用于富视觉文档中非文本对象分析与理解的统一解决方法，其特征在于，UNTOA-VRD模型包括微调大语言模型模块和统一多任务算法模块。

3.根据权利要求2所述的用于富视觉文档中非文本对象分析与理解的统一解决方法，其特征在于，步骤S1之前还包括步骤S0：将多个带有标签的数据集打乱整合形成一个大型数据集输入给大语言模型、并对大语言模型进行全参微调训练形成微调大语言模型模块。

4.根据权利要求1所述的用于富视觉文档中非文本对象分析与理解的统一解决方法，其特...

【技术特征摘要】

1.一种用于富视觉文档中非文本对象分析与理解的统一解决方法，其特征在于，包括步骤：

2.根据权利要求1所述的用于富视觉文档中非文本对象分析与理解的统一解决方法，其特征在于，untoa-vrd模型包括微调大语言模型模块和统一多任务算法模块。

3.根据权利要求2所述的用于富视觉文档中非文本对象分析与理解的统一解决方法，其特征在于，步骤s1之前还包括步骤s0：将多个带有标签的数据集打乱整合形成一个大型数据集输入给大语言模型、并对大语言模型进行全参微调训练形成微调大语言模型模块。

4.根据权利要求1所述的用于富视觉文档中非文本对象分析与理解的统一解决方法，其特征在于，untoa-vrd模型包括internvi...

【专利技术属性】
技术研发人员：王茂林，张鹏，
申请(专利权)人：深圳市金大智能创新科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人