【技术实现步骤摘要】
本专利技术涉及计算机视觉与自然语言处理,尤其涉及一种用于富视觉文档中非文本对象分析与理解的统一解决方法。
技术介绍
1、互联网和移动设备的广泛应用催生了大量的数字文档,如学术论文、商业报告和技术手册等。这些富视觉文档不仅包含丰富的文本信息,还集成了诸如公式、表格和图表等非文本元素。
2、在富视觉文档分析领域,高效且准确地处理各种非文本对象面临着重大挑战。尽管自然语言处理和计算机视觉技术在文本提取和语义分析方面取得了显著进展,例如光学字符识别和深度学习模型的应用,但在多模态集成领域仍存在诸多技术难题。现有的方法主要依赖自动化系统提取语义信息,但存在两个主要问题:首先,对于诸如公式、表格和图表等非文本元素的识别和解释仍然不够完善;其次,现有模型在处理丰富视觉文档中的非文本对象时,通常仅限于单一任务分析。这一局限性需要采用多阶段建模策略,导致模型维护和更新复杂,效率降低,且无法满足大规模文档处理的需求。此外,文档类型和格式的多样性限制了单任务模型的适应性和泛化能力,增加了系统部署和可扩展性的成本。
3、在此背景下,业界
...【技术保护点】
1.一种用于富视觉文档中非文本对象分析与理解的统一解决方法,其特征在于,包括步骤:
2.根据权利要求1所述的用于富视觉文档中非文本对象分析与理解的统一解决方法,其特征在于,UNTOA-VRD模型包括微调大语言模型模块和统一多任务算法模块。
3.根据权利要求2所述的用于富视觉文档中非文本对象分析与理解的统一解决方法,其特征在于,步骤S1之前还包括步骤S0:将多个带有标签的数据集打乱整合形成一个大型数据集输入给大语言模型、并对大语言模型进行全参微调训练形成微调大语言模型模块。
4.根据权利要求1所述的用于富视觉文档中非文本对象分析与理解
...【技术特征摘要】
1.一种用于富视觉文档中非文本对象分析与理解的统一解决方法,其特征在于,包括步骤:
2.根据权利要求1所述的用于富视觉文档中非文本对象分析与理解的统一解决方法,其特征在于,untoa-vrd模型包括微调大语言模型模块和统一多任务算法模块。
3.根据权利要求2所述的用于富视觉文档中非文本对象分析与理解的统一解决方法,其特征在于,步骤s1之前还包括步骤s0:将多个带有标签的数据集打乱整合形成一个大型数据集输入给大语言模型、并对大语言模型进行全参微调训练形成微调大语言模型模块。
4.根据权利要求1所述的用于富视觉文档中非文本对象分析与理解的统一解决方法,其特征在于,untoa-vrd模型包括internvi...
【专利技术属性】
技术研发人员:王茂林,张鹏,
申请(专利权)人:深圳市金大智能创新科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。