一种基于多模态大语言模型的分类式政务文档分析方法技术

技术编号:42395102 阅读:53 留言:0更新日期:2024-08-16 16:18
一种基于多模态大语言模型的分类式政务文档分析方法,首先训练一个Transformer模型用于进行输入问题的理解分类,在得到问题具体类别后通过预设的方案逐步执行各个步骤;先通过文档格式检测将文档中的图片与字符进行位置检测,并根据位置进行图片分割;将分割完成的图片分别通过不同的视觉编码器获取图片信息,并根据分类类别以及其预设的拼接顺序将视觉编码器的输出进行拼接得到视觉向量;在通过编码器后,视觉向量中将存储图片的相关信息,随后利用一个Transformer架构将视觉向量与大语言模型进行连接;最后对大语言模型进行微调。本发明专利技术提高针对政务文档进行信息获取的精度。

【技术实现步骤摘要】

本专利技术涉及人工智能应用领域,具体涉及一种基于多模态大语言模型的分类式政务文档分析方法


技术介绍

1、随着人们对人工智能技术的不断探索和进步,自然语言处理(nlp)和计算机视觉(cv)领域在近年来都得到了巨大的进展。其中,在自然语言处理中,大语言模型横空出世,以其良好的泛用性与强大的性能博得了大量关注。然而,大语言模型受限于其本身训练数据集的模态单一性,无法对多模态的信息特征进行有效的总结提取,因此需要引入计算机视觉领域的部分,通过增加视觉的模态输入从而增强大语言模型的模态适应能力。在这一背景下,多模态大语言模型应运而生。多模态大语言模型通过结合视觉信息和文本信息,在多项任务中展现了其良好的性能优势。

2、政务文档由于其往往包含各类表格,图片以及与这些表格图片有关的说明文字,在使用传统的计算机视觉领域的技术进行处理时受限于其复杂程度,会增加很多的工作量,同时由于计算机视觉与传统大语言模型的单模态性,图片信息与文本信息无法良好的结合起来。


技术实现思路

1、为了解决当前政务文档信息获取困难,获取本文档来自技高网...

【技术保护点】

1.一种基于多模态大语言模型的分类式政务文档分析方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的一种基于多模态大语言模型的分类式政务文档分析方法,其特征在于,所述步骤2)的过程如下:

3.如权利要求1或2所述的一种基于多模态大语言模型的分类式政务文档分析方法,其特征在于,所述步骤3)的过程如下:

4.如权利要求1或2所述的一种基于多模态大语言模型的分类式政务文档分析方法,其特征在于,所述步骤4)的过程如下:

5.如权利要求1或2所述的一种基于多模态大语言模型的分类式政务文档分析方法,其特征在于,所述步骤5)的过程如下:...

【技术特征摘要】

1.一种基于多模态大语言模型的分类式政务文档分析方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的一种基于多模态大语言模型的分类式政务文档分析方法,其特征在于,所述步骤2)的过程如下:

3.如权利要求1或2所述的一种基于多模态大语言模型的分类式政务文档分析...

【专利技术属性】
技术研发人员:李永强徐经宇冯远静王逸辰杨可馨胡磊徐洋成
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1