基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置制造方法及图纸

技术编号：40943050 阅读：4 留言：0更新日期：2024-04-18 14:59

本发明专利技术公开了一种基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置，包括：构建招投标视觉语言模型，招投标视觉语言模型包括两个平行设置的视觉单元和五个堆叠设置的文本单元，采用训练数据对招投标视觉语言模型进行训练，将视觉数据和文本数据输入招投标视觉语言模型，第一图像和第二图像分别输入视觉单元，得到第一视觉特征和第二视觉特征；文本数据与第一视觉特征和第二视觉特征共同输入第一个文本单元，上一个文本单元的输出与第一视觉特征和第二视觉特征共同输入下一个文本单元，最后一个文本单元输出第三文本，第三文本为与第二图像对应的完整注释，实现少样本条件下的高效学习，提高信息处理的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习领域，具体涉及一种基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置。

技术介绍

1、在现如今的智能信息处理领域，招投标活动作为一种商务交易的重要形式，其公平性、高效性和准确性是至关重要的。招投标流程涉及大量文本数据与图像信息的处理，例如技术规格说明书、合同文档以及相关图纸等。传统的招投标信息处理依赖于人工审核，不仅审查耗时长、效率低下，且易受评标人主观因素影响，难以保证评审结果的一致性和客观性。近年来，随着人工智能技术的飞速发展，尤其是多模态机器学习技术在图像识别、自然语言处理等领域的成功应用，为解决传统招投标流程中的信息处理瓶颈提供了新颖技术途径。

2、通过设计少样本条件下的多模态机器学习模型，实现视觉信息与语言信息的高效转化与智能问答，能够更全面地理解和处理复杂的信息场景。然而，现有的算法在针对招投标领域的特定任务，如自动解析投标文档中的关键信息、验证图纸与技术规格的一致性等，现有的多模态学习模型面临着适应性不足和鲁棒泛化性较差的瓶颈。一方面，此类模型通常需要大量标注数据以实现准确的学习和预测，而在招投标场景中，高质量的标注样本获取成本高昂，难以满足大规模训练需求。另一方面，招投标文档的多样性和复杂性要求模型能够处理不同格式、不同结构的数据，现有模型在处理这种异构数据时往往效果有限。

技术实现思路

1、针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于少样本条件下的招投标视觉语言模型的训练方法、处理方法及装置，来解决以

2、第一方面，本专利技术提供了一种基于少样本条件下的招投标视觉语言模型的训练方法，包括以下步骤：

3、构建招投标视觉语言模型，招投标视觉语言模型包括两个平行设置的视觉单元和五个堆叠设置的文本单元，视觉单元包括依次连接的预训练的视觉编码器和基于感知的重采样模块，文本单元包括依次连接的基于门控交叉注意力机制的密集连接文本处理模块和预训练的语言模型，基于感知的重采样模块与基于门控交叉注意力机制的密集连接文本处理模块连接；

4、构建经过预处理后的少样本的训练数据，训练数据包括视觉数据和文本数据，其中，视觉数据包括第一图像和第二图像，文本数据包括第一文本和第二文本，第一文本为第一图像根据像素编码成矩阵式的文本格式以及与第一图像对应的完整注释，第二文本为第二图像根据像素编码成矩阵式的文本格式以及与第二图像对应的非完整注释；

5、采用训练数据对招投标视觉语言模型进行训练，将视觉数据和文本数据输入招投标视觉语言模型，第一图像和第二图像分别输入视觉单元，得到第一视觉特征和第二视觉特征；文本数据与第一视觉特征和第二视觉特征共同输入第一个文本单元，上一个文本单元的输出与第一视觉特征和第二视觉特征共同输入下一个文本单元，最后一个文本单元输出第三文本，第三文本为与第二图像对应的完整注释。

6、作为优选，基于门控交叉注意力机制的密集连接文本处理模块包括以下具体操作：

7、先经过门控交叉注意力操作，公式如下：

8、o1＝lf+tanh(αxattn)*self_atten(query＝lf,key_value＝vf)；

9、其中，o1为门控交叉注意力操作的输出，self_atten表示为未冻结参数的自注意力操作，αxattn表示门控交叉注意力参数，初始值为0，query表示查询向量，key_value表示键值对向量，lf表示第一视觉特征或第二视觉特征，vf表示第一文本或第二文本；

10、将门控交叉注意力操作的输出输入门控前馈密集连接层，公式如下：

11、o2＝o1+tanh(αdense)*ffw(o1)；

12、其中，tanh和ffw分别表示tanh激活函数和ffw激活函数，o2为门控前馈密集连接层的输出，αdense表示门控前馈密集连接层参数，初始值为0，

13、将门控前馈密集连接层的输出进行融合视觉信息的语言特征输出操作，公式如下：

14、o3＝o2+frozen_self_atten(query＝o2,key_value＝o2)；

15、其中，frozen_self_atten表示冻结参数后的自注意力操作，o3为融合视觉信息的语言特征输出操作的输出；

16、最终基于门控交叉注意力机制的密集连接文本处理模块的输出如下式所示：

17、o＝o3+frozen_ffw(o3)；

18、其中，o表示基于门控交叉注意力机制的密集连接文本处理模块的输出，rozen_ffw表示冻结参数后的ffw激活函数。

19、作为优选，预训练的视觉编码器采用预训练的swintransformer模型，基于感知的重采样模块由带有注意力的通用感知器和detection transformer构成。

20、作为优选，在招投标视觉语言模型的训练过程中冻结预训练的视觉编码器和预训练的语言模型的参数，两个视觉单元中的基于感知的重采样模块参数共享。

21、第二方面，本专利技术提供了一种基于少样本条件下的招投标视觉语言模型的训练装置，包括：

22、模型构建模块，被配置为构建招投标视觉语言模型，招投标视觉语言模型包括两个平行设置的视觉单元和五个堆叠设置的文本单元，视觉单元包括依次连接的预训练的视觉编码器和基于感知的重采样模块，文本单元包括依次连接的基于门控交叉注意力机制的密集连接文本处理模块和预训练的语言模型，基于感知的重采样模块与基于门控交叉注意力机制的密集连接文本处理模块连接；

23、训练数据采集模块，被配置为构建经过预处理后的少样本的训练数据，训练数据包括视觉数据和文本数据，其中，视觉数据包括第一图像和第二图像，文本数据包括第一文本和第二文本，第一文本为第一图像根据像素编码成矩阵式的文本格式以及与第一图像对应的完整注释，第二文本为第二图像根据像素编码成矩阵式的文本格式以及与第二图像对应的非完整注释；

24、训练模块，被配置为采用训练数据对招投标视觉语言模型进行训练，将视觉数据和文本数据输入招投标视觉语言模型，第一图像和第二图像分别输入视觉单元，得到第一视觉特征和第二视觉特征；文本数据与第一视觉特征和第二视觉特征共同输入第一个文本单元，上一个文本单元的输出与第一视觉特征和第二视觉特征共同输入下一个文本单元，最后一个文本单元输出第三文本，第三文本为与第二图像对应的完整注释。

25、第三方面，本专利技术提供了一种招投标视觉语言处理方法，采用如第一方面中任一实现方式描述的方法训练得到的经训练的招投标视觉语言模型，包括以下步骤：

26、获取招投标数据，招投标数据包括待识别图像和待补充文本，分别对待识别图像和待补充文本进行预处理，得到预处理后的待识别图像和预处理后的待补充文本；

27、将预处理后的待识别图像和预处理后的待补充文本输入经训练本文档来自技高网...

【技术保护点】

1.一种基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，所述基于门控交叉注意力机制的密集连接文本处理模块包括以下具体操作：

3.根据权利要求1所述的基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，所述预训练的视觉编码器采用预训练的SwinTransformer模型，所述基于感知的重采样模块由带有注意力的通用感知器和Detection Transformer构成。

4.根据权利要求1所述的基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，在所述招投标视觉语言模型的训练过程中冻结所述预训练的视觉编码器和预训练的语言模型的参数，两个所述视觉单元中的基于感知的重采样模块参数共享。

5.一种基于少样本条件下的招投标视觉语言模型的训练装置，其特征在于，包括：

6.一种招投标视觉语言处理方法，其特征在于：采用权利要求1-4中任一项所述的基于少样本条件下的招投标视觉语言模型的训练方法训练得到的经训练的招投

7.一种招投标视觉语言处理装置，其特征在于：采用权利要求1-4中任一项所述的基于少样本条件下的招投标视觉语言模型的训练方法训练得到的经训练的招投标视觉语言模型，包括：

8.一种电子设备，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。

...

【技术特征摘要】

1.一种基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，所述预训练的视觉编码器采用预训练的swintransformer模型，所述基于感知的重采样模块由带有注意力的通用感知器和detection transformer构成。

4.根据权利要求1所述的基于少样本条件下的招投标视觉语言模型的训练方法，其特征在于，在所述招投标视觉语言模型的训练过程中冻结所述预训练的视觉编码器和预训练的语言模...

【专利技术属性】
技术研发人员：陈坤，林益珊，曾念寅，王悦，程一研，李祖健，张宇，罗康润，
申请(专利权)人：福建亿力电力科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人