一种视觉和语言模型的压缩方法、装置和计算机可读介质制造方法及图纸

技术编号:38809537 阅读:18 留言:0更新日期:2023-09-15 19:48
本发明专利技术提供一种视觉和语言模型的压缩方法、装置和计算机可读介质,所述方法包括:将文本和图片对中的文本数据和图像数据转换为向量序列;将向量序列输入原始模型和初始压缩模型,输出第一文本特征向量与第一图片特征向量和第二文本特征向量与第二图片特征向量;计算得到原始模型对应的第一注意力矩阵和初始压缩模型对应的第二注意力矩阵;计算注意力矩阵的均方差,作为目标值中间量;基于第一文本特征向量、第一图片特征向量和第二文本特征向量、第二图片特征向量计算得到最终层目标值;根据目标值中间量和最终层目标值得到目标函数表达式;通过基于目标函数表达式的知识蒸馏算法,对初始压缩模型的参数进行调整。对初始压缩模型的参数进行调整。对初始压缩模型的参数进行调整。

【技术实现步骤摘要】
一种视觉和语言模型的压缩方法、装置和计算机可读介质


[0001]本专利技术主要涉及信息
,尤其涉及一种视觉和语言模型的压缩方法、装置和计算机可读介质。

技术介绍

[0002]随着Transformer模型逐渐成为计算机视觉与自然语言处理领域的主流模型,跨越文本与图片的视觉和语言模型不断发展。然而这些视觉和语言模型往往参数量很大,所以模型的具体部署和使用时,往往因为其对算力的需求而受到较多限制。因此,在视觉和语言模型的部署和使用中,一些方案将视觉和语言模型进行压缩。如何对视觉和语言模型进行有效和便捷的压缩,是需要应对的课题。

技术实现思路

[0003]本专利技术要解决的技术问题是提供一种视觉和语言模型的压缩方法、装置和计算机可读介质,实现对视觉和语言模型的压缩过程有效和集约的实现。
[0004]为解决上述技术问题,本专利技术提供了一种视觉和语言模型的压缩方法,包括:将文本和图片对中的文本数据和图像数据转换为向量序列;将所述向量序列输入原始模型和初始压缩模型,输出与原始模型对应的第一文本特征向量与第一图片特征向量和与初本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视觉和语言模型的压缩方法,包括:将文本和图片对中的文本数据和图像数据转换为向量序列;将所述向量序列输入原始模型和初始压缩模型,输出与原始模型对应的第一文本特征向量与第一图片特征向量和与初始压缩模型对应的第二文本特征向量与第二图片特征向量;计算得到所述原始模型对应的第一注意力矩阵和初始压缩模型对应的第二注意力矩阵;计算所述第一注意力矩阵和第二注意力矩阵的均方差,作为目标值中间量;基于所述第一文本特征向量、第一图片特征向量和第二文本特征向量、第二图片特征向量计算得到最终层目标值;根据所述目标值中间量和最终层目标值得到目标函数表达式;通过基于所述目标函数表达式的知识蒸馏算法,对所述初始压缩模型的参数进行调整。2.根据权利要求1所述的视觉和语言模型的压缩方法,其特征在于,还包括:根据初始压缩模型调整结果,对所述目标值中间量和最终层目标值进行循环更新;通过基于所述更新后的目标函数表达式的知识蒸馏算法,得到压缩后模型。3.根据权利要求1所述的视觉和语言模型的压缩方法,其特征在于,计算得到所述原始模型对应的第一注意力矩阵包括:对于所述原始模型,通过不同的线性变换计算得到向量序列相关程度查询向量Q1、查询键值K1和所述查询键值K1的维度为d
k1
;基于所述序列相关程度查询向量Q1、查询键值K1和查询键值K1的维度为d
k1
得到第一注意力矩阵。4.根据权利要求1所述的视觉和语言模型的压缩方法,其特征在于,计算得到所述初始压缩模型对应的第二注意力矩阵包括:对于所述初始压缩模型,通过不同的线性变换计算得到向量序列相关程度查询向量Q2、查询键值K2和所述查询键值K2的维度为d
k2
;基于所述序列相关程度查询向量Q2、查询键值K2和查询键值K2的维度为d
k2
得到第二注意力矩阵。5.根据权利要求3所述的视觉和语言模型的压缩方法,其特征在于,基于所述序列相关程度查询向量Q1、查询键值K1和查询键值K1的维度为d
k1
得到第一注意力矩阵包括:第一注意力矩阵其中,softmax(
·
)为归一化函数。6.根据权利要求4所述的的视...

【专利技术属性】
技术研发人员:王小天蒋磊葛德发蔡勇
申请(专利权)人:合众新能源汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1