视觉模型降秩方法、装置、设备、存储介质以及程序产品制造方法及图纸

技术编号:32224527 阅读:20 留言:0更新日期:2022-02-09 17:29
本公开提供了一种视觉模型降秩方法、装置、设备、存储介质以及程序产品,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景下。该方法的一具体实施方式包括:将视觉模型的输入标记输入至视觉模型;获取视觉模型的第i层的输出标记;使用可学习权重对视觉模型的第i层的输出标记进行降秩,生成视觉模型的第i层的降秩标记;将视觉模型的第i层的降秩标记输入至视觉模型的第i+1层进行变换,生成视觉模型的第i+1层的输出标记。该实施方式提供了一种视觉模型降秩方法,通过减少标记数目加快模型训练。通过减少标记数目加快模型训练。通过减少标记数目加快模型训练。

【技术实现步骤摘要】
视觉模型降秩方法、装置、设备、存储介质以及程序产品


[0001]本公开涉及人工智能
,具体为计算机视觉和深度学习
,可应用于OCR(Optical Character Recognition,光学字符识别)等场景下。

技术介绍

[0002]近期视觉模型vision transformer得到了极大的发展,vision transformer在各项视觉领域竞争中取得目前较好的模型结果。不过对比CNN(Convolutional Neural Networks,卷积神经网络),transformer一般需要耗费巨大的算力进行推断和部署,因此迫切需要将transformer进行小型化压缩处理。
[0003]vision transformer是一种多层堆叠模型,运行时将图片分成一个一个的图像块(一个图像块对应一个标记)。图像块越多模型的精度越高,但是也会大幅增加模型的计算量。

技术实现思路

[0004]本公开实施例提出了一种视觉模型降秩方法、装置、设备、存储介质以及程序产品。
[0005]第一方面,本公开实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视觉模型降秩方法,包括:将视觉模型的输入标记输入至所述视觉模型,其中,所述视觉模型的输入标记的标记数目为N,标记维数为C;获取所述视觉模型的第i层的输出标记,其中,i为正整数,所述视觉模型的第i层的输出标记的标记数目为N,标记维数为C;使用可学习权重对所述视觉模型的第i层的输出标记进行降秩,生成所述视觉模型的第i层的降秩标记,其中,所述可学习权重的行数为n,列数为N,所述视觉模型的第i层的降秩标记的标记数目为n,标记维数为N,且n<N;将所述视觉模型的第i层的降秩标记输入至所述视觉模型的第i+1层进行变换,生成所述视觉模型的第i+1层的输出标记,其中,所述视觉模型的第i+1层的输出标记的标记数目为n,标记维数为N。2.根据权利要求1所述的方法,其中,所述方法还包括:将图像划分成的N个图像块;基于所述N个图像块,生成所述视觉模型的输入标记,其中,图像块与标记一一对应。3.根据权利要求2所述的方法,其中,所述基于所述N个图像块,生成所述视觉模型的输入标记,包括:对所述N个图像块分别进行线性映射或整平操作,生成所述视觉模型的输入标记。4.根据权利要求2或3所述的方法,其中,所述视觉模型是学生模型;以及所述方法还包括:将所述学生模型的输入标记输入至预先训练的教师模型,获取所述教师模型的第i+1层的输出标记,其中,所述教师模型的第i+1层的输出标记的标记数目为N,标记维数为C;将所述教师模型的第i+1层的输出标记与所述学生模型的第i+1层的输出标记对齐,生成所述教师模型的第i+1层的对齐标记,其中,所述教师模型的第i+1层的对齐标记的标记数目为n,标记维数为C;利用所述教师模型的第i+1层的对齐标记和所述学生模型的第i+1层的输出标记,对所述学生模型进行知识蒸馏。5.根据权利要求4所述的方法,其中,所述将所述教师模型的第i+1层的输出标记与所述学生模型的第i+1层的输出标记对齐,生成所述教师模型的第i+1层的对齐标记,包括:对所述教师模型的第i+1层的输出标记进行降秩,生成所述教师模型的第i+1层的对齐标记。6.根据权利要求5所述的方法,其中,所述教师模型和所述学生模型均是多层堆叠模型,每一层包括标准化模块、多头自注意力MHA模块和多层感知机MLP模块。7.根据权利要求6所述的方法,其中,所述对所述教师模型的第i+1层的输出标记进行降秩,生成所述教师模型的第i+1层的对齐标记,包括:获取所述教师模型的第i+1层中的MHA模块中间输出的k个注意力图,其中,k等于MHA的头数目,所述注意力图的行数和列数均为N;对所述k个注意力图进行求和,生成注意力向量,其中,所述注意力向量的维数为N;按照数值大小对所述注意力向量的向量值进行排序,以及选取出前n

1个向量值;对后N

n+1个向量值进行池化,生成全局标记,其中,所述全局标记具有所述后N

n+1个
向量值的全局信息;将所述前n

1个向量值与所述全局标记合并,生成所述教师模型的第i+1层的对齐标记。8.根据权利要求7所述的方法,其中,所述对所述k个注意力图进行求和,生成注意力向量,包括:将所述k个注意力图进行矩阵相加,生成矩阵;对所述矩阵进行列相加,生成所述注意力向量。9.根据权利要求7所述的方法,其中,所述对所述k个注意力图进行求和,生成所述注意力向量,包括:从所述k个注意力图中选取出类标记对应的注意力图;对所述类标记对应的注意力图进行列相加,生成所述注意力向量。10.一种视觉模型降秩装置,包括:第一输入模块,被配置成将视觉模型的输入标记输入至所述视觉模型,其中,所述视觉模型的输入标记的标记数目为N,标记维数为C;获取模块,被配置成获取所述视觉模型的第i层的输出标记,其中,i为正整数,所述视觉模型的第i层的输出标记的标记数目为N,标记维数为C;降秩模块,被配置成使用...

【专利技术属性】
技术研发人员:李建伟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1