一种基于小数据集的图像方法技术

技术编号:38530607 阅读:41 留言:0更新日期:2023-08-19 17:04
本发明专利技术涉及一种基于小数据集的图像方法,包括如下步骤:获取现有小数据集,将小数据集中的每张图像作为一个训练样本;构建和训练网络模型FocalViT,对于Transformer模块的输入层:用全局平均池化令牌替换分类令牌作为分类头的输入;将Transformer模块的自注意力模块修改为焦点注意力模块;将训练样本输入FocalViT,并根据损失函数值反更新FocalViT的参数,当损失函数值不再变化时,得到训练好的FocalViT;对于一张图片将其输入训练好的FocalViT中,即输出分类结果。该方法不依赖大量有标签的数据集,减少人工标注成本,并且在小数据集上分类准确率高。小数据集上分类准确率高。小数据集上分类准确率高。

【技术实现步骤摘要】
一种基于小数据集的图像方法


[0001]本专利技术涉及图像识别
,特别涉及一种基于小数据集的图像方法。

技术介绍

[0002]Transformer越来越受欢迎,是现代深度学习研究的重点。虽然这项工作起源于自然语言过程,但这些模型已被应用于计算机视觉。ViT是应用于计算机视觉任务的纯Transformer主干网的首个主要工作。它不仅强调了这种模型的力量,还强调了大规模训练可以克服归纳偏差的事实。这导致了一种“数据饥渴”的范式,使得从头开始训练转换器似乎无法克服许多类型的紧急问题,其中数据要少几个数量级。
[0003]因此,卷积神经网络仍然是较小数据集(例如CIFAR数据集)的首选模型,因为与Transformer相比,它们具有更高的数据效率。这限制了Transformer在性能方面的主要贡献,这需要大量的训练数据。因此,减少Transformer对大量数据的依赖非常重要。在科学和医学领域,很少有像ImageNet这样的数据集。例如,对于足够罕见的疾病,可能只有几千张图像作为正样本,这通常不足以训练具有良好统计预测能力的网络,除非可本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于小数据集的图像方法,其特征在于:包括如下步骤:S1:获取现有小数据集,将小数据集中的每张图像作为一个训练样本;S2:构建和训练网络模型FocalViT,所述FocalViT是以现有VIT模型为基础进行的改进,对VIT模型的Transformer模块进行了如下处理:对于Transformer模块的输入层:用全局平均池化令牌替换分类令牌作为分类头的输入;将Transformer模块的自注意力模块修改为焦点注意力模块;将训练样本输入FocalViT,并根据损失函数值反更新FocalViT的参数,当损失函数值不再变化时,得到训练好的FocalViT;S3:对于一张图片将其输入训练好的FocalViT中,即输出分类结果。2.如权利要求1所述的一种基于小数据集的图像方法,其特征在于:所述S2中的焦点注意力模块中引入相对位置偏差和为每个自注意力头引入窗口遮掩机制,具体包括:相对位置偏差B是从相对位置获得的,B∈R
n
×
n
,将相对位置参数化,并将相对位置偏差映射为:其中,i,j∈[0,n

1],分别是B和的坐标位置,其映射关系为:的坐标位置,其映射关系为:每个自注意力头引入窗口遮掩机制:Masking(A+B,w)=A+B+M(w)#(5)其中,w是注意窗口大小,A是自注意力,B是相对位置偏差,需要通过输入关注窗口大小w来生成屏蔽遮掩M∈R
...

【专利技术属性】
技术研发人员:冯欣钟声单玉梅明镝
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1