【技术实现步骤摘要】
基于零次学习的自适应跨模态特征映射图像识别方法
[0001]本专利技术属于计算机视觉
,特别是涉及一种基于零次学习的自适应跨模态特征映射图像识别方法。
技术介绍
[0002]随着社会的发展,人们对图像分类识别的需求量越来越大;仅靠传统人工识别效率低下;近年来,受益于大规模已标注图像数据集(如ImageNet、COCO等)的不断增多和深度学习技术的高速发展,传统基于监督的机器学习算法在人脸识别、物体识别与分类等方面的性能已接近甚至超过人类。由于标记图像样本耗时耗力,传统基于监督的机器学习算法仅停留在“感知智能”层面,在对图像识别领域的训练样本十分有限;其次,不同模态、领域间图像存在的数据分布差异使得传统模型只能针对给定的训练图像数据进行建模,难以将训练好的模型适用于未知领域图像。零次学习可以在待解决任务的图像样本标注信息完全缺失的情况下,通过寻找不同模态图像数据间的对应关系,为已知领域图像和未知领域图像构建一个共同的特征空间,从而实现知识的复用和迁移,提高目标任务的解决能力。
[0003]零次学习首先需要获取图像 ...
【技术保护点】
【技术特征摘要】
1.一种基于零次学习的自适应跨模态特征映射图像识别方法,其特征在于,包括以下步骤:S1、提取细粒度视觉特征;S2、构建鸟类语义知识图谱并提取关联语义特征;S3、将鸟类图像特征和语义特征映射到特征空间中,优化正负例样本对的相似概率,将数据分别与正例样本和负例样本在特征空间进行对比。2.根据权利要求1所述的基于零次学习的自适应跨模态特征映射图像识别方法,其特征在于,所述S1提取细粒度视觉特征具体步骤如下:S11、鸟类图像预处理;S12、对预处理好的鸟类图像进行Patch编码和位置编码;S13、将编码后的向量输入视觉特征提取模块,输出细粒度视觉特征。3.根据权利要求2所述的基于零次学习的自适应跨模态特征映射图像识别方法,其特征在于,S11鸟类图像预处理的具体步骤如下:S111、调整图像大小:将鸟类图像尺寸统一调整为224
×
224大小;S112、归一化处理:使图像像素值分布在0
‑
255之间的点的值分布在[0,1]之间;S113、鸟类图像切分:将输入224
×
224大小的图像按照16
×
16大小的Patch进行划分,划分后得到196个Patches;S114、划分数据集:将鸟类图像数据集随机分成鸟类图像训练集和鸟类图像测试集。4.根据权利要求2所述的一种基于零次学习的自适应跨模态特征映射图像识别方法,其特征在于,S114划分数据集中,鸟类图像训练集和鸟类图像测试集的比例为8:2;且200种鸟类都均匀地分布在鸟类图像训练集和鸟类图像测试集中。5.根据权利要求2所述的基于零次学习的自适应跨模态特征映射图像识别方法,其特征在于,S12对预处理好的鸟类图像进行Patch编码和位置编码的具体步骤如下:Patch编码:通过线性映射将每个数据格式为[16,16,3]的Patch映射得到一个长度为768的向量;然后在得到的向量中插入一个用于分类的分类向量,该分类向量是一个可训练的参数,长度为768;再与之前从图片中生成的向量拼接在一起,得到编码格式为[197,768]的向量;位置编码:选择一个可训练的参数累加在原向量上,位置编码的格式为[197,768]:位置编码:选择一个可训练的参数累加在原向量上,位置编码的格式为[197,768]:其中,PE是位置编码,pos是Patch在图像中的位置,i是编码的位置,d
model
是Patch编码的长度。6.根据权利要求3所述的基于零次学习的自适应跨模态特征映射图像识别方法,其特征在于,S13将编码后的向量输入视觉特征提取模块,输出细粒度视觉特征的具体步骤如下:使用层标准化对每个编码后的向量进行标准化处理,然后传入多头自注意力模块,根据当前查询对输入信息赋予不同的权重聚合向量query、key和value;其中key和value是成对的,对于一个给定的对的,对于一个给定的表示d维的实数向量,通过内积计算来匹配k个key向
量,得到的内积通过Softmax来归一化得到k个权重,则query其注意力的输出就是k个key向量对应的value向量的加权平均值;然后对query、key和value进行线性变换得到矩阵Q,K,V:Q=XW
Q
K=XW
K
V=XW
V
其中,W
Q
,W
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。