当前位置: 首页 > 专利查询>东北大学专利>正文

一种能够处理新标记和缺失标记的图像标注方法技术

技术编号:38157773 阅读:11 留言:0更新日期:2023-07-13 09:27
本发明专利技术提供一种能够处理新标记和缺失标记的图像标注方法,涉及图像分类技术领域。本发明专利技术通过对真实的原始图像数据集进行处理,获得多图数据集,将多图包中的每个图从图空间映射到高维特征空间,得到每个图的基于图核的图表示;利用权重矩阵对类别标记进行语义描述,对图与标记之间的关系进行建模;构造最小化目标函数以对图的新标记和缺失标记进行学习,通过加速近端梯度法和近端梯度法对最小化目标函数进行优化更新,得到更新后的权重矩阵,进而构建能够同时对新标记和缺失标记进行建模的分类器,给定测试集中的一个测试包,根据权重矩阵构建图级分类器,对测试包中的图进行标记预测,实现对未知多图包的标记预测,完成图像数据的标注。像数据的标注。像数据的标注。

【技术实现步骤摘要】
一种能够处理新标记和缺失标记的图像标注方法


[0001]本专利技术属于图像分类
,具体涉及一种能够处理新标记和缺失标记的图像标注方法。

技术介绍

[0002]随着互联网和云存储技术的快速发展和广泛应用,多媒体数据如图像的数量飞速增长。且这些图像数据中的每幅图像一般都涉及了多个主题,结构较为复杂。同时,每幅图像常常会关联多个语义标记,难以捕获完整标记。如何对这些数据进行有效的表示以及充分描述数据内容的分类标记成为了一项挑战。
[0003]现有的图像标注方法是将每个研究对象如一幅图片进行特征提取,用一个或多个特征向量(示例)来描述该对象,然后将示例与对应的类别标记关联起来。虽然这种表示方式已经在现实领域中被广泛应用,但是仍然存在着与复杂学习任务不相符的问题。在现实应用中,许多研究数据是具有复杂结构的,而特征向量无法表示这种复杂数据,更无法有效捕获对象中各个部分之间的相互关系。
[0004]多图多标记分类方法已经应用在复杂的学习任务中,在该框架中,每个研究对象由一个包含多个图的图包来表示,包中的图能够捕获对象内部各个部分的依赖关系,同时关联多个类别标记,描述了现实生活中标记的模糊性。多图多标记分类的学习任务是构建分类器,为未知的多图包预测多个相关的标记。
[0005]在实际应用中,专家在标注时仅仅关注相关的标记,而在固定标记集合之外,有一些被忽略的新标记可能存在,例如鸟类图像中的一些罕见鸟类存在但并没有被标注。而且由于成本负担或噪声干扰,难以获得完整的标记信息,缺失标记是存在的,例如动物图像中的背景对象常常被忽略。新标记和缺失标记的出现均会导致标记信息的不完整,进而会限制模型对图像数据进行标注的能力。然而现有一些多图多标记分类方法认为多图数据的标记集合是完整的,没有解决图像中可能存在不完整标记信息的问题,限制了多图多标记学习的范围。因此,对新标记的挖掘和缺失标记的填补是十分有意义的。当前,研究人员已经提出了一些处理新标记和缺失标记的方法,但这些方法是针对于基于特征向量的对象,多图结构更为复杂,不能直接应用在多图多标记学习环境中。

技术实现思路

[0006]针对现有技术存在的问题,本专利技术提供了一种能够处理新标记和缺失标记的图像标注方法,旨在克服了现有多图多标记方法的适用场景限制,能够有效地处理带有新标记和缺失标记的图像数据,对图像数据进行准确的标注。
[0007]本专利技术的技术方案为:一种能够处理新标记和缺失标记的图像标注方法,包括以下步骤:
[0008]步骤1:获取真实的原始图像数据集,并对该真实的原始图像数据集进行数据预处理,获得多图数据集,其中包括多图包结构表示和已知类别标记集合,将多图数据集分为训
练集以及测试集;
[0009]按图像的各个物体将每幅图像划分为多个区域,每个区域对应于一个标记,使用超像素分割算法SLIC对每个区域进行切割得到多个超像素点,将每个超像素点视为一个节点,相邻的超像素点认为有边存在,每个节点的特征取RGB颜色直方图和方向梯度直方图的向量合值,此时图像的每个区域被转成一个图,则一个图像能被表示为一个图包;对原始图像数据集进行预处理,即对图像处理后得到多图数据集;将训练时的多图包表示为像数据集进行预处理,即对图像处理后得到多图数据集;将训练时的多图包表示为其中,n表示多图包个数,将一个多图包B
i
表示B
i
={g
i1
,g
i2
,

,g
ini
},其中g
ij
表示在第i个包中的第j个图,n
i
表示在第i个包中的图个数,1≤i≤n,1≤j≤n
i
;将与多图包相应的已知的标记集合表示为Y={y1,y2,

,y
n
}∈{0,1}
n
×
c
,其中,包B
i
的标记被表示为y
i
={y
i1
,y
i2
,

,y
ic
},c是已知标记个数,当y
ik
=1时表示第i个包属于第k个类标记,当y
ik
=0时表示第i个包不属于第k个类标记或者当前值缺失,设定有q个新标记未被挖掘,l=c+q是所有标记个数,则完整的标记集合应是Y={y1,y2,

,y
n
}∈{0,1}
n
×
l

[0010]步骤2:将多图包中的每个图从图空间映射到高维特征空间,使用图核方法计算在训练集中的每个图与多图包中所有的图之间的相似性,从而得到关于每个图的基于图核的图表示;
[0011]对于任意的一个图g,计算图g与多图包中所有图的相似性,得到基于图核的图表示,具体公式如下:
[0012]x
g
=f(g)=[K(g,g1),

,K(g,g
d
)]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0013]其中,g
i
为数据集中的第i个图,d是所有图的个数,K(
·
,
·
)表示图核函数;
[0014]步骤3:基于所有图的图表示,利用权重矩阵W对类别标记进行语义描述,对图与标记之间的关系进行建模,构造图标记的置信度矩阵
[0015]为学习图的不完整的标记信息,定义一个未知的图标记的置信度矩阵对图表示与标记之间的关系进行建模,具体公式如下:
[0016][0017]其中,W是所有标记对应的权重向量构成的权重矩阵,是图标记的置信度矩阵,由图的所有标记的置信度向量构成,包括已知标记和新标记,X
G
={x
g1
,

,x
gN
}是由所有图的图标记构成的图表示矩阵,α是正则化参数,||
·
||1是l1范数;
[0018]步骤4:构造两视角正则化项、投影相似性正则化项和包相关正则化项以对图标记的置信度矩阵进行学习;
[0019]步骤4.1:为了学习图标记的置信度矩阵构造两视角正则化项,从图相关和标记相关的角度制造两个假设;从图相关角度,假设在图空间中相互靠近的图更有可能关联相似的标记,即对图的相似性矩阵S进行分解得到从标记相关角度,多个标记之间通常是相关的,假设图的标记能够从相似的标记中推断,即对标记的相似性矩阵C进行分解得到同时从这两个角度进行假设获得一个两视角正则化项,对图标记的置信度矩阵恢复,具体公式如下:
[0020][0021]其中,S是由图核方法计算得到的图的相似性矩阵,C是可学习的标记的相似性矩阵,||
·
||
F
是Frobenius范数,l=c+q是所有标记个数;
[0022]步骤4.2:计算已知标记的相似性,利用投影矩阵P,对标记的相似性矩阵C本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种能够处理新标记和缺失标记的图像标注方法,其特征在于,包括以下步骤:步骤1:获取真实的原始图像数据集,并对该真实的原始图像数据集进行数据预处理,获得多图数据集,其中包括多图包结构表示和已知类别标记集合,将多图数据集分为训练集以及测试集;步骤2:将多图包中的每个图从图空间映射到高维特征空间,使用图核方法计算在训练集中的每个图与多图包中所有的图之间的相似性,从而得到关于每个图的基于图核的图表示;步骤3:基于所有图的图表示,利用权重矩阵W对类别标记进行语义描述,对图与标记之间的关系进行建模,构造图标记的置信度矩阵步骤4:构造两视角正则化项、投影相似性正则化项和包相关正则化项以对图标记的置信度矩阵进行学习;步骤5:基于步骤4构建的三项正则化项,即公式(3)

(5),形成一个最小化目标函数以对图的新标记和缺失标记进行学习;步骤6:通过加速近端梯度法和近端梯度法对步骤5中的最小化目标函数进行优化更新,得到更新后的权重矩阵W,进而构建能够同时对新标记和缺失标记进行建模的分类器;步骤7:给定测试集中的一个测试包根据步骤6学习到的权重矩阵W,构建图级分类器,对测试包中的图进行标记预测,并利用包的标记与图的标记的关系,从而实现对未知多图包的标记预测,完成图像数据的标注。2.根据权利要求1所述的一种能够处理新标记和缺失标记的图像标注方法,其特征在于,所述步骤1具体为,按图像的各个物体将每幅图像划分为多个区域,每个区域对应于一个标记,使用超像素分割算法SLIC对每个区域进行切割得到多个超像素点,将每个超像素点视为一个节点,相邻的超像素点认为有边存在,每个节点的特征取RGB颜色直方图和方向梯度直方图的向量合值,此时图像的每个区域被转成一个图,则一个图像能被表示为一个图包;对原始图像数据集进行预处理,即对图像处理后得到多图数据集;将训练时的多图包表示为其中,n表示多图包个数,将一个多图包B
i
表示其中g
ij
表示在第i个包中的第j个图,n
i
表示在第i个包中的图个数,1≤i≤n,1≤j≤n
i
;将与多图包相应的已知的标记集合表示为Y={y1,y2,

,y
n
}∈{0,1}
n
×
c
,其中,包B
i
的标记被表示为y
i
={y
i1
,y
i2
,

,y
ic
},c是已知标记个数,当y
ik
=1时表示第i个包属于第k个类标记,当y
ik
=0时表示第i个包不属于第k个类标记或者当前值缺失,设定有q个新标记未被挖掘,l=c+q是所有标记个数,则完整的标记集合应是Y={y1,y2,

,y
n
}∈{0,1}
n
×
l
。3.根据权利要求1所述的一种能够处理新标记和缺失标记的图像标注方法,其特征在于,所述步骤2具体为,对于任意的一个图g,计算图g与多图包中所有图的相似性,得到基于图核的图表示,具体公式如下:x
g
=f(g)=[K(g,g1),

,K(g,g
d
)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,g
i
为数据集中的第i个图,d是所有图的个数,K(
·
,
·
)表示图核函数。4.根据权利要求1所述的一种能够处理新标记和缺失标记的图像标注方法,其特征在于,所述步骤3具体为,为学习图的不完整的标记信息,定义一个未知的图标记的置信度矩阵对图表示与标记之间的关系进行建模,具体公式如下:
其中,W是所有标记对应的权重向量构成的权重矩阵,是图标记的置信度矩阵,由图的所有标记的置信度向量构成,包括已知标记和新标记,是由所有图的图标记构成的图表示矩阵,α是正则化参数,||
·
||1是范数。5.根据权利要求1所述的一种能够处理新标记和缺失标记的图像标注方法,其特征在于,所述步骤4具体包括以下步骤:步骤4.1:为了学习图标记的置信度矩阵构造两视角正则化项,从图相关和标记相关的角度制造两个假设;从图相关角度,假设在图空间中相互靠近的图更有可能...

【专利技术属性】
技术研发人员:赵宇海黄苗苗田鑫王业江印莹
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1