一种基于多层字典学习的图像自动标注方法技术

技术编号：40198045 阅读：8 留言：0更新日期：2024-01-27 00:02

本发明专利技术公开一种基于多层字典学习的图像自动标注方法，本方法包括以下步骤：S1、图像放缩至224x224像素，输入至神经网络，神经网络层数为一层卷积，三层全连接；S2、神经网络输出2048维向量，输入至第一层字典学习；S3、第一层字典经过稀疏分解得到300维向量，输入至第二层字典学习，第二层字典学习经过稀疏分解得到30维向量，输入至线性分类器；S4、分类器针对每一个标签打分，将分数排序，取其中邻近差值最大的两个分数作为阈值，该阈值以上的标签为自动标注结果。本发明专利技术解决图像自动标注中遇到的分类问题，结合多种算法融合的思路提出并实现多层融合字典学习算法，并用神经网络降维传统服饰图像，在多标签标注实验中取得了良好的结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像标注，具体为一种基于多层字典学习的图像自动标注方法。

技术介绍

1、中华文明是世界上最古老的文明之一，拥有五千多年的历史。在这个漫长的历史过程中，中华文明形成了一套独特的传统文化体系。在中国传统文化中，纹样图案是内含丰富内容的载体，因此传统纹样的研究在中国传统文化传承中非常重要。近年来，字典学习在图像分类和信号处理领域受到越来越多的关注，并逐渐在图像分类、目标检测、图像标注等计算机视觉任务中取得了显著的进展。得益于这些成果，如今已经成功应用于人脸识别、图像去噪、图像特征提取等领域，基于字典学习的分类算法效果也非常明显，极大地提升了数据处理的效率。图像分类的任务是预测图像所属类别。分类问题是图像处理任务中最常见的问题，多标签标注问题是分类问题中的一个重点难题。

技术实现思路

1、本专利技术的目的在于提供一种基于多层字典学习的图像自动标注方法，以解决上述
技术介绍
中提出的问题。

2、一种基于多层字典学习的图像自动标注方法，本方法包括以下步骤：

3、s1、图像放缩至224x224像素，输入至神经网络，神经网络层数为一层卷积，三层全连接；

4、s2、神经网络输出2048维向量，输入至第一层字典学习；

5、s3、第一层字典经过稀疏分解得到300维向量，输入至第二层字典学习，第二层字典学习经过稀疏分解得到30维向量，输入至线性分类器；

6、s4、分类器针对每一个标签打分，将分数排序，取其中邻近差值最大的两个分数作为阈值

7、作为本专利技术的进一步改进，所述步骤s2中输入至第一层字典的数据为原始数据y∈rm×n，第一层字典d1，通过第一层字典对原始数据进行稀疏分解得到稀疏矩阵x1并满足y≈d1x1。

8、作为本专利技术的进一步改进，所述步骤s3中第二层字典为d2，并步骤s2中稀疏分解得到稀疏矩阵x2，层层递进一直到l层，有每一层训练时都减少稀疏分解过程中的残差，总残差为所有层残差之和

9、作为本专利技术的进一步改进，所述步骤s4中将步骤s3最后一层得到最终稀疏矩阵xl后，采用线性分类器进行分类，设原始数据有c个类别，训练c个超平面以及偏差b＝[b1,b2,…,bc]∈r1×c，根据以上得到整体目标函数：

10、

11、其中，d是字典，x是稀疏矩阵，w和b是线性分类器的参数，yc＝1时表示样本带有第c个类别的标签，yc＝-1时表示样本不带有该标签。

12、作为本专利技术的进一步改进，所述标签公式中任意的稀疏矩阵xi中的任意列向量都带有l1约束，是第一层的重建误差，在整体目标函数公式的基础上引入字典去相关，得到公式：

13、

14、作为本专利技术的进一步改进，所述第一层字典和第二层字典包括超参数训练数据的维度，所述训练数据的维度特征提取算法对图像的降维程度决定。

15、作为本专利技术的进一步改进，所述第一层字典和第二层字典还包括每一层的字典原子个数，字典原子个数越多，字典复杂度越高，对图像表征能力越强。

16、作为本专利技术的进一步改进，所述第一层字典和第二层字典还包括每一层稀疏度，稀疏值则和字典原子个数以及字典相关性度量值相关，确保字典具有低相关度量值，否则稀疏度取一个过低的值，不利于字典对图像进行表征。

17、作为本专利技术的进一步改进，所述稀疏值和字典原子个数呈现正相关，原子个数变多，稀疏值能变大，通过多次实验确定合适的稀疏值，需要注意的是并不是稀疏值，而是每一层的字典原子个数决定下一层字典训练数据的维度。

18、作为本专利技术的进一步改进，所述稀疏矩阵中包括多零元素，且正交匹配跟踪算法能够实现某一层中每一个稀疏向量的非零元素个数都相同，当把零元素去掉后每一个稀疏向量的维度依然相等，也丢失了非零元素在稀疏向量中的位置信息，选择不去零的方案，直接用上一层稀疏分解得到的结果作为下一层的训练数据。

19、与现有技术相比，本专利技术的有益效果是：

20、本专利技术从未标记的数据中学习一组基础向量，以便于对这些数据进行编码和表示，字典学习的目标是寻找一组基础向量，使得这些向量能够对给定数据进行最优的表示，训练一个字典，并从这个字典中选取少量的原子，通过被选中原子的线性组合来对原始数据集进行重建，解决图像自动标注中遇到的分类问题，结合多种算法融合的思路提出并实现多层融合字典学习算法，并用神经网络降维传统服饰图像，在多标签标注实验中取得了良好的结果。

本文档来自技高网...

【技术保护点】

1.一种基于多层字典学习的图像自动标注方法，其特征在于：本方法包括以下步骤：

2.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述步骤S2中输入至第一层字典的数据为原始数据Y∈RM×N，第一层字典D1，通过第一层字典对原始数据进行稀疏分解得到稀疏矩阵X1并满足Y≈D1X1。

3.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述步骤S3中第二层字典为D2，并步骤S2中稀疏分解得到稀疏矩阵X2，层层递进一直到l层，有每一层训练时都减少稀疏分解过程中的残差，总残差为所有层残差之和

4.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述步骤S4中将步骤S3最后一层得到最终稀疏矩阵Xl后，采用线性分类器进行分类，设原始数据有C个类别，训练C个超平面以及偏差b＝[b1,b2,…,bc]∈R1×C，根据以上得到整体目标函数：

5.根据权利要求4所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述标签公式中任意的稀疏矩阵Xi中的任意列向量都带有l1约束，是第

6.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述第一层字典和第二层字典包括超参数训练数据的维度，所述训练数据的维度特征提取算法对图像的降维程度决定。

7.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述第一层字典和第二层字典还包括每一层的字典原子个数，字典原子个数越多，字典复杂度越高，对图像表征能力越强。

8.根据权利要求1和7所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述第一层字典和第二层字典还包括每一层稀疏度，稀疏值则和字典原子个数以及字典相关性度量值相关，确保字典具有低相关度量值，否则稀疏度取一个过低的值，不利于字典对图像进行表征。

9.根据权利要求7和8所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述稀疏值和字典原子个数呈现正相关，原子个数变多，稀疏值能变大，通过多次实验确定合适的稀疏值，需要注意的是并不是稀疏值，而是每一层的字典原子个数决定下一层字典训练数据的维度。

10.根据权利要求1-9所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述稀疏矩阵中包括多零元素，且正交匹配跟踪算法能够实现某一层中每一个稀疏向量的非零元素个数都相同，当把零元素去掉后每一个稀疏向量的维度依然相等，也丢失了非零元素在稀疏向量中的位置信息，选择不去零的方案，直接用上一层稀疏分解得到的结果作为下一层的训练数据。

...

【技术特征摘要】

1.一种基于多层字典学习的图像自动标注方法，其特征在于：本方法包括以下步骤：

2.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述步骤s2中输入至第一层字典的数据为原始数据y∈rm×n，第一层字典d1，通过第一层字典对原始数据进行稀疏分解得到稀疏矩阵x1并满足y≈d1x1。

3.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述步骤s3中第二层字典为d2，并步骤s2中稀疏分解得到稀疏矩阵x2，层层递进一直到l层，有每一层训练时都减少稀疏分解过程中的残差，总残差为所有层残差之和

4.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述步骤s4中将步骤s3最后一层得到最终稀疏矩阵xl后，采用线性分类器进行分类，设原始数据有c个类别，训练c个超平面以及偏差b＝[b1,b2,…,bc]∈r1×c，根据以上得到整体目标函数：

5.根据权利要求4所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述标签公式中任意的稀疏矩阵xi中的任意列向量都带有l1约束，是第一层的重建误差，在整体目标函数公式的基础上引入字典去相关，得到公式：

6.根据权利要求1所述的一种基于多层字典学习的图像自动标注方法，其特征在于：所述第一层字典和第...

【专利技术属性】
技术研发人员：徐坤，赵海英，周月，王梓舟，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人