一种基于聚类信息熵的易区分图像选择方法技术

技术编号:30432056 阅读:19 留言:0更新日期:2021-10-24 17:26
本发明专利技术涉及深度学习和图像处理领域,具体是一种基于聚类信息熵的易区分图像选择方法,包括如下步骤:首先,利用已有成熟网络提取图片特征;其次,对特征聚类并向产生低熵特征的方向优化特征提取网络;最后,利用函数拟合寻找熵值突变点,选择熵值小于突变点之下的图像。在聚类过程中,当图像的熵值越低,意味着图像中所包含的内容越单一,质量越高,利用上述方法在训练分类模型或聚类模型之前提取易训练的图像样本,可以解决数据噪声大、质量差的问题。问题。问题。

【技术实现步骤摘要】
一种基于聚类信息熵的易区分图像选择方法


[0001]本专利技术涉及深度学习和图像处理领域,具体是指一种基于聚类信息熵的易区分图像选择方法。

技术介绍

[0002]随着智能手机和社交媒体的普及,图像数据的产生速度越来越快,每天都有海量的图像数据被上传到公开网络上;对这些数据进行分析可以获得大量的有效信息,比如人们的饮食喜好,旅游喜好等等,具有重要的商用价值;但网络上的数据往往质量较差,内容杂乱,数据分析模型往往难以抓住重点,更可能导致模型训练过程中的崩溃;因此,在对海量数据进行分析之前,往往需要进行数据预处理;数据预处理的第一步就是筛出掉不合格的数据,选择质量好的数据往往是预处理的第一步。
[0003]图像搜索,数据匹配等操作都以数据的分类或聚类为基础操作,因此,选择出好的,适用于分类与聚类的图像样本是训练一个好的神经网络的必要操作。

技术实现思路

[0004]基于以上问题,本专利技术提供了一种基于聚类信息熵的易区分图像选择方法,实现了对数据进行分类或聚类操作前,排除掉噪声大、质量差的数据样本。
[0005]为解决以上技术问题,本专利技术采用的技术方案如下:
[0006]一种基于聚类信息熵的易区分图像选择方法,包括如下步骤:
[0007]步骤一、构建图像数据集,将图像数据集划分为训练集和验证集,并对图像进行预处理;
[0008]步骤二、构建特征提取网络,特征提取网络包含特征提取部分以及特征提取部分之后连接一个全连接层和聚类层;
[0009]步骤三、将训练集输入构建好的特征提取网络中进行训练并输出每个样本属于各个类的概率分布矩阵P;
[0010]步骤四、根据概率分布矩阵P计算目标概率分布矩阵Q;
[0011]步骤五、计算概率分布矩阵P和目标概率分布矩阵Q的指数损失的变化率,若指数损失的变化率小于阈值,则停止网络训练保存模型,并进入步骤六,若指数损失的变化率大于阈值,则开始新一轮的网络训练,并进入步骤三;
[0012]步骤六、模型收敛后进行多项式函数拟合每一个类中样本的熵值分布,计算拟合函数导数,并设置导数突增点,输出导数突增点以下的样本集形成低熵样本集;
[0013]步骤七、利用低熵样本集训练一个分类或聚类模型,并用验证集对分类或聚类模型进行验证。
[0014]进一步,所述步骤一中,图像数据集为OFFICE

Home,该图像数据集按照9:1的比例将所有图像划分为训练集和验证集。
[0015]进一步,所述步骤一中,图像预处理过程包括对图像进行上采样和下采样操作,其
中,上采样采用三次内插法,下采样根据采用目标尺寸以及原有尺寸隔行隔列采样,图像经过上采样和下采样处理后尺寸统一为299*299*3。
[0016]进一步,所述步骤二中,特征提取网络使用ResNet50的第一层至倒数第二层作为特征提取部分对图像的特征表示进行提取,初始化参数选择AlexNet参数,参数不冻结,所述全连接层的输出维度和图片类别数量相同,每个神经元均代表一个类,其输出为图像属于该类的可能性,所述聚类层的输出输入维度均为图像类别数量,用于将上一层所输出的样本类别概率做归一化并使其符合高斯分布。
[0017]进一步,所述全连接层的神经元数量为31。
[0018]进一步,所述聚类层使用K

means算法对提取的特征表示进行聚类,并用得到的类中心初始化聚类层,其中,采用不同的质心初始化值运行算法的次数为20。
[0019]进一步,所述步骤四中,目标概率分布矩阵Q的计算公式为:
[0020][0021]其中,p
ij
表示样本i属于类别j的概率,q
ij
是p
ij
的目标分布,用于计算神经网络参数更新值,共有n个样本和m个类,l表示分布向低熵分布的步幅大小且l=3。
[0022]进一步,所述步骤六中,所述多项式函数中最高次项设置为10。
[0023]进一步,所述步骤六中,所述导数突增点设置为10。
[0024]与现有技术相比,本专利技术的有益效果是:其通过优化数据样本在聚类过程中,其类别可能性的熵的分布,使可信度较高的样本拥有更小的熵值,可信度低的样本拥有更大的熵值,后续通过使用多项式函数拟合各个簇中样本熵的分布,选择熵值突变点以下的样本提供给后续工作,排除了噪声大、质量差的数据样本。
附图说明
[0025]图1为本实施例1的流程图。
具体实施方式
[0026]下面结合附图对本专利技术作进一步的说明。本专利技术的实施方式包括但不限于下列实施例。
[0027]如图1所示的一种基于聚类信息熵的易区分图像选择方法,包括如下步骤:
[0028]步骤一、构建图像数据集,将图像数据集划分为训练集和验证集,并对图像进行预处理。
[0029]该步骤中,按照90%训练集,10%验证集将图像数据集分为训练集和验证集,同时,本实施例图像数据集为OFFICE

Home。
[0030]该步骤中,图像预处理包括对图像进行上采样和下采样操作,其中,上采样采用三次内插法,下采样根据采用目标尺寸以及原有尺寸隔行隔列采样,图像经过上采样和下采样处理后尺寸统一为299*299*3以适配ResNet50网络的输入标准。
[0031]步骤二、构建特征提取网络。
[0032]该步骤中,特征提取网络包含特征提取部分以及特征提取部分之后连接一个全连
接层和聚类层。
[0033]该步骤中,特征提取网络使用ResNet50的第一层至倒数第二层作为特征提取部分对图像的特征表示进行提取,初始化参数选择AlexNet参数,参数不冻结。
[0034]该步骤中,全连接层的输出维度和图片类别数量相同,每个神经元均代表一个类,其输出为图像属于该类的可能性,同时,本实施例中,全连接层的神经元数量为31。
[0035]该步骤中,聚类层的输出输入维度均为图像类别数量,用于将上一层所输出的样本类别概率做归一化并使其符合高斯分布,同时,本实施例中,聚类层使用K

means算法对提取的特征表示进行聚类,并用得到的类中心初始化聚类层,其中,采用不同的质心初始化值运行算法的次数为20。
[0036]步骤三、将训练集输入构建好的特征提取网络中进行训练并输出每个样本属于各个类的概率分布矩阵P。
[0037]步骤四、根据概率分布矩阵P计算目标概率分布矩阵Q。
[0038]该步骤中,目标概率分布矩阵Q的计算公式为:
[0039][0040]其中,p
ij
表示样本i属于类别j的概率,q
ij
是p
ij
的目标分布,用于计算神经网络参数更新值,共有n个样本和m个类,l表示分布向低熵分布的步幅大小且l=3。
[0041]步骤五、计算概率分布矩阵P和目标概率分布矩阵Q的指数损失的变化率,若指数损失的变化率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类信息熵的易区分图像选择方法,其特征在于,包括如下步骤:步骤一、构建图像数据集,将图像数据集划分为训练集和验证集,并对图像进行预处理;步骤二、构建特征提取网络,特征提取网络包含特征提取部分以及特征提取部分之后连接一个全连接层和聚类层;步骤三、将训练集输入构建好的特征提取网络中进行训练并输出每个样本属于各个类的概率分布矩阵P;步骤四、根据概率分布矩阵P计算目标概率分布矩阵Q;步骤五、计算概率分布矩阵P和目标概率分布矩阵Q的指数损失的变化率,若指数损失的变化率小于阈值,则停止网络训练保存模型,并进入步骤六,若指数损失的变化率大于阈值,则开始新一轮的网络训练,并进入步骤三;步骤六、模型收敛后进行多项式函数拟合每一个类中样本的熵值分布,计算拟合函数导数,并设置导数突增点,输出导数突增点以下的样本集形成低熵样本集;步骤七、利用低熵样本集训练一个分类或聚类模型,并用验证集对分类或聚类模型进行验证。2.根据权利要求1所述的一种基于聚类信息熵的易区分图像选择方法,其特征在于,所述步骤一中,图像数据集为OFFICE

Home,该图像数据集按照9:1的比例将所有图像划分为训练集和验证集。3.根据权利要求2所述的一种基于聚类信息熵的易区分图像选择方法,其特征在于,所述步骤一中,图像预处理过程包括对图像进行上采样和下采样操作,其中,上采样采用三次内插法,下采样根据采用目标尺寸以及原有尺寸隔行隔列采样,图像经过上采样和下采样处理后尺寸统一为299*299*3。4.根据权利要求1所述的一种基于聚类信息熵的易区分图像选...

【专利技术属性】
技术研发人员:任亚洲杨之蒙吴子锐蒲晓蓉
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1