一种基于聚类信息熵的易区分图像选择方法技术

技术编号：30432056 阅读：19 留言：0更新日期：2021-10-24 17:26

本发明专利技术涉及深度学习和图像处理领域，具体是一种基于聚类信息熵的易区分图像选择方法，包括如下步骤：首先，利用已有成熟网络提取图片特征；其次，对特征聚类并向产生低熵特征的方向优化特征提取网络；最后，利用函数拟合寻找熵值突变点，选择熵值小于突变点之下的图像。在聚类过程中，当图像的熵值越低，意味着图像中所包含的内容越单一，质量越高，利用上述方法在训练分类模型或聚类模型之前提取易训练的图像样本，可以解决数据噪声大、质量差的问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类信息熵的易区分图像选择方法

[0001]本专利技术涉及深度学习和图像处理领域，具体是指一种基于聚类信息熵的易区分图像选择方法。

技术介绍

[0002]随着智能手机和社交媒体的普及，图像数据的产生速度越来越快，每天都有海量的图像数据被上传到公开网络上；对这些数据进行分析可以获得大量的有效信息，比如人们的饮食喜好，旅游喜好等等，具有重要的商用价值；但网络上的数据往往质量较差，内容杂乱，数据分析模型往往难以抓住重点，更可能导致模型训练过程中的崩溃；因此，在对海量数据进行分析之前，往往需要进行数据预处理；数据预处理的第一步就是筛出掉不合格的数据，选择质量好的数据往往是预处理的第一步。
[0003]图像搜索，数据匹配等操作都以数据的分类或聚类为基础操作，因此，选择出好的，适用于分类与聚类的图像样本是训练一个好的神经网络的必要操作。

技术实现思路

[0004]基于以上问题，本专利技术提供了一种基于聚类信息熵的易区分图像选择方法，实现了对数据进行分类或聚类操作前，排除掉噪声大、质量差的数据样本。
[0005]为解决以上技术问题，本专利技术采用的技术方案如下：
[0006]一种基于聚类信息熵的易区分图像选择方法，包括如下步骤：
[0007]步骤一、构建图像数据集，将图像数据集划分为训练集和验证集，并对图像进行预处理；
[0008]步骤二、构建特征提取网络，特征提取网络包含特征提取部分以及特征提取部分之后连接一个全连接层和聚类层；
[0009]步骤三、将训练集...

【技术保护点】

【技术特征摘要】
1.一种基于聚类信息熵的易区分图像选择方法，其特征在于，包括如下步骤：步骤一、构建图像数据集，将图像数据集划分为训练集和验证集，并对图像进行预处理；步骤二、构建特征提取网络，特征提取网络包含特征提取部分以及特征提取部分之后连接一个全连接层和聚类层；步骤三、将训练集输入构建好的特征提取网络中进行训练并输出每个样本属于各个类的概率分布矩阵P；步骤四、根据概率分布矩阵P计算目标概率分布矩阵Q；步骤五、计算概率分布矩阵P和目标概率分布矩阵Q的指数损失的变化率，若指数损失的变化率小于阈值，则停止网络训练保存模型，并进入步骤六，若指数损失的变化率大于阈值，则开始新一轮的网络训练，并进入步骤三；步骤六、模型收敛后进行多项式函数拟合每一个类中样本的熵值分布，计算拟合函数导数，并设置导数突增点，输出导数突增点以下的样本集形成低熵样本集；步骤七、利用低熵样本集训练一个分类或聚类模型，并用验证集对分类或聚类模型进行验证。2.根据权利要求1所述的一种基于聚类信息熵的易区分图像选择方法，其特征在于，所述步骤一中，图像数据集为OFFICE
‑
Home，该图像数据集按照9:1的比例将所有图像划分为训练集和验证集。3.根据权利要求2所述的一种基于聚类信息熵的易区分图像选择方法，其特征在于，所述步骤一中，图像预处理过程包括对图像进行上采样和下采样操作，其中，上采样采用三次内插法，下采样根据采用目标尺寸以及原有尺寸隔行隔列采样，图像经过上采样和下采样处理后尺寸统一为299*299*3。4.根据权利要求1所述的一种基于聚类信息熵的易区分图像选...

【专利技术属性】
技术研发人员：任亚洲，杨之蒙，吴子锐，蒲晓蓉，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人