改进混合采样及降噪自编码下的古董玻璃分类方法及系统技术方案

技术编号:37565994 阅读:14 留言:0更新日期:2023-05-15 07:46
本发明专利技术公开了一种改进混合采样及降噪自编码下的古董玻璃分类方法及系统,对获取的不平衡古董玻璃成分数据信息进行数据转换,运用套索回归降低每个古董玻璃样本点数据的维度,再通过基于高斯混合聚类的SMOTE方法,生成新的少数样本点,然后基于交叉验证的欠采样方法去除多数样本点,平衡数据集样本点数量,通过降噪自编码网络对采样后的数据降噪,增强其抗干扰能力,最终带入逻辑回归与支持向量机两大分类器,训练古董玻璃分类模型,利用古董玻璃分类模型对古董玻璃样本点数据进行分类,使得本发明专利技术最终训练的古董玻璃分类模型具有更强的鲁棒性,最终玻璃分类的精度得到提高。最终玻璃分类的精度得到提高。最终玻璃分类的精度得到提高。

【技术实现步骤摘要】
改进混合采样及降噪自编码下的古董玻璃分类方法及系统


[0001]本专利技术涉及数据识别
,尤其是一种改进混合采样及降噪自编码下的古董玻璃分类方法及系统。

技术介绍

[0002]古董文物是古代遗存下来的文化遗存物质,包括传世品和地下出土品。被视做人类文明和历史的缩影,融合了历史学、方志学、金石学、博物学、鉴定学及科技史学等知识内涵。在古董文物分类的研究中,工艺发展的复杂性、不同时期材料变化和社会文化等因素都影响鉴别工作者的判断。
[0003]对于古董玻璃艺术品分类,多元统计的应用相当成熟,其中最广泛应用的分类方法为聚类分析和因子分析。聚类分析以各样本点中的化学元素含量为变量,以每个样品代表一个事件进行聚类。因子分析以化学元素为变量,采用主成分分析法和正交因子旋转进行古董玻璃分类。以上两种方法存在如下缺陷:其一,聚类分析和因子分析需数值类型数据集,而在实际考古学领域,多用成分类型而非数值类型记录古董玻璃数据样本点,成分数据反映古董玻璃化学元素的比例,而非真实值。直接运用聚类分析和因子分析不符合实际情况,缺少成分数据转换为普通数值数据这一步骤。其二,不同古董玻璃样本点数量差异较大,数据集的不平衡也增加了技术难度,上述方法未考虑是否需要平衡数据集。其三,分类器预测的准确度可能受外界干扰严重,上述聚类分析和因子分析方法未考虑对数据进行降噪处理以保持古董玻璃分类预测模型准确性。

技术实现思路

[0004]专利技术目的:本专利技术的目的是提供一种改进混合采样及降噪自编码下的古董玻璃分类方法及系统,对样本点数量不均衡的古董玻璃成分数据集转换,在改进混合采样后对数据进行加噪声处理,使得输出的结果无限接近原始数据。
[0005]技术方案:一种改进混合采样及降噪自编码下的古董玻璃分类方法,包含以下步骤:S1、获取古董玻璃成分数据集,对古董玻璃成分数据集进行预处理,得到数值型数据并进行套索回归降维处理,得到最优特征子集;S2、根据不同古董玻璃标签的样本点数量将最优特征子集中的样本点进行分类,分别记为少数类样本点及多数类样本点,对少数类样本点采用高斯混合聚类的SMOTE方法,生成新样本点数据集;S3、基于交叉验证的欠采样方法,将多数类样本点进行次划分,将折交叉验证过程实验中得到的个处理后的数据合并为处理后的多数类样本点,记为数据集,将数据集与数据集的样本点合并生成平衡数据集;S4、将平衡数据集加入噪声,通过降噪自编码神经网络算法训练得到降噪后的
数据集;S5、将数据集划分训练集与测试集,在逻辑回归和支持向量机分类模型中输入训练集,得到训练好的玻璃分类模型;将测试集的样本点带入训练好的玻璃分类模型得到古董玻璃种类预测结果。
[0006]进一步的,步骤S1中,具体包含以下步骤:1.1)对古董玻璃成分数据集进行预处理时,剔除无效数据后,对零成分进行替换,运用 准则,设0为近似零成分,将各行样本点的0替换成各样本点中最小数据的三分之二倍;1.2)古董玻璃由不同化学元素组成,每个样本点中各化学元素成分占比之和为100%,对于古董玻璃中各化学元素成分占比之和不等于100%的样本点,即样本点中各化学元素成分占比之和为,且;进行定和约束,用该样本点的每个化学元素成分占比比上该样本点的成分占比之和,得到新的比例,替换先前化学元素的成分比例数据;1.3)采用Logratio非对称对数变换,将由化学元素组成的比例数据转换为数值型数据;1.4)将数值型数据集中的样本点元素数值输入进行套索回归,记为,通过缩减变量集的正则化技术和惩罚函数构造回归模型,同时利用Ll范数,压缩模型系数;1.5)套索回归的惩罚项为带惩罚系数的向量的 L1范数;不断调整的值,降低模型数据的整体回归系数,不断压缩不显著的变量系数,直至其变为零,而变量系数不为零的为所需输入指标,得到降维后的古董玻璃数据集,即最优特征子集。
[0007]进一步的,步骤S2中,具体包含以下步骤:2.1)根据不同古董玻璃标签的样本点数量将最优特征子集中样本点进行分类,分别记为少数类样本点及多数类样本点,少数类样本点数量小于多数类样本点;2.2)针对少数类样本点,以肘部法则确定高斯混合聚类的初始组数,即聚簇数;在套索回归降维处理后的古董玻璃数据集基础上,对进行迭代计算,得出最佳聚类簇;2.3)在最佳聚类簇的基础上对少数类样本点进行高斯GMM聚类,聚簇中心点为C,定义与中心存在重叠的样本点为冗余样本点,删除冗余样本点,保留有效数据;2.4)运用SMOTE过采样生成新的样本点,记为新样本点数据集。
[0008]进一步的,步骤S3中,具体包含以下步骤:3.1)采用基于折交叉验证过程将多数类样本点分成个子集;多数类样本点共划分次,取第次划分中交叉验证过程中的第个子集记为,,将第次交叉验证过程划分的个子集中除子集以外的子集记为,将与少数类样本点合并后训练古董玻璃分类器,并利用古董玻璃分类器预测子集的数据,将子集中被预测为少数类样本点的数据删除,得到处理后的;3.2)将处理后的合并为处理后的多数类样本点,记为数据集;3.3)将新样本点数据集的样本点与数据集的样本点合并作为的新的平衡数
据集。
[0009]进一步的,步骤S4中,具体包含以下步骤:4.1)首先构建降噪自编码神经网络算法的三层网络,在输入层输入平衡数据集的每个样本点的化学元素,设输入向量为,使用非线性sigmond函数s作为神经元的激活函数,为第一层映射到第二层的权值矩阵;网络第一层到第二层的变化如下:;其中,,是网络的偏置,通过第二层的输出结果重构,公式如下:;第三层输出为通过第二层的对第一层的预测,使和相接近,是网络第二层与第三次层之间的权值矩阵,网络中的权值矩阵约束为,是的转置,是第二层中网络的偏置;4.2)训练自编码网络,对于单个古玻璃样本点,选用平方误差损失函数:;其中,是输入的维度,表示第一层输入的维向量,表示第三层预测的维向量,;对于一个个样本点的训练数据,表示取第个样本点时,输入的维向量;表示取第个样本点时,预测的维向量,;样本点平均误差计算方法为:;优化函数目标,对,,参数调节,使值达到最小,权重的更新规则如下:;其中,表示学习率;4.3)当取最小时,和达到最相近,即达到消除噪音目的;对平衡数据集消除噪音后,得到降噪后的数据集。
[0010]进一步的,步骤S5中,具体包含以下步骤:5.1)将降噪后的数据集分别带入Logistic和SVM分类器中,设置不同比例的训练集与测试集,选择预测准确率最高的比例,进行模型训练;5.2)将训练集输入至逻辑回归与支持向量机分类模型中,当逻辑回归与支持向量机模型的评价指标去线下面积取得最大值时,完成模型训练,得到玻璃分类模型,将测试集的样本点带入已训练好的逻辑回归与支持向量机模型得到古董玻璃种类预测结果。
[0011]本专利技术对应提供一种改进混合采样及降噪自编码下的古董玻璃分类系统,包含预处理模块、分类模块、交叉验证模块、降噪自编码训练模块、训练与预测模块;预处理模块用以获取古董玻璃成分数据集,对古董玻璃数据集进行预处理,得到数值型数据并进行套索回归降维处理,得到最优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,包含以下步骤:S1、获取古董玻璃数据集,对古董玻璃数据集进行预处理,得到数值型数据并进行套索回归降维处理,得到最优特征子集;S2、根据不同古董玻璃标签的样本点数量将最优特征子集中的样本点进行分类,分别记为少数类样本点及多数类样本点,对少数类样本点采用高斯混合聚类的SMOTE方法,生成新样本点数据集;S3、基于交叉验证的欠采样方法,将多数类样本点进行次划分,将折交叉验证过程实验中得到的个处理后的数据合并为处理后的多数类样本点,记为数据集,将数据集与数据集的样本点合并生成平衡数据集;为大于1的自然数,为大于1的自然数;S4、将平衡数据集加入噪声,通过降噪自编码神经网络算法训练得到降噪后的数据集;S5、将数据集划分训练集与测试集,在逻辑回归和支持向量机分类模型中输入训练集,得到训练好的玻璃分类模型;将测试集的样本点带入训练好的玻璃分类模型得到古董玻璃种类预测结果。2.根据权利要求1所述的改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,步骤S1中,具体包含以下步骤:1.1)对古董玻璃数据集进行预处理时,剔除无效数据后,对零成分进行替换,运用 准则,将各行样本点的0替换成各样本点中最小数据的三分之二倍;1.2)古董玻璃由不同化学元素组成,每个样本点中各化学元素成分占比之和为100%,对于古董玻璃中各化学元素成分占比之和不等于100%的样本点,即样本点中各化学元素成分占比之和为,且;进行定和约束,用该样本点的每个化学元素成分占比比上该样本点的成分占比之和,得到新的比例,替换先前化学元素的成分比例数据;1.3)采用Logratio非对称对数变换,将由化学元素组成的成分比例数据转换为数值型数据;1.4)将数值型数据集中的样本点元素数值输入进行套索回归,记为,通过缩减变量集的正则化技术和惩罚函数构造回归模型,同时利用Ll范数,压缩模型系数;1.5)套索回归的惩罚项为带惩罚系数的向量的 L1范数;不断调整的值,降低模型数据的整体回归系数,不断压缩不显著的变量系数,直至其变为零,而变量系数不为零的为所需输入指标,得到降维后的古董玻璃数据集,即最优特征子集。3.根据权利要求2所述的改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,步骤S2中,具体包含以下步骤:2.1)根据不同古董玻璃标签的样本点数量将最优特征子集中样本点进行分类,分别记为少数类样本点及多数类样本点,少数类样本点数量小于多数类样本点;2.2)针对少数类样本点,以肘部法则确定高斯混合聚类的初始组数,即聚簇数;在套索回归降维处理后的古董玻璃数据集基础上,对进行迭代计算,
得出最佳聚类簇;2.3)在最佳聚类簇的基础上对少数类样本点进行高斯GMM聚类,聚簇中心点为C,定义与中心存在重叠的样本点为冗余样本点,删除冗余样本点,保留有效数据;2.4)运用SMOTE过采样生成新的样本点,记为新样本点数据集。4.根据权利要求3所述的改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,步骤S3中,具体包含以下步骤:3.1)采用基于折交叉验证过程将多数类样本点分成个子集;多数类样本点共划分次,取第次划分中交叉验证过程中的第个子集记为,,将第次交叉验证过程划分的个子集中除子集以外的子集记为,将与少数类样本点合并后训练古董玻璃分类器,并利用古董玻璃分类器预测子集的数据,将子集中被预测为少数类样本点的数据删除,得到处理后的;3.2)将处理后的合并为处理后的多数类样本点,记为数据集;3.3)将新样本点数据集的样本点与数据集的样本点合并作为的新的平衡数据集。5.根据权利要求4所述的改进混合采样及降噪自编码下的古董玻璃分类方法,其特征在于,步骤S4中,具体包含以下步骤:4.1)首先构建降噪自编码神经网络算法的三层网络,在输入层输入平衡数据集的每个样本点的化学元素,设输入向量为,使用非线性sigmond函数s作为神经元的激活函数,为第一层映射到第二层的权值矩阵;网络第一层到第二层的变化如下:;其中,,是网络的偏置,通过第二层的输出结果重构,公式如下:;...

【专利技术属性】
技术研发人员:谭晨吴中明
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1