当前位置: 首页 > 专利查询>华侨大学专利>正文

过采样多聚类融合的数据预测方法、装置、设备及介质制造方法及图纸

技术编号:44601219 阅读:21 留言:0更新日期:2025-03-14 12:56
本发明专利技术提供的过采样多聚类融合的数据预测方法、装置、设备及介质,涉及数据预测领域。本发明专利技术通过获取原始数据集,进行预处理后,分为少数类数据和多数类数据;对少数类数据分别采用不同的聚类算法进行聚类,并将生成的聚类中心数据添加到少数类数据中;对添加聚类中心后的少数类数据进行IF‑SNNDPC聚类,并计算每个子簇的过采样数量;在每个子簇中,计算随机选择的两个非聚类中心的点与聚类中心之间的质心,并将质心作为新样本加入少数类数据中,直至满足对应子簇所需的样本数量,得到最终的少数类数据;将最终的少数类数据与多数类数据一起输入预先训练好的XGBoost模型,得到预测的数据。本发明专利技术能增加少数类别的样本数量,解决样本数据类别不平衡的问题。

【技术实现步骤摘要】

本专利技术涉及数据预测,具体而言,涉及一种过采样多聚类融合的数据预测方法、装置、设备及介质


技术介绍

1、目前,学生成绩预测方法一般通过构建模型对学生成绩进行预测。首先,需要收集与学生成绩相关的各种数据,并对这些数据进行预处理。随后,将处理后的数据划分为训练集和测试集,并使用训练集对模型进行训练。最后,利用测试集评估模型的预测效果。

2、然而,实际学生成绩数据集中的类别分布通常存在不均衡现象。例如,可能只有10%的学生成绩为优秀,50%的学生为良好,30%为及格,10%的学生成绩不及格。这样的不平衡现象使得现有模型在预测时往往偏向多数类别,从而忽略了少数类别。针对类别不平衡的问题,传统的学生成绩预测模型大多数难以有效应对这一问题,导致整体准确率较低,尤其在识别少数类别时表现不佳。目前,数据层面处理不平衡问题的方法并非专门针对学生成绩预测这一领域设计,因此难以显著提升预测精度。

3、有鉴于此,申请人在研究了现有的技术后特提出本申请。


技术实现思路

1、本专利技术旨在提供一种过采样多聚类本文档来自技高网...

【技术保护点】

1.一种过采样多聚类融合的数据预测方法,用于学生成绩预测,其特征在于,包括:

2.根据权利要求1所述的一种过采样多聚类融合的数据预测方法,其特征在于,所述不同的聚类算法包括GMM聚类算法与k-means聚类算法。

3.根据权利要求1所述的一种过采样多聚类融合的数据预测方法,其特征在于,所述IF-SNNDPC聚类通过引力公式来重新构建DPC聚类中的相似度度量公式,其表达式为:

4.根据权利要求1所述的一种过采样多聚类融合的数据预测方法,其特征在于,每个子簇的过采样数量的计算公式为:

5.根据权利要求1所述的一种过采样多聚类融合的数据预测方法,...

【技术特征摘要】

1.一种过采样多聚类融合的数据预测方法,用于学生成绩预测,其特征在于,包括:

2.根据权利要求1所述的一种过采样多聚类融合的数据预测方法,其特征在于,所述不同的聚类算法包括gmm聚类算法与k-means聚类算法。

3.根据权利要求1所述的一种过采样多聚类融合的数据预测方法,其特征在于,所述if-snndpc聚类通过引力公式来重新构建dpc聚类中的相似度度量公式,其表达式为:

4.根据权利要求1所述的一种过采样多聚类融合的数据预测方法,其特征在于,每个子簇的过采样数量的计算公式为:

5.根据权利要求1所述的一种过采样多聚类融合的数据预测方法,其特征在...

【专利技术属性】
技术研发人员:范宗文缑锦王成陈瀚文
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1