当前位置: 首页 > 专利查询>四川大学专利>正文

基于模糊聚类和支持向量回归的成绩预测方法技术

技术编号:22784124 阅读:29 留言:0更新日期:2019-12-11 04:22
本发明专利技术公开了基于模糊聚类和支持向量回归的成绩预测方法,属于成绩预测技术领域,现提出如下方案,其包括以下成绩预测步骤,预处理原始数据并划分训练集和测试集;基于隶属度最大的原则进行聚类,对每个聚类簇使用支持向量回归算法建模,确定最终成绩与历史成绩记录之间的关系;根据测试集学生自身的学习行为属性,找到与其具有相同或者相似行为的学生,对目标学生最终成绩做出调整;通过在S2中获得的模糊隶属度矩阵,在S3中确定的关系以及S4中对成绩的调整,来获得目标学生的最终成绩。本发明专利技术提高成绩预测的准确率。在三个标准数据集上的对比实验展现了本发明专利技术提出方法的有效性。

Performance prediction method based on fuzzy clustering and support vector regression

The invention discloses a performance prediction method based on fuzzy clustering and support vector regression, belonging to the technical field of performance prediction, and now proposes the following scheme, which includes the following performance prediction steps, preprocessing the original data and dividing the training set and the test set; clustering is carried out based on the principle of the largest membership, and the support vector regression algorithm is used to model each clustering cluster to determine the final performance The relationship with the history score record; according to the learning behavior attribute of the students in the test set, find the students with the same or similar behavior and adjust the final score of the target students; obtain the final score of the target students through the fuzzy membership matrix obtained in S2, the relationship determined in S3 and the adjustment of the score in S4. The invention improves the accuracy rate of performance prediction. The comparative experiments on three standard data sets show the effectiveness of the method.

【技术实现步骤摘要】
基于模糊聚类和支持向量回归的成绩预测方法
本专利技术涉及成绩预测
,尤其涉及基于模糊聚类和支持向量回归的成绩预测方法。
技术介绍
近年来,计算机技术已经在教育领域被广泛应用。学生学业成绩预测一直是教育和学习中的重要环节。例如,当前挂科现象在学生中非常普遍,然而挂科可能会造成学生无法按时毕业或者无法找到心仪工作的后果。如果能提前发现学生的学习异常,通过引导和干预就有可能阻止这些不幸事情的发生[1]。再者教育机构也可以通过预测学生表现,为学生定制合适的辅导手段,以适应他们的需求。因此,准确地预测学生的成绩在教育管理中就显得十分重要。目前许多数据挖掘和机器学习的方法已经应用于教育领域。现有的成绩预测方法大致可以分为两类,一是使用人工神经网络,二是建立概率统计模型。现有技术介绍了一种用神经网络做成绩预测并对学生进行分类的方法。一些概率模型,例如多变量线性回归模型、稀疏因子分析模型等都被用于预测学生成绩。文献[4]提出了基于规则的概率软逻辑模型,通过半自动的构建规则辅以决策树算法进行建模。这些工作都大量使用两种属性,一是学生以前的课程成绩,用历史成绩预测他们在后续课程中的表现。除历史成绩外,第二种属性是学生的基础行为属性,包括学生的年龄和性别,课堂出勤率,自习频率,图书馆门禁记录,座位选择情况,社会关系等等。但是过度使用不同类型的属性可能导致过于复杂的分数预测方法,其结果往往会难以解释。本专利技术引入模糊逻辑来计算隶属度矩阵,提出一种融合模糊聚类和支持向量回归的成绩预测方法。首先利用模糊C均值算法(fuzzyC-meansclustering,FCM)对学生历史成绩属性做聚类,接着对每个聚类簇单独进行支持向量回归(SupportVectorRegression,SVR),并根据学生行为对最终预测结果做出调整。本方法结合了学生历史成绩和行为习惯等属性进行综合预测,在三个数据集上进行实验,结果表明本方法在成绩预测精度方面有明显性能提升。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的基于模糊聚类和支持向量回归的成绩预测方法。为了实现上述目的,本专利技术采用了如下技术方案:基于模糊聚类和支持向量回归的成绩预测方法,包括以下成绩预测步骤,S1,预处理原始数据并划分训练集和测试集;S2,对训练集和测试集的所有学生历史成绩进行模糊聚类,通过相似性将他们分为不同类别,并计算每个样本关于不同类别的模糊隶属度值;S3,基于隶属度最大的原则进行聚类,对每个聚类簇使用支持向量回归算法建模,确定最终成绩与历史成绩记录之间的关系;S4,根据测试集学生自身的学习行为属性,找到与其具有相同或者相似行为的学生,对目标学生最终成绩做出调整;S5,通过在S2中获得的模糊隶属度矩阵,在S3中确定的关系以及S4中对成绩的调整,来获得目标学生的最终成绩。优选的,所述模糊聚类中,对训练集和测试集的所有学生进行模糊聚类,其中的每个记录包括学生的历史成绩和最终成绩,使用模糊C均值聚类算法,根据学生的历史成绩,将他们划分为不同的类别,具有相似历史成绩的学生将被划分到同一组,然而不同类别之间具有相关性,某个实例难以被确切地分为某个类,因此模糊聚类对处理这种不确定性有天然的优势,得到的模糊隶属度矩阵将被用于最后的预测。优选的,模糊C均值聚类采用模糊划分,为每个样本确定它属于各个组的隶属度,用0到1之间的数表示;该算法的优化准则为:其中P=[θi]c×d为聚类中心矩阵,U=[uij]c×n表示模糊隶属度矩阵,dij=||xj-θi||表示样本与聚类中心的距离,m(m>1)表示模糊指标,采用模糊C均值聚类算法,它在处理不确定问题方面有着天然优势;支持向量回归:考虑样本集(x1,y1),(x2,y2)...(xn,yn),引入敏感度ε的损失函数为:优选的,历史成绩模糊聚类:输入:所有样本记录R={r1,r2,...,rn};初始聚类中心C={c1,c2,...,ck};聚类个数K;模糊指标m(m>1);控制迭代地最小阈值ε;输出:K个聚类簇以及样本模糊隶属度矩阵:a:计算初始模糊隶属度值||*||表示欧式距离;b:loop;c:计算聚类中心d:更新模糊隶属度矩阵;e:计算目标函数f:until|Ji-Ji-1|<ε。优选的,所述支持向量回归中,回归分析是在预测问题中常用的一种统计方法,用于估计变量之间的关系,支持向量回归的损失函数自带L2正则项,对数据有普适性,给出数据集{yi,xi1,xi2,...,xim},(i=1,...,n),希望找到变量yi和变量xij(1≤j≤m)之间的关系,支持向量回归的基本思想就是找到一个函数f(x)=wx+b,使其与y有最大偏差ε,该问题可写成一个凸优化问题:s.t.-ε-ξ≤yn-WTzn-b≤ε+ξ*;对于每一个聚类簇,分别计算相应的回归系数,记为w(1≤i≤K),bi(1≤i≤K)。优选的,最终成绩预测:输入:训练集U={r1,r2,...,rn};测试集T={r1,r2,...,rd};超参数N、α;输出:最终成绩的预测值;a:根据模糊隶属度矩阵,针对测试样本在每一聚类簇中计算SVR回归的结果,表示为其中K是聚类簇的个数;b:计算测试样本与每个归属同一个类的训练样本之间的欧式距离di(1≤i≤|ct|),|ct|表示该测试样本所属类里实例数;c:将b中计算的欧式距离从小到大排序,选择前N个训练样本,记为Sn;d:对于Sn中的每一个实例,使用学生的学习行为等相关属性,计算其与测试样本的余弦相似度其中Ai(1≤i≤m)表示学生行为属性,表示测试样本属性,表示Vn中的第T个实例;e:引入超参数α来灵活地控制学生行为属性对最终预测成绩的影响,计算对成绩的修正其中sn表示第n个训练样本最终成绩,si表示测试集中第i个样本利用SVR和隶属度值计算得到的预测成绩;f:得到最终成绩的预测值scorei=temp_scorei+bi(10),temp_scorei表示步骤a中支持向量回归的结果。与现有技术相比,本专利技术的有益效果是:本专利技术分析了当前研究的不足,提出了一种基于模糊聚类和支持向量回归的成绩预测方法。该方法能有效利用学生历史成绩和行为习惯两种属性,提高成绩预测的准确率。在三个标准数据集上的对比实验展现了本专利技术提出方法的有效性。附图说明图1为本专利技术提出的基于模糊聚类和支持向量回归的成绩预测方法的流程图。图2为本专利技术提出的基于模糊聚类和支持向量回归的成绩预测方法中五种方法的R2系数对比图。图3为本专利技术提出的基于模糊聚类和支持向量回归的成绩预测方法中五种方法的分类准确率对比。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅本文档来自技高网
...

【技术保护点】
1.基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,包括以下成绩预测步骤,/nS1,预处理原始数据并划分训练集和测试集;/nS2,对训练集和测试集的所有学生历史成绩进行模糊聚类,通过相似性将他们分为不同类别,并计算每个样本关于不同类别的模糊隶属度值;/nS3,基于隶属度最大的原则进行聚类,对每个聚类簇使用支持向量回归算法建模,确定最终成绩与历史成绩记录之间的关系;/nS4,根据测试集学生自身的学习行为属性,找到与其具有相同或者相似行为的学生,对目标学生最终成绩做出调整;/nS5,通过在S2中获得的模糊隶属度矩阵,在S3中确定的关系以及S4中对成绩的调整,来获得目标学生的最终成绩。/n

【技术特征摘要】
1.基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,包括以下成绩预测步骤,
S1,预处理原始数据并划分训练集和测试集;
S2,对训练集和测试集的所有学生历史成绩进行模糊聚类,通过相似性将他们分为不同类别,并计算每个样本关于不同类别的模糊隶属度值;
S3,基于隶属度最大的原则进行聚类,对每个聚类簇使用支持向量回归算法建模,确定最终成绩与历史成绩记录之间的关系;
S4,根据测试集学生自身的学习行为属性,找到与其具有相同或者相似行为的学生,对目标学生最终成绩做出调整;
S5,通过在S2中获得的模糊隶属度矩阵,在S3中确定的关系以及S4中对成绩的调整,来获得目标学生的最终成绩。


2.根据权利要求1所述的基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,所述模糊聚类中,对训练集和测试集的所有学生进行模糊聚类,其中的每个记录包括学生的历史成绩和最终成绩,使用模糊C均值聚类算法,根据学生的历史成绩,将他们划分为不同的类别,具有相似历史成绩的学生将被划分到同一组,然而不同类别之间具有相关性,某个实例难以被确切地分为某个类,因此模糊聚类对处理这种不确定性有天然的优势,得到的模糊隶属度矩阵将被用于最后的预测。


3.根据权利要求2所述的基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,模糊C均值聚类采用模糊划分,为每个样本确定它属于各个组的隶属度,用0到1之间的数表示;该算法的优化准则为:



其中P=[θi]c×d为聚类中心矩阵,U=[uij]c×n表示模糊隶属度矩阵,dij=||xj-θi||表示样本与聚类中心的距离,m(m>1)表示模糊指标,采用模糊C均值聚类算法,它在处理不确定问题方面有着天然优势;
支持向量回归:
考虑样本集(x1,y1),(x2,y2)...(xn,yn),引入敏感度ε的损失函数为:





4.根据权利要求3所述的基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,历史成绩模糊聚类:
输入:所有样本记录R={r1,r2,...,rn};初始聚类中心C={c1,c2,...,ck};聚类个数K;模糊指标m(m>1);控制迭代地最小阈值ε;
输出:...

【专利技术属性】
技术研发人员:琚生根申航杰孙界平
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1