一种基于改进的C4.5算法的学生成绩分析方法技术

技术编号:20486966 阅读:36 留言:0更新日期:2019-03-02 19:51
本发明专利技术涉及一种基于改进的C4.5算法的学生成绩分析方法,属于数据挖掘分类技术领域。先建立一个学生成绩的数据库;其次,对获得的学生成绩数据进行预处理;然后,引入改进的C4.5算法,通过计算节点上的各个属性的信息增益率,增益率最大的节点则设置为根节点,对预处理过的学生成绩数据集进行决策树的构建;最后,对学生成绩构建的决策树进行分析,对学生的多个科目成绩进行挖掘,挖掘出科目之间隐藏的内在关系,找出影响学生考试成绩的相关原因。本发明专利技术与现有技术相比,主要提供了基于改进的C4.5算法的学生成绩分析方法,本发明专利技术方法科学实用,能够快速准确地找出影响学生考试成绩的相关原因。

A Method of Student Achievement Analysis Based on Improved C4.5 Algorithms

The present invention relates to a method of student achievement analysis based on improved C4.5 algorithm, which belongs to the field of data mining classification technology. Firstly, a database of student achievement is established; secondly, the data of student achievement is preprocessed; secondly, the improved C4.5 algorithm is introduced to calculate the information gain rate of each attribute on the node, and the node with the largest gain rate is set as the root node to construct the decision tree of the preprocessed data set of student achievement; lastly, the decision tree of student achievement is constructed. Through the analysis, the students'scores in many subjects are excavated, and the hidden internal relationship between subjects is excavated, and the relevant reasons affecting students' test results are found out. Compared with the prior art, the present invention mainly provides an analysis method of students'scores based on the improved C4.5 algorithm. The method is scientific and practical, and can quickly and accurately find out the relevant reasons affecting students' examination results.

【技术实现步骤摘要】
一种基于改进的C4.5算法的学生成绩分析方法
本专利技术涉及一种基于改进的C4.5算法的学生成绩分析方法,属于数据挖掘分类

技术介绍
我国高等学校的扩招,各学校的办学规模的越来越来大,规模的扩大与学生人数的增多使高校的教学管理工作面临巨大的挑战。改进的C4.5算法是一种对数据分析并分类的算法,通过先计算各个属性其信息增益率,再对比增益率,得到最大者为此属性根节点,对预处理过的学生成绩数据集进行决策树的构建;对学生成绩构建的决策树进行分析,对有关学生成绩的多个科目进行挖掘,挖掘出学生成绩与各个科目成绩之间隐藏的内在关系。
技术实现思路
本专利技术要解决的技术问题是提供一种基于改进的C4.5算法的学生成绩分析方法,能够快速准确地挖掘出各个属性之间隐藏的内在关系,找出影响学生考试成绩的相关原因。本专利技术的技术方案是:一种基于改进的C4.5算法的学生成绩分析方法,具体步骤为:Step1、建立完备的学生成绩信息数据库;Step2、对学生成绩进行清洗和转换的预先处理;Step3、统计学生的各科成绩,分别计算各科目成绩的信息增益率;Step4、应用改进的C4.5算法构建学生成绩分析模型;Step5、通过对学生的成绩挖掘,发现学生的考试成绩与相关课程之间的联系。进一步地,所述步骤中Step1中,学生成绩信息数据库是具有学生成绩信息的集合,字段包括学生学号与各科成绩。进一步地,所述步骤Step2是对学生成绩信息进行预处理,包括对信息数据中不符或缺失数据进行清洗和转换,所收集到的学生成绩数据存在缺失值,因此需要对数据进行清洗,为了构造简化的决策树分支,需要将连续值属性离散化处理,对所收集到的学生成绩数据进行转换处理,把学生成绩信息转换成优秀、良好、及格、差不同的等级。进一步地,所述步骤Step3是统计样本数据,对各属性分别计算其信息增益率:设样本有不同离散属性,不同属性有不同的取值,选择A为测试属性,设属性S含有ni个正例和pi个反例,则属性A的信息熵E(A)计算公式如公式(1)所示:式中,ni是属性S中的正例数,pi是属性S中的反例数,属性S相对于属性A的分割信息量为Split(S,A),属性S相对于属性A的分割信息量的计算公式如公式(2)所示:式中,ni是S在不同的取值时,属性A取值的数目,选择属性根节点的依据是属性的信息增益率最大,属性S的信息增益率Gain(S,A)的计算公式如公式(3)所示:通过比较以上的计算结果分析可知,课程T的增益率最大,即T所含有的信息对本例分类的影响最大,所以把增益率最大的属性T作为根节点。进一步地,所述步骤Step4是应用改进的C4.5算法构建学生成绩分析模型;在生成以课程T为根节点后再用递归的方法构建决策树,按T的各种情况,即分为叶节点。再通过递归的方法计算各节点的每个属性的信息增益,利用同样的方法通过递归计算出其它属性的信息增益率并生成分支节点就可生成决策树,统计样本数据,对各属性分别计算其信息增益率;假设样本有S个不同离散属性,不同属性有不同的取值,选择A为测试属性,假设属性S中含有个ni正例和pi个反例,则属性A的信息熵E(A)计算公式如公式(1),属性S相对于属性A的分割信息量Split(S,A)的计算公式如公式(2),属性S的信息增益率Gain(S,A)的计算公式如公式(3),利用同样的方法通过递归计算出其它属性的信息增益率并生成分支叶节点就可生成决策树。进一步地,所述步骤Step5是通过对相关属性变量进行数据挖掘,并生成决策树得到分类规则,分析以上分类规则可以获得各属性变量之间的相关性,通过对学生的成绩挖掘,发现学生的考试成绩与相关课程之间的联系。本专利技术的有益效果是:本专利技术与现有技术相比,主要提供了基于改进的C4.5算法的学生成绩分析方法,本专利技术方法科学实用,能够快速准确地找出影响学生考试成绩的相关原因。附图说明图1是本专利技术步骤流程图;图2是本专利技术步骤Step2流程图;图3是本专利技术步骤Step3流程图;图4是本专利技术具体实施方式中所举例子基于改进的C4.5算法构建学生成绩分析模型的流程图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1-3所示,一种基于改进的C4.5算法的学生成绩分析方法,先建立一个学生成绩的数据库;其次,对获得的学生成绩数据进行预处理;然后,引入改进的C4.5算法,通过计算节点上的各个属性的信息增益率,增益率最大的节点则设置为根节点,对预处理过的学生成绩数据集进行决策树的构建;最后,对学生成绩构建的决策树进行分析,对学生的多个科目成绩进行挖掘,挖掘出科目之间隐藏的内在关系,找出影响学生考试成绩的相关原因。具体步骤为:Step1、建立完备的学生成绩信息数据库;Step2、对学生成绩进行清洗和转换的预先处理;Step3、统计学生的各科成绩,分别计算各科目成绩的信息增益率;Step4、应用改进的C4.5算法构建学生成绩分析模型;Step5、通过对学生的成绩挖掘,发现学生的考试成绩与相关课程之间的联系。进一步地,所述步骤中Step1中,学生成绩信息数据库是具有学生成绩信息的集合,字段包括学生学号与各科成绩。进一步地,所述步骤Step2是对学生成绩信息进行预处理,包括对信息数据中不符或缺失数据进行清洗和转换,所收集到的学生成绩数据存在缺失值,因此需要对数据进行清洗,为了构造简化的决策树分支,需要将连续值属性离散化处理,对所收集到的学生成绩数据进行转换处理,把学生成绩信息转换成优秀、良好、及格、差不同的等级。进一步地,所述步骤Step3是统计样本数据,对各属性分别计算其信息增益率:设样本有不同离散属性,不同属性有不同的取值,选择A为测试属性,设属性S含有ni个正例和pi个反例,则属性A的信息熵E(A)计算公式如公式(1)所示:式中,ni是属性S中的正例数,pi是属性S中的反例数,属性S相对于属性A的分割信息量为Split(S,A),属性S相对于属性A的分割信息量的计算公式如公式(2)所示:式中,ni是S在不同的取值时,属性A取值的数目,选择属性根节点的依据是属性的信息增益率最大,属性S的信息增益率Gain(S,A)的计算公式如公式(3)所示:通过比较以上的计算结果分析可知,课程T的增益率最大,即T所含有的信息对本例分类的影响最大,所以把增益率最大的属性T作为根节点。进一步地,所述步骤Step4是应用改进的C4.5算法构建学生成绩分析模型;在生成以课程T为根节点后再用递归的方法构建决策树,按T的各种情况,即分为叶节点。再通过递归的方法计算各节点的每个属性的信息增益,利用同样的方法通过递归计算出其它属性的信息增益率并生成分支节点就可生成决策树,统计样本数据,对各属性分别计算其信息增益率;假设样本有S个不同离散属性,不同属性有不同的取值,选择A为测试属性,假设属性S中含有个ni正例和pi个反例,则属性A的信息熵E(A)计算公式如公式(1),属性S相对于属性A的分割信息量Split(S,A)的计算公式如公式(2),属性S的信息增益率Gain(S,A)的计算公式如公式(3),利用同样的方法通过递归计算出其它属性的信息增益率并生成分支叶节点就可生成决策树。进一步地,所述步骤Step5是通过对相关属性变量进行数据挖掘,并生成决策树得到分类规本文档来自技高网...

【技术保护点】
1.一种基于改进的C4.5算法的学生成绩分析方法,其特征在于:Step1、建立完备的学生成绩信息数据库;Step2、对学生成绩进行清洗和转换的预先处理;Step3、统计学生的各科成绩,分别计算各科目成绩的信息增益率;Step4、应用改进的C4.5算法构建学生成绩分析模型;Step5、通过对学生的成绩挖掘,发现学生的考试成绩与相关课程之间的联系。

【技术特征摘要】
1.一种基于改进的C4.5算法的学生成绩分析方法,其特征在于:Step1、建立完备的学生成绩信息数据库;Step2、对学生成绩进行清洗和转换的预先处理;Step3、统计学生的各科成绩,分别计算各科目成绩的信息增益率;Step4、应用改进的C4.5算法构建学生成绩分析模型;Step5、通过对学生的成绩挖掘,发现学生的考试成绩与相关课程之间的联系。2.根据权利要求1所述的基于改进的C4.5算法的学生成绩分析方法,其特征在于:所述步骤中Step1中,学生成绩信息数据库是具有学生成绩信息的集合,字段包括学生学号与各科成绩。3.根据权利要求1所述的基于改进的C4.5算法的学生成绩分析方法,其特征在于:所述步骤Step2是对学生成绩信息进行预处理,包括对信息数据中不符或缺失数据进行清洗和转换,需要将连续值属性离散化处理,对所收集到的学生成绩数据进行转换处理,把学生成绩信息转换成优秀、良好、及格、差不同的等级。4.根据权利要求1所述的基于改进的C4.5算法的学生成绩分析方法,其特征在于:所述步骤Step3是统计样本数据,对各属性分别计算其信息增益率:设样本有不同离散属性,不同属性有不同的取值,选择A为测试属性,设属性S含有ni个正例和pi个反例,则属性A的信息熵E(A)计算公式如公式(1)所示:式中,ni是属性S中的正例数,pi是属性S中的反例数,属性S相对于属性A的分割信息量为Split(S,A),属性S相对于属性A的分割信息量的计算公式如公式(2)所示:式中,ni是S在不同的...

【专利技术属性】
技术研发人员:宋耀莲田榆杰武双新王慧东徐文林
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1