The present invention relates to a method of student achievement analysis based on improved C4.5 algorithm, which belongs to the field of data mining classification technology. Firstly, a database of student achievement is established; secondly, the data of student achievement is preprocessed; secondly, the improved C4.5 algorithm is introduced to calculate the information gain rate of each attribute on the node, and the node with the largest gain rate is set as the root node to construct the decision tree of the preprocessed data set of student achievement; lastly, the decision tree of student achievement is constructed. Through the analysis, the students'scores in many subjects are excavated, and the hidden internal relationship between subjects is excavated, and the relevant reasons affecting students' test results are found out. Compared with the prior art, the present invention mainly provides an analysis method of students'scores based on the improved C4.5 algorithm. The method is scientific and practical, and can quickly and accurately find out the relevant reasons affecting students' examination results.
【技术实现步骤摘要】
一种基于改进的C4.5算法的学生成绩分析方法
本专利技术涉及一种基于改进的C4.5算法的学生成绩分析方法,属于数据挖掘分类
技术介绍
我国高等学校的扩招,各学校的办学规模的越来越来大,规模的扩大与学生人数的增多使高校的教学管理工作面临巨大的挑战。改进的C4.5算法是一种对数据分析并分类的算法,通过先计算各个属性其信息增益率,再对比增益率,得到最大者为此属性根节点,对预处理过的学生成绩数据集进行决策树的构建;对学生成绩构建的决策树进行分析,对有关学生成绩的多个科目进行挖掘,挖掘出学生成绩与各个科目成绩之间隐藏的内在关系。
技术实现思路
本专利技术要解决的技术问题是提供一种基于改进的C4.5算法的学生成绩分析方法,能够快速准确地挖掘出各个属性之间隐藏的内在关系,找出影响学生考试成绩的相关原因。本专利技术的技术方案是:一种基于改进的C4.5算法的学生成绩分析方法,具体步骤为:Step1、建立完备的学生成绩信息数据库;Step2、对学生成绩进行清洗和转换的预先处理;Step3、统计学生的各科成绩,分别计算各科目成绩的信息增益率;Step4、应用改进的C4.5算法构建学生成绩分析模型;Step5、通过对学生的成绩挖掘,发现学生的考试成绩与相关课程之间的联系。进一步地,所述步骤中Step1中,学生成绩信息数据库是具有学生成绩信息的集合,字段包括学生学号与各科成绩。进一步地,所述步骤Step2是对学生成绩信息进行预处理,包括对信息数据中不符或缺失数据进行清洗和转换,所收集到的学生成绩数据存在缺失值,因此需要对数据进行清洗,为了构造简化的决策树分支,需要将连续值属性 ...
【技术保护点】
1.一种基于改进的C4.5算法的学生成绩分析方法,其特征在于:Step1、建立完备的学生成绩信息数据库;Step2、对学生成绩进行清洗和转换的预先处理;Step3、统计学生的各科成绩,分别计算各科目成绩的信息增益率;Step4、应用改进的C4.5算法构建学生成绩分析模型;Step5、通过对学生的成绩挖掘,发现学生的考试成绩与相关课程之间的联系。
【技术特征摘要】
1.一种基于改进的C4.5算法的学生成绩分析方法,其特征在于:Step1、建立完备的学生成绩信息数据库;Step2、对学生成绩进行清洗和转换的预先处理;Step3、统计学生的各科成绩,分别计算各科目成绩的信息增益率;Step4、应用改进的C4.5算法构建学生成绩分析模型;Step5、通过对学生的成绩挖掘,发现学生的考试成绩与相关课程之间的联系。2.根据权利要求1所述的基于改进的C4.5算法的学生成绩分析方法,其特征在于:所述步骤中Step1中,学生成绩信息数据库是具有学生成绩信息的集合,字段包括学生学号与各科成绩。3.根据权利要求1所述的基于改进的C4.5算法的学生成绩分析方法,其特征在于:所述步骤Step2是对学生成绩信息进行预处理,包括对信息数据中不符或缺失数据进行清洗和转换,需要将连续值属性离散化处理,对所收集到的学生成绩数据进行转换处理,把学生成绩信息转换成优秀、良好、及格、差不同的等级。4.根据权利要求1所述的基于改进的C4.5算法的学生成绩分析方法,其特征在于:所述步骤Step3是统计样本数据,对各属性分别计算其信息增益率:设样本有不同离散属性,不同属性有不同的取值,选择A为测试属性,设属性S含有ni个正例和pi个反例,则属性A的信息熵E(A)计算公式如公式(1)所示:式中,ni是属性S中的正例数,pi是属性S中的反例数,属性S相对于属性A的分割信息量为Split(S,A),属性S相对于属性A的分割信息量的计算公式如公式(2)所示:式中,ni是S在不同的...
【专利技术属性】
技术研发人员:宋耀莲,田榆杰,武双新,王慧东,徐文林,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。