【技术实现步骤摘要】
基于数据挖掘的学生贫困状态预测方法
本专利技术具体涉及一种基于数据挖掘的学生贫困状态预测方法。
技术介绍
目前,随着我国经济技术的发展和对高等教育投入的加大,越来越多贫困地区的莘莘学子走入了大学校园,学习知识,报效祖国。但是,大学期间的学杂费、生活费等一系列必须的开销,却成为了贫困地区大学生在求学路上的一大障碍。为了让更多的学生能够安心学习而不为学杂费、生活费所愁,国家、地区和各个大学均已经展开了一系列的贫困上资助活动,也建立了相关的政策和制度,最大程度的保证了学生不会因贫辍学或因贫影响学业。然而,虽然国家、地区和学校每年都在加大对贫困生的资助力度和扩大自准范围,但是由于我国的国情所在,并非所有的贫困生都能接受到国家、地区和学校资助。因此,为了能够快速的确认学生的经济状况,目前各个学校广泛采用的方式为由当地政府开具的贫困生证明作为基本依据,然后以同学互评和教师评价等方式综合考评,从而确认最终的贫困生助学金分配名单。但是,目前采用的“政府+同学+老师”的学生贫困状态评判体系,其主观性和可操作性相对较高,很容易导致“虚假认定”和“隐性贫困”情况的发生,使本该得到资助的同学获得的资助缩水或者无法获得资助。
技术实现思路
本专利技术的目的在于提供一种能够快速、客观、科学的预测学生贫困状态的基于数据挖掘的学生贫困状态预测方法。本专利技术提供的这种基于数据挖掘的学生贫困状态预测方法,包括如下步骤:S1.获取所有学生在校的学习数据和消费数据信息,同时获取学校当前认定的贫困生和非贫困生的比例,所述学生在校的学习数据和消费数据信息构成了学生的特征数据信息,所述的贫困生为获得了助 ...
【技术保护点】
一种基于数据挖掘的学生贫困状态预测方法,包括如下步骤:S1.获取所有学生在校的学习数据和消费数据信息,同时获取学校当前认定的贫困生和非贫困生的比例,所述学生在校的学习数据和消费数据信息构成了学生的特征数据信息,所述的贫困生为获得了助学金的学生;S2.将步骤S1得到的所有学生的学习数据和消费数据信息分为训练集合和测试集合,且每一个集合中贫困生和非贫困生的比例与步骤S1获取的学校当前已确定的贫困生和非贫困生的比例一致;S3.将步骤S2得到的训练集合中的数据采用过采样算法进行处理,从而使得处理后的训练集合中的数据平衡化;S4.采用随机森林算法对步骤S3得到的平衡化后的训练集合中的数据进行模型训练,并以步骤S2得到的测试集合对训练后的模型进行测试,并以准确率和召回率为指标对训练后的模型进行评估,从而得到性能最优的学生贫困状态预测模型;S5.获取需要重新认定贫困状态的学生的在校学习数据和消费数据信息,采用步骤S4得到的学生贫困状态预测模型对学生的贫困状态进行预测,从而完成学生贫困状态的预测。
【技术特征摘要】
1.一种基于数据挖掘的学生贫困状态预测方法,包括如下步骤:S1.获取所有学生在校的学习数据和消费数据信息,同时获取学校当前认定的贫困生和非贫困生的比例,所述学生在校的学习数据和消费数据信息构成了学生的特征数据信息,所述的贫困生为获得了助学金的学生;S2.将步骤S1得到的所有学生的学习数据和消费数据信息分为训练集合和测试集合,且每一个集合中贫困生和非贫困生的比例与步骤S1获取的学校当前已确定的贫困生和非贫困生的比例一致;S3.将步骤S2得到的训练集合中的数据采用过采样算法进行处理,从而使得处理后的训练集合中的数据平衡化;S4.采用随机森林算法对步骤S3得到的平衡化后的训练集合中的数据进行模型训练,并以步骤S2得到的测试集合对训练后的模型进行测试,并以准确率和召回率为指标对训练后的模型进行评估,从而得到性能最优的学生贫困状态预测模型;S5.获取需要重新认定贫困状态的学生的在校学习数据和消费数据信息,采用步骤S4得到的学生贫困状态预测模型对学生的贫困状态进行预测,从而完成学生贫困状态的预测。2.根据权利要求1所述的基于数据挖掘的学生贫困状态预测方法,其特征在于步骤S1和步骤S5所述的学生的在校学习数据和消费数据信息,包括学生ID,助学金获得状态,成绩相对排名,进出图书馆总次数,借书总次数,食堂消费次数,食堂次均消费额,超市消费次数,超市次均消费额,洗衣房消费次数,洗衣房次均消费额,淋浴消费次数,淋浴次均消费额,开水消费次数,开水次均消费额和消费总额。3.根据权利要求1所述的基于数据挖掘的学生贫困状态预测方法,其特征在于步骤S1所述的获取所有学生在校的学习数据和消费数据信息,具体为采用如下步骤建立学生在校的学习数据和消费数据信息数据库并进行数据提取:A.建立大数据存储框架HDFS存储所有在校学生的学习数据和消费数据;B.搭建大数据仓库工具Hive来存储在校学生的学习数据和消费数据;所述Hive底层的计算框架采用传统的MapReduce,用于永久性存储结构化的在校学生的学习数据和消费数据;C.搭建大数据内存计算框架Spark,结合SparkSQL和Hive进行快速特征提取;D.将所有在校学生的学习数据和消费数据通过Sqoop抽取到HDFS上,然后ETL到Hadoop的Hive数据仓库中;E.使用大数据Spark平台上的SparkSQL工具整合Hadoop平台上的大数据仓库Hive,再编写SQL或者使用DSL...
【专利技术属性】
技术研发人员:邓晓衡,陈琳杰,郑静益,陈凌驰,黄戎,龙芳,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。