当前位置: 首页 > 专利查询>中南大学专利>正文

基于数据挖掘的学生贫困状态预测方法技术

技术编号:15822812 阅读:34 留言:0更新日期:2017-07-15 04:59
本发明专利技术公开了一种基于数据挖掘的学生贫困状态预测方法,包括获取所有学生在校的学习数据、消费数据信息和贫困生与非贫困生的比例;将学生数据信息分为训练集合和测试集合,且每个集合中贫困生和非贫困生的比例与已确定的比例一致;对训练集合中的数据采用过采样算法进行数据平衡化;采用随机森林算法对训练集合进行模型训练,以测试集合对模型进行测试和评估,得到性能最优的学生贫困状态预测模型;采用学生贫困状态预测模型对学生的贫困状态进行预测。本发明专利技术方法通过学生在校的客观数据和表现对学生的贫困状态进行综合考量和预测,从而避免在学生贫困状态评定中出现的主观性和随机性,而且本发明专利技术方法科学实用,能够快速进行算法解算和数据分析。

【技术实现步骤摘要】
基于数据挖掘的学生贫困状态预测方法
本专利技术具体涉及一种基于数据挖掘的学生贫困状态预测方法。
技术介绍
目前,随着我国经济技术的发展和对高等教育投入的加大,越来越多贫困地区的莘莘学子走入了大学校园,学习知识,报效祖国。但是,大学期间的学杂费、生活费等一系列必须的开销,却成为了贫困地区大学生在求学路上的一大障碍。为了让更多的学生能够安心学习而不为学杂费、生活费所愁,国家、地区和各个大学均已经展开了一系列的贫困上资助活动,也建立了相关的政策和制度,最大程度的保证了学生不会因贫辍学或因贫影响学业。然而,虽然国家、地区和学校每年都在加大对贫困生的资助力度和扩大自准范围,但是由于我国的国情所在,并非所有的贫困生都能接受到国家、地区和学校资助。因此,为了能够快速的确认学生的经济状况,目前各个学校广泛采用的方式为由当地政府开具的贫困生证明作为基本依据,然后以同学互评和教师评价等方式综合考评,从而确认最终的贫困生助学金分配名单。但是,目前采用的“政府+同学+老师”的学生贫困状态评判体系,其主观性和可操作性相对较高,很容易导致“虚假认定”和“隐性贫困”情况的发生,使本该得到资助的同学获得的资助缩水或者无法获得资助。
技术实现思路
本专利技术的目的在于提供一种能够快速、客观、科学的预测学生贫困状态的基于数据挖掘的学生贫困状态预测方法。本专利技术提供的这种基于数据挖掘的学生贫困状态预测方法,包括如下步骤:S1.获取所有学生在校的学习数据和消费数据信息,同时获取学校当前认定的贫困生和非贫困生的比例,所述学生在校的学习数据和消费数据信息构成了学生的特征数据信息,所述的贫困生为获得了助学金的学生;S2.将步骤S1得到的所有学生的学习数据和消费数据信息分为训练集合和测试集合,且每一个集合中贫困生和非贫困生的比例与步骤S1获取的学校当前已确定的贫困生和非贫困生的比例一致;S3.将步骤S2得到的训练集合中的数据采用过采样算法进行处理,从而使得处理后的训练集合中的数据平衡化;S4.采用随机森林算法对步骤S3得到的平衡化后的训练集合中的数据进行模型训练,并以步骤S2得到的测试集合对训练后的模型进行测试,并以准确率和召回率为指标对训练后的模型进行评估,从而得到性能最优的学生贫困状态预测模型;S5.获取需要重新认定贫困状态的学生的在校学习数据和消费数据信息,采用步骤S4得到的学生贫困状态预测模型对学生的贫困状态进行预测,从而完成学生贫困状态的预测。步骤S1和步骤S5所述的学生的在校学习数据和消费数据信息,包括学生ID,助学金获得状态,成绩相对排名,进出图书馆总次数,借书总次数,食堂消费次数,食堂次均消费额,超市消费次数,超市次均消费额,洗衣房消费次数,洗衣房次均消费额,淋浴消费次数,淋浴次均消费额,开水消费次数,开水次均消费额和消费总额。步骤S1所述的获取所有学生在校的学习数据和消费数据信息,具体为采用如下步骤建立学生在校的学习数据和消费数据信息数据库并进行数据提取:A.建立大数据存储框架HDFS存储所有在校学生的学习数据和消费数据;B.搭建大数据仓库工具Hive来存储在校学生的学习数据和消费数据;所述Hive底层的计算框架采用传统的MapReduce,用于永久性存储结构化的在校学生的学习数据和消费数据;C.搭建大数据内存计算框架Spark,结合SparkSQL和Hive进行快速特征提取;D.将所有在校学生的学习数据和消费数据通过Sqoop抽取到HDFS上,然后ETL到Hadoop的Hive数据仓库中;E.使用大数据Spark平台上的SparkSQL工具整合Hadoop平台上的大数据仓库Hive,再编写SQL或者使用DSL语言进行详细数据的提取。步骤S3所述的对数据采用过采样算法进行处理从而使得处理后的训练集合中的数据平衡化,具体为采用如下步骤进行数据平衡化:a.对训练集合中属于贫困生类别的每一维特征数据采用如下算式进行归一化处理:式中amax为该维特征数据中的最大值,amin为该维特征数据中的最小值,aold为归一化处理前的值,anew为归一化处理后的值;b.对步骤a中进行归一化处理后的贫困生数据,利用如下公式找到和该贫困生数据最接近的n个邻居,学校当前已确定的贫困生和非贫困生的比例为1:k,且所述n≥k-1:式中m为每一位学生所对应的数据的维度;x1i和x2i为第一位学生的数据信息和第二位学生的数据信息中同一个属性所对应的值;c.根据步骤b得到每一位贫困生数据的n个邻居之后,在该n个邻居数据中随机选取k-1个邻居数据进行新纪录合成;所述新纪录的合成规则为:学生ID和助学金获得状态与贫困生数据相同,剩余属性则按照如下公式进行合成:xnew=xold+rand(0,1)×(xneighbor-xold)式中xnew为合成的新记录数据;xold为原始的贫困生数据;xneighbor为该贫困生数据的邻居所对应的数据;rand(0,1)为在0~1中随机取值的函数;步骤S4所述的得到性能最优的学生贫困状态预测模型,具体为采用如下步骤计算得到最优的学生贫困状态预测模型:1)将步骤S3得到的平衡化后的训练集合转换为{c,[a1,a2,…,an]}的向量标签结构,其中c为学生助学金的获取状态信息,a1~an为平衡化后的训练集合中学生所对应的特征数据信息;2)采用如下随机森林计算公式对平衡化后的训练集合进行训练:式中H(x)表示组合中的分类模型,k为随机森林中CART决策树的棵数,hi(x)为随机森林中的单棵CART决策树对学生x预测后的分类结果,Y为目标分类结果;3)采用测试集对步骤2)中训练得到的模型进行测试,计算贫困生预测的准确率和召回率,同时采用如下公式计算贫困生预测的综合效果值:式中F1为贫困生预测的综合效果值,P为准确率,R为召回率;4)调整随机森林模型中的参数,并重复步骤2)和步骤3),直至得到F1的最大值,此时对应的随机森林模型即为性能最优的学生贫困状态预测模型。本专利技术提供的这种基于数据挖掘的学生贫困状态预测方法,采用数据挖掘技术,在学生的在校学习数据信息和消费数据信息中进行数据挖掘,通过学生在校的客观数据和学生在校的综合表现对学生的贫困状态进行综合考量和预测,从而彻底避免了在学生贫困状态评定中出现的主观性和随机性,而且本专利技术方法科学,能够快速进行算法的解算和分析,而且客观实用。附图说明图1为本专利技术方法的方法流程图。图2为本专利技术中学生在校信息数据的关联示意表。图3为本专利技术的过采样算法的随机线性插值中找到邻居的示意图。图4为本专利技术的过采样算法的随机线性插值中新增数据应满足的条件的示意图。图5为本专利技术中预测效果评估的形象示意图。具体实施方式如图1所示为本专利技术方法的方法流程图:本专利技术提供的这种基于数据挖掘的学生贫困状态预测方法,包括如下步骤:S1.获取所有学生在校的学习数据和消费数据信息,同时获取学校当前认定的贫困生和非贫困生的比例,所述学生在校的学习数据和消费数据信息构成了学生的特征数据信息,所述的贫困生为获得了助学金的学生;所述的学生的在校学习数据和消费数据信息,包括学生ID,助学金获得状态,成绩相对排名,进出图书馆总次数,借书总次数,食堂消费次数,食堂次均消费额,超市消费次数,超市次均消费额,洗衣房消费次数,洗衣房次均消费额,淋浴消费次数,淋本文档来自技高网...
基于数据挖掘的学生贫困状态预测方法

【技术保护点】
一种基于数据挖掘的学生贫困状态预测方法,包括如下步骤:S1.获取所有学生在校的学习数据和消费数据信息,同时获取学校当前认定的贫困生和非贫困生的比例,所述学生在校的学习数据和消费数据信息构成了学生的特征数据信息,所述的贫困生为获得了助学金的学生;S2.将步骤S1得到的所有学生的学习数据和消费数据信息分为训练集合和测试集合,且每一个集合中贫困生和非贫困生的比例与步骤S1获取的学校当前已确定的贫困生和非贫困生的比例一致;S3.将步骤S2得到的训练集合中的数据采用过采样算法进行处理,从而使得处理后的训练集合中的数据平衡化;S4.采用随机森林算法对步骤S3得到的平衡化后的训练集合中的数据进行模型训练,并以步骤S2得到的测试集合对训练后的模型进行测试,并以准确率和召回率为指标对训练后的模型进行评估,从而得到性能最优的学生贫困状态预测模型;S5.获取需要重新认定贫困状态的学生的在校学习数据和消费数据信息,采用步骤S4得到的学生贫困状态预测模型对学生的贫困状态进行预测,从而完成学生贫困状态的预测。

【技术特征摘要】
1.一种基于数据挖掘的学生贫困状态预测方法,包括如下步骤:S1.获取所有学生在校的学习数据和消费数据信息,同时获取学校当前认定的贫困生和非贫困生的比例,所述学生在校的学习数据和消费数据信息构成了学生的特征数据信息,所述的贫困生为获得了助学金的学生;S2.将步骤S1得到的所有学生的学习数据和消费数据信息分为训练集合和测试集合,且每一个集合中贫困生和非贫困生的比例与步骤S1获取的学校当前已确定的贫困生和非贫困生的比例一致;S3.将步骤S2得到的训练集合中的数据采用过采样算法进行处理,从而使得处理后的训练集合中的数据平衡化;S4.采用随机森林算法对步骤S3得到的平衡化后的训练集合中的数据进行模型训练,并以步骤S2得到的测试集合对训练后的模型进行测试,并以准确率和召回率为指标对训练后的模型进行评估,从而得到性能最优的学生贫困状态预测模型;S5.获取需要重新认定贫困状态的学生的在校学习数据和消费数据信息,采用步骤S4得到的学生贫困状态预测模型对学生的贫困状态进行预测,从而完成学生贫困状态的预测。2.根据权利要求1所述的基于数据挖掘的学生贫困状态预测方法,其特征在于步骤S1和步骤S5所述的学生的在校学习数据和消费数据信息,包括学生ID,助学金获得状态,成绩相对排名,进出图书馆总次数,借书总次数,食堂消费次数,食堂次均消费额,超市消费次数,超市次均消费额,洗衣房消费次数,洗衣房次均消费额,淋浴消费次数,淋浴次均消费额,开水消费次数,开水次均消费额和消费总额。3.根据权利要求1所述的基于数据挖掘的学生贫困状态预测方法,其特征在于步骤S1所述的获取所有学生在校的学习数据和消费数据信息,具体为采用如下步骤建立学生在校的学习数据和消费数据信息数据库并进行数据提取:A.建立大数据存储框架HDFS存储所有在校学生的学习数据和消费数据;B.搭建大数据仓库工具Hive来存储在校学生的学习数据和消费数据;所述Hive底层的计算框架采用传统的MapReduce,用于永久性存储结构化的在校学生的学习数据和消费数据;C.搭建大数据内存计算框架Spark,结合SparkSQL和Hive进行快速特征提取;D.将所有在校学生的学习数据和消费数据通过Sqoop抽取到HDFS上,然后ETL到Hadoop的Hive数据仓库中;E.使用大数据Spark平台上的SparkSQL工具整合Hadoop平台上的大数据仓库Hive,再编写SQL或者使用DSL...

【专利技术属性】
技术研发人员:邓晓衡陈琳杰郑静益陈凌驰黄戎龙芳
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1