针对学生序列化行为的贫困生预测方法技术

技术编号:21800127 阅读:39 留言:0更新日期:2019-08-07 10:45
本发明专利技术公开了一种针对学生序列化行为的贫困生预测方法,包括如下步骤:采集学生在校行为数据,以学生个体作为分类标签,以固定周期作为数据统计内容的时长,形成固定周期内的一组数据,并以矩阵形式表示,记为单组数据;对同一个学生的单组数据进行归一化处理后,对单组数据的所有特征进行重要度的构建并进行筛选,得到有效特征数据矩阵;构建many2one形式的长短时记忆网络模型,将同一学生当前时间段之前的连续的若干个有效特征数据带入模型,得到学生的贫困类别。本发明专利技术所达到的有益效果:本方案使用的数据能够较为全面的涵盖了学生在校内期间的各种行为,采用深度学习中的递归神经网络,来对学生的贫困等级实现精确地评判。

A Prediction Method for Poor Students'Serialized Behavior

【技术实现步骤摘要】
针对学生序列化行为的贫困生预测方法
本专利技术涉及一种针对学生序列化行为的贫困生预测方法。
技术介绍
随着我国的经济发展以及对高等教育的投入加大,越来越多的贫困生能够进入高校完成学业,贫困生的比例也在不断扩大。贫困生评定也成为了一项重要的工作。如何精准、高效的做到进行贫困生评定,拒绝“虚假贫困”,发现“隐性贫困”则是这项工作的重心所在。目前,贫困生评定的方式有两种,主流的方式仍然是通过学生选举,老师人工审核来完成贫困生的评定。该种方式的评定流程较长,花费时间多,评定结果难以把握,学生的申请材料存在着滞后性与不可靠性。同时评定过程中会有申请人当众述说自己家庭情况这一流程,涉及到个人隐私问题,以及一些实际贫困,但是性格内向,内心脆弱的同学则会选择放弃申请资格。这样就容易导致评定结果不准确,无法做到精准扶贫。另外一种方式则是利用大数据的数据挖掘技术来进行贫困生的评定。尽管这种方式解决了第一种方式的时间花费问题,但是现有的解决方案中存在使用的数据维度不够全面,没有充分利用行为数据的时间信息等问题。如:“基于学生上网行为的贫困生预测方法和装置”只使用了学生的上网行为,以及对指标简单的统计排序来完成贫困生的预测;“一种基于深度学习的贫困生认定方法”中尽管使用了学生一卡通消费数据、成绩数据、图书馆借阅数据的特征,但是却不包括学生的上网行为与校园活动行为数据如校园任职,勤工俭学,实习情况等。同时的方法并没有考虑学生行为数据与时间之间的相关性。因此上述方式评定得到的贫困生极有可能是不准确的。
技术实现思路
为解决前述问题,本专利技术提供了一种针对学生序列化行为的贫困生预测方法,包括如下步骤:采集学生在校行为数据,以学生个体作为分类标签,以固定周期作为数据统计内容的时长,形成固定周期内的一组数据,并以矩阵形式表示,记为单组数据;对同一个学生的单组数据中的同一维度数据进行最大值与最小值差值的归一化处理后,对单组数据的所有特征进行重要度的构建并进行筛选,得到有效特征数据矩阵;构建many2one形式的长短时记忆网络模型,将同一学生当前时间段之前的连续的若干个有效特征数据带入模型,得到学生的贫困类别。进一步地,学生在校行为数据包括:上网行为数据、一卡通数据、宿舍出入数据、图书馆出入与借阅数据、课堂数据、校园活动数据、基本信息数据、贫困标签。进一步地,上网行为数据包括:上网内容,上网行为流量,上网时长;一卡通数据包括:食堂消费金额,食堂消费类目,食堂消费时间;超市消费金额,超市消费类目,超市消费时间;打水时间;淋浴消费金额,淋浴消费时间;一卡通卡内余额;宿舍出入数据包括:宿舍出入时间,宿舍出入地点;图书馆出入与借阅数据包括:图书馆出入时间,图书借阅名称,图书借阅时间;课堂相关数据包括:每学期课程成绩,课堂打卡时间;校园活动数据包括:校内组织任职情况,班级任职情况;勤工俭学时间,勤工俭学工资;每学期奖惩情况;课外活动积分值;实习单位,实习工资,实习时间;基本信息数据包括:家庭所在地、性别、专业、年龄、籍贯、兴趣爱好;贫困标签按照学生的贫困等级分成:无贫困、一般贫困,中度贫困,严重贫困;对贫困等级进行one-hot编码,作为贫困生标签;进一步地,单组数据以矩阵形式表示,每个固定周期形成一个矩阵形式的数据每个学生的贫困标签形成列向量矩阵其中t=1,2…T,表示不同月份对应的特征矩阵。进一步地,对特征矩阵X中的每个月份特征X(t)进行最大-最小值归一化,得到其中内的i行j列的元素i=1,2…mj=1,2…n,其中表示更新后的特征值,xmin表示该列特征的最小值,xmax表示该列特征的最大值。进一步地,对单组数据的所有特征进行重要度的构建并进行筛选包括:构建随机森林模型,获取每个特征的重要性,通过交叉验证的方式给定删除比例与最终剩余特征数量dimr,对特征矩阵中的每个固定周期的特征进行特征选择。进一步地,对单组数据的所有特征进行重要度的构建并进行筛选包括如下步骤:对特征矩阵中的每个特征进行重要性计算;依据每个特征重要性的数值进行降序排列;根据实现设定的比例进行特征的筛选,形成新的特征数据集。进一步地,特征的筛选采用循环方式,以实现设定的比例不断地进行筛选,直到所剩下的特征个数与实现设定的目标个数一致。进一步地,长短时记忆网络模型以有效特征数据矩阵作为输入,列向量矩阵作为输出,训练模型;长短时记忆网络模型中的损失函数采用交叉熵损失函数,优化器采用随机梯度下降算法,并且在输入与输出处加入dropout层,获取LSTM的隐层单元值。进一步地,固定周期以月为单位。进一步地,对同一学生的贫困类别进行认定时,采集该学生当前时间段之前的连续6组单组数据作为分析数据。本专利技术所达到的有益效果:本方案使用的数据能够较为全面的涵盖了学生在校内期间的各种行为,采用深度学习中的递归神经网络,来对学生的贫困等级实现精确地评判。附图说明图1是本方案的流程图。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。本方案使用的数据能够较为全面的涵盖学生在校内期间的各种行为,通过随机森林进行特征选择,再按照数据的时间特性,构建递归神经网络模型,进行贫困生预测,用于辅助认定。本方案的基本流程为:步骤1)采集学生在校行为数据,以学生个体作为分类标签,以固定周期作为数据统计内容的时长,形成固定周期内的一组数据,并以矩阵形式表示,记为单组数据;具体形式为:步骤1-1)通过收集学生的各种类型的行为数据主要包括:上网行为数据:上网内容,上网行为流量,上网时长。一卡通数据:食堂消费金额,食堂消费类目,食堂消费时间;超市消费金额,超市消费类目,超市消费时间;打水时间;淋浴消费金额,淋浴消费时间;一卡通卡内余额。宿舍出入数据:宿舍出入时间,宿舍出入地点。图书馆出入与借阅数据:图书馆出入时间,图书借阅名称,图书借阅时间。课堂相关数据:每学期课程成绩,课堂打卡时间。校园活动数据:校内组织任职情况,班级任职情况;勤工俭学时间,勤工俭学工资;每学期奖惩情况;课外活动积分值;实习单位,实习工资,实习时间。基本信息数据:性别、专业、年龄、籍贯、兴趣爱好等。并按照学生的贫困等级分成四类:无贫困、一般贫困,中度贫困,严重贫困。步骤1-2)对每个学生的上述数据以月为单位进行特征提取,得到如下特征:上网行为数据:对上网时长和上网流量数据求和得到每月上网总时长、每月上网总流量;对上网时长从时间上进行判断得到每月连续上网天数,计算每月日上网时长的统计量包括均值、方差、最大值、最小值、中位数、一阶差分的均值、方差等;对上网内容分类目统计主要统计每月消费类应用浏览次数、每月网购次数(支付页面)、每月游戏类应用浏览次数、时长、流量;通过每日上网时间来判断是否迟睡从而获得每月迟睡次数。一卡通数据:根据一卡通数据记录获得学生在校天数,对食堂消费数据进行求和得到每月食堂消费次数、金额,对食堂消费时间划分,定义三餐时间与点心、夜宵,进行统计得到每月三餐消费次数与金额、每月点心,夜宵消费次数与金额,结合在校天数计算得到食堂用餐匹配率,对食堂消费金额计算均值获得每月食堂每次消费金额,对该特征在整体上进行比较得到每月食堂每次消费金额在全校中所处水平,计算每日食本文档来自技高网...

【技术保护点】
1.一种针对学生序列化行为的贫困生预测方法,其特征在于:所述针对学生序列化行为的贫困生预测方法包括如下步骤:采集学生在校行为数据,以学生个体作为分类标签,以固定周期作为数据统计内容的时长,形成固定周期内的一组数据,并以矩阵形式表示,记为单组数据;对同一个学生的单组数据中的同一维度数据进行最大值与最小值差值的归一化处理后,对单组数据的所有特征进行重要度的构建并进行筛选,得到有效特征数据矩阵;构建many2one形式的长短时记忆网络模型,将同一学生当前时间段之前的连续的若干个有效特征数据带入模型,得到学生的贫困类别。

【技术特征摘要】
1.一种针对学生序列化行为的贫困生预测方法,其特征在于:所述针对学生序列化行为的贫困生预测方法包括如下步骤:采集学生在校行为数据,以学生个体作为分类标签,以固定周期作为数据统计内容的时长,形成固定周期内的一组数据,并以矩阵形式表示,记为单组数据;对同一个学生的单组数据中的同一维度数据进行最大值与最小值差值的归一化处理后,对单组数据的所有特征进行重要度的构建并进行筛选,得到有效特征数据矩阵;构建many2one形式的长短时记忆网络模型,将同一学生当前时间段之前的连续的若干个有效特征数据带入模型,得到学生的贫困类别。2.根据权利要求1所述的针对学生序列化行为的贫困生预测方法,其特征在于:所述学生在校行为数据包括:上网行为数据、一卡通数据、宿舍出入数据、图书馆出入与借阅数据、课堂数据、校园活动数据、基本信息数据、贫困标签。3.根据权利要求2所述的针对学生序列化行为的贫困生预测方法,其特征在于:所述上网行为数据包括:上网内容,上网行为流量,上网时长;所述一卡通数据包括:食堂消费金额,食堂消费类目,食堂消费时间;超市消费金额,超市消费类目,超市消费时间;打水时间;淋浴消费金额,淋浴消费时间;一卡通卡内余额;所述宿舍出入数据包括:宿舍出入时间,宿舍出入地点;所述图书馆出入与借阅数据包括:图书馆出入时间,图书借阅名称,图书借阅时间;所述课堂相关数据包括:每学期课程成绩,课堂打卡时间;所述校园活动数据包括:校内组织任职情况,班级任职情况;勤工俭学时间,勤工俭学工资;每学期奖惩情况;课外活动积分值;实习单位,实习工资,实习时间;所述基本信息数据包括:家庭所在地、性别、专业、年龄、籍贯、兴趣爱好;所述贫困标签按照学生的贫困等级分成:无贫困、一般贫困,中度贫...

【专利技术属性】
技术研发人员:吴和俊王敏康李振
申请(专利权)人:杭州华网信息技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1