基于在校行为数据多维分析的贫困生资助推荐方法技术

技术编号:18237802 阅读:47 留言:0更新日期:2018-06-17 01:03
本发明专利技术涉及基于在校行为数据多维分析的贫困生资助推荐方法,与现有技术相比解决了难以实现待资助贫困生精准推荐的缺陷。本发明专利技术包括以下步骤:历史行为数据的获取;历史行为数据的特征提取;推荐模型的训练;待分析行为数据的获取;待分析行为数据的特征提取;推荐结果的获得。本发明专利技术基于学生产生的在校数据,通过提取多个维度的特征,利用这些特征建立分类模型,借助分类模型准确判断学生的贫困情况并作出决策。 1

Recommendation method for needy students based on multidimensional analysis of school behavior data

The present invention relates to a poor student funding recommendation method based on the multi-dimensional analysis of the behavior data at school, which is difficult to achieve a precision recommendation for poor students to be supported by the existing technology. The invention includes the following steps: the acquisition of historical behavior data, the feature extraction of historical behavior data, the training of the recommended model, the acquisition of the behavior data to be analyzed, the feature extraction of the behavior data to be analyzed, and the acquisition of the recommended results. The invention is based on the students' school data, and uses these features to establish classification models by extracting the characteristics of multiple dimensions, and the classification model is used to determine the students' poverty situation and make a decision. One

【技术实现步骤摘要】
基于在校行为数据多维分析的贫困生资助推荐方法
本专利技术涉及大数据分析
,具体来说是基于在校行为数据多维分析的贫困生资助推荐方法。
技术介绍
大数据时代的来临,为贫困生资助工作提供了新的理念和技术支持,也为高校利用大数据推进快速、便捷、高效精准资助工作带来了新的机遇。利用大数据挖掘与分析技术、数学建模理论帮助管理者掌握学生在校期间真实的行为模式发现“隐性贫困”与疑似“虚假认定”的学生,实现精准资助。目前对于在校贫困生的精准资助还处在探索阶段,国内暂无统一的评估方法,对于在校贫困生没有统一的定界标准,对贫困生的资助缺乏系统、规范化的管理,使得资助工作非常繁琐,并且造成很多数据资源的浪费。虽有部分技术提出了一些观点和思路,但均无法满足实际应用或难以实现,例如:专利号为201710223971.6、专利名称为基于数据挖掘的学生贫困状态预测方法的专利申请文件。其虽是针对于学生在校数据进行分析,但直接使用大数据平台hadoop和spark,且模型使用了随机森林,未对学生在校数据进行有针对性的技术数据分类划分,使得分类结果并不理想。因此,如何利用大数据技术准确地实现贫困生的资助认为已经成为需解决的技术问题
技术实现思路
本专利技术的目的是为了解决现有技术中难以实现待资助贫困生精准推荐的缺陷,提供一种基于在校行为数据多维分析的贫困生资助推荐方法来解决上述问题。为了实现上述目的,本专利技术的技术方案如下:一种基于在校行为数据多维分析的贫困生资助推荐方法,包括以下步骤:历史行为数据的获取,获取往期学生多个维度的历史行为数据,历史行为数据包括往期学生的家庭经济数据、校园一卡通消费数据、学生成绩数据、图书馆借阅数据;历史行为数据的特征提取,提取往期学生历史行为数据的维度特征,并建立特征矩阵;推荐模型的训练,利用家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S对推荐模型进行训练;待分析行为数据的获取,获取待分析学生多个维度的行为数据,行为数据包括往期学生的家庭经济数据、校园一卡通消费数据、学生成绩数据、图书馆借阅数据;待分析行为数据的特征提取,提取待分析学生行为数据的维度特征,并建立待分析特征矩阵;推荐结果的获得,将待分析特征矩阵输入训练后的推荐模型,获得贫困生资助推荐集合和贫困生资助非推荐集合。所述历史行为数据的特征提取包括以下步骤:根据提取到的家庭经济数据构建家庭经济情况特征矩阵A;计算每个往期学生家庭经济消费的最大值Maxi、最小值Mini、中位数Mediani、平均数Avgi、四分位数Quartilei、标准差Standardi、工作日与周末的消费金额比例Ratei,以矩阵的形式存至内存中,家庭经济情况特征矩阵A定义如下:A=[Maxi,Mini,Mediani,Avgi,Quartilei,Standardi,Ratei]T;根据提取到的校园一卡通消费数据构建校园一卡通消费情况特征矩阵B,其具体步骤如下:计算每个往期学生的消费次数Timesi、消费总额Cost_Amounti、单笔最大消费Single_max_amounti、单笔最小消费Single_min_amounti、消费均值Cost_avgi、消费中位数Cost_mediani;计算每个往期学生的恩格尔系数,其计算公式如下:其中,P1表示每个往期学生食堂消费金额,P2表示每个往期学生消费总金额,Ei表示每个往期学生的恩格尔系数;建立校园一卡通消费情况特征矩阵B,其表达式如下:B=[Timesi,Cost_Amounti,Single_max_amounti,Single_min_amounti,Cost_avgi,Cost_mediani,Ei]T;根据提取到的往期学生成绩数据计算学生潜在因子矩阵Pi,其具体步骤如下:构建往期学生成绩矩阵R中的每个元素r,其中,rij表示学生ui在课程cj中的成绩,为学生pi在课程qj中的平均成绩;构建往期学生选课矩阵W中的每个元素Wij,Wij表示学生ui在课程cj中的选课情况,1表示选择课程,0表示未选择课程;对成绩矩阵R进行矩阵分解,通过优化以下目标函数实现:其中,Pi表示学生潜在因子,Qj表示课程因子,λ表示惩罚参数;参数Pi和Qj通过交替最小二乘法和随机梯度下降法求得,交替最小二乘法利用以下的公式来更新参数:其中,Ek是一个k*k的单位矩阵,k是给定要提取的特征的维度,即单个学生的成绩情况为一个k维的向量;pi是学生潜在因子矩阵表示学生对课程的偏好程度,qj是课程潜在因子矩阵表示课程自身的质量;根据提取到的往期学生图书馆借阅数据构建借阅矩阵S,其具体步骤如下:借阅矩阵S的每一行表示一个学生的借阅情况,每一列表示一本图书被借阅的情况其中矩阵中的每个元素,sui表示学生u是否借阅了图书i,sui为1时表示该书被借阅,sui为0时表示该书未被借阅;对图书借阅矩阵S做矩阵分解,通过优化以下目标函数实现,其中,Hu表示学生对图书的偏好因子,Gi表示图书的潜在因子,λ表示惩罚参数;参数Huk和Gik通过随机梯度下降法求得,梯度公式如下:梯度下降求最小值:其中,α为迭代步长,Huk是学生u在k这个类别上的偏好分数,Gki是图书i在k这个类别上的偏好分数;得到学生u的阅读兴趣Hu,阅读兴趣Hu反映了该学生对应的阅读兴趣特征。所述推荐模型的训练包括以下步骤:模型预处理阶段,以递归形式设定模型设计的停止条件,其设定如下:创建数据集类标签向量,记作Clsaslist{c1、c2、...、ck};若训练集D中所有学生属于同一类标签Ck,则直接返回该类标签Ck;若特征集X为空,将训练集D中学生数最大的类标签Ck作为返回值;模型训练阶段,基于香农的信息论创建树模型,分别计算每个特征的信息增益,挑选出信息增益最大特征作为第一个分类节点,递归整个模型,直到所有特征全部用完,模型训练结束;其具体步骤如下:计算特征集X中各特征对训练集D的熵,其计算公式如下:其中,D为训练集,pi表示第i个分类的频率,m表示分类的数量;将训练集D按照特征集X进行划分,计算特征集X对训练集D划分的信息期望,计算公式如下:其中,Values(X)表示特征集X的属性值集合,j表示一个属性值,Dj是训练集D中属性值为j的子集;分别计算家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S的信息增益gain(),计算公式如下:gain(D,X)=info(D)-infoX(D);针对家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S的信息增益进行比较;找出信息增益最大的特征矩阵作为树模型的根节点,树模型的第二层子节点分为两个节点,其中一个节点为贫困生资助非推荐集合;对剩下的三个特征矩阵重新计算信息增益并比较,找出三个特征矩阵中增益最大的特征矩阵作为第二层子节点的第二个节点;第二层子节点的第二个节点往下延伸作为树模型的第三层子节点,第三层子节点分为两个节点,其中一个节点为贫困生资助非推荐集合;对剩下的两个特征矩阵重新计算信息增益并比较,找出两个特征矩阵中增益最大的特征矩阵作为第三层子节点的第二个节点;第三层子节点的第二个节点往下延伸作为树模型的第四层子节点,第四层子节点本文档来自技高网...
基于在校行为数据多维分析的贫困生资助推荐方法

【技术保护点】
1.一种基于在校行为数据多维分析的贫困生资助推荐方法,其特征在于,包括以下步

【技术特征摘要】
1.一种基于在校行为数据多维分析的贫困生资助推荐方法,其特征在于,包括以下步骤:11)历史行为数据的获取,获取往期学生多个维度的历史行为数据,历史行为数据包括往期学生的家庭经济数据、校园一卡通消费数据、学生成绩数据、图书馆借阅数据;12)历史行为数据的特征提取,提取往期学生历史行为数据的维度特征,并建立特征矩阵;13)推荐模型的训练,利用家庭经济情况特征矩阵A、校园一卡通消费情况特征矩阵B、学生潜在因子矩阵Pi和借阅矩阵S对推荐模型进行训练;14)待分析行为数据的获取,获取待分析学生多个维度的行为数据,行为数据包括往期学生的家庭经济数据、校园一卡通消费数据、学生成绩数据、图书馆借阅数据;15)待分析行为数据的特征提取,提取待分析学生行为数据的维度特征,并建立待分析特征矩阵;16)推荐结果的获得,将待分析特征矩阵输入训练后的推荐模型,获得贫困生资助推荐集合和贫困生资助非推荐集合。2.根据权利要求1所述的基于在校行为数据多维分析的贫困生资助推荐方法,其特征在于,所述历史行为数据的特征提取包括以下步骤:21)根据提取到的家庭经济数据构建家庭经济情况特征矩阵A;计算每个往期学生家庭经济消费的最大值Maxi、最小值Mini、中位数Mediani、平均数Avgi、四分位数Quartilei、标准差Standardi、工作日与周末的消费金额比例Ratei,以矩阵的形式存至内存中,家庭经济情况特征矩阵A定义如下:A=[Maxi,Mini,Mediani,Avgi,Quartilei,Standardi,Ratei]T;22)根据提取到的校园一卡通消费数据构建校园一卡通消费情况特征矩阵B,其具体步骤如下:221)计算每个往期学生的消费次数Timesi、消费总额Cost_Amounti、单笔最大消费Single_max_amounti、单笔最小消费Single_min_amounti、消费均值Cost_avgi、消费中位数Cost_mediani;222)计算每个往期学生的恩格尔系数,其计算公式如下:其中,P1表示每个往期学生食堂消费金额,P2表示每个往期学生消费总金额,Ei表示每个往期学生的恩格尔系数;223)建立校园一卡通消费情况特征矩阵B,其表达式如下:B=[Timesi,Cost_Amounti,Single_max_amounti,Single_min_amounti,Cost_avgi,Cost_mediani,Ei]T;23)根据提取到的往期学生成绩数据计算学生潜在因子矩阵Pi,其具体步骤如下:231)构建往期学生成绩矩阵R中的每个元素r,其中,rij表示学生ui在课程cj中的成绩,为学生pi在课程qj中的平均成绩;232)构建往期学生选课矩阵W中的每个元素Wij,Wij表示学生ui在课程cj中的选课情况,1表示选择课程,0表示未选择课程;233)对成绩矩阵R进行矩阵分解,通过优化以下目标函数实现:其中,Pi表示学生潜在因子,Qj表示课程因子,λ表示惩罚参数;参数Pi和Qj通过交替最小二乘法和随机梯度下降法求得,交替最小二乘法利用以下的公式来更新参数:其中,Ek是一个k*k的单位矩阵,k是给定要提取的特征的维度,即单个学生的成绩情况为一个k维的向量;pi是学生潜在因子矩阵表示学生对课程的偏好程度,qj是课程潜在因子矩阵表示课程自身的质量;24)根据提取到的往期学生图书馆借阅数据构建借阅矩阵S,其具体步骤如下:241)借阅矩阵S的每一行表...

【专利技术属性】
技术研发人员:孙浪施星靓刘胜军李晓洁孟虎李海松
申请(专利权)人:合肥城市云数据中心股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1