当前位置: 首页 > 专利查询>张永新专利>正文

基于高校学生立体数据的毕业去向预测方法及系统技术方案

技术编号:18399822 阅读:10 留言:0更新日期:2018-07-08 19:58
本发明专利技术公开了基于高校学生立体数据的毕业去向预测方法及系统,包括:获取学生的立体数据;对立体数据进行清洗和标准化处理;所述数据清洗是指:对立体数据依次进行缺失数据补全、重复数据检测和数据错误修改;利用处理后的立体数据对待测学生的毕业去向进行预测;对待预测学生的毕业去向预测结果进行展示;若个人就业意向与预测结果不符,则接收学生反馈数据,重新计算;本发明专利技术可以给学生的职业生涯规划提供参考。

【技术实现步骤摘要】
基于高校学生立体数据的毕业去向预测方法及系统
本专利技术涉及基于高校学生立体数据的毕业去向预测方法及系统。
技术介绍
随着我国高等教育由精英教育转变为大众教育,高校毕业生就业形势日趋严峻,如何对毕业生就业去向进行有效预测不仅是高校学生关心的问题,也越来越受到用人单位和就业指导部门的重视。首先,从数据层面,传统的毕业去向预测所依赖的大多是学生毕业成绩、所获奖励及证书等外在数据,缺乏诸如职业性格测试等与毕业去向密切相关的内在数据,这些平面化的数据难以展示学生大学期间的立体情况。其次,从分析的维度方面,传统的毕业去向预测方法分析维度往往比较单一,缺乏横向分析(同年级、同专业)和纵向分析(在校生和往届生)的结合应用,难以形成对学生多维度、动态的评价。另外,由于高校数据的封闭性,就业门户或平台难以获取高校学生在校的表现信息,导致传统的方法缺少对高校学生在校历史信息的综合考虑和利用。因此,如何有效地利用高校学生往届生的历史数据,如何对历史数据进行清洗和处理,更为准确的进行毕业去向预测,为学生的职业生涯规划提供参考,具有非常重要的意义和紧迫性。
技术实现思路
本专利技术的目的为了给学生的职业生涯规划提供参考,提出一种基于高校学生立体数据的毕业去向预测方法及系统。作为本专利技术的第一方面:基于高校学生立体数据的毕业去向预测方法,包括:步骤(1):获取学生的立体数据;步骤(2):对立体数据进行数据清洗和标准化处理;数据清洗是指:对立体数据依次进行缺失数据补全、重复数据检测和数据错误修改;步骤(3):利用处理后的立体数据对待测学生的毕业去向进行预测;步骤(4):对待预测学生的毕业去向预测结果进行展示;步骤(5):若个人就业意向与预测结果不符,则接收学生反馈数据,返回步骤(3)重新计算。进一步的,学生的立体数据,包括:学生的内在数据和外在数据;所述内在数据,包括:职业性格测试值,所述职业性格测试值通过职业性格测验量表获取;所述外在数据,包括:学生的学业成绩、德育成绩、考勤成绩、创新学分、图书馆出入次数和图书馆借阅次数。进一步的,所述数据清洗是指:对立体数据依次进行缺失数据补全、重复数据检测和数据错误修改。所述缺失数据补全,采用K近邻算法对立体数据中的缺失值进行补全;比如,在职业性格测试中,假设一份样本中缺失的职业性格测试值为主导变量,那么当前样本中未缺失的职业性格测试值为辅助变量;计算当前样本中辅助变量与若干完整样本中辅助变量之间的距离;找到当前样本的K个最近邻样本;计算K个最近邻样本的主导变量的平均值,将平均值作为当前样本缺失的职业性格测试值。数据补全的有益效果:职业性格测试的特殊性在于,学生在填写过程中有隐私保护的需求,所以在填写职业性格测试的时候,容易出现不填或漏填的现象,若将漏填或不填的数据忽略不计,那么最终得到的毕业去向结果就不会是精确的结果,只有将数据补全才有可能得到精确的毕业去向预测,而数据补全又有多种方式,本申请之所以考虑采用K近邻算法而不应用其他算法是因为K近邻算法更适用于职业性格测试缺失值的补全。所述重复数据检测,是指检测出指向同一对象的记录,采用余弦相似度计算算法进行重复检测;比如,记录ra与rb的共同属性为a1,a2,…,ak,则记录ra与rb的余弦相似度sim(ra,rb)为:其中,ra.ai表示记录ra的属性ai;rb.ai表示记录rb的属性ai;当记录ra与rb的余弦相似度sim(ra,rb)大于设定阈值时,说明两条记录指向同一对象。重复数据检测的意义:对于能够通过学号、身份证号等唯一标识来进行识别的数据,可通过这种唯一标识来识别。但对于学号、身份证号位数不正确甚至缺失的情况,容易造成本来是一个学生的数据记录,却视为两个学生的数据记录的情况。为了避免这种情况,本申请使用数据重复检测技术,保证了数据的唯一性,降低了算法计算的复杂度。所述数据错误修改,是指,对于经过重复检测确定为指向同一学生的多条记录,如果其在某一属性上不一致,即发生属性值冲突,则必然存在错误的数据值;基于已检测出的重复数据,采用加权投票方式进行真实值选择,将选取的真实值作为冲突属性的真实值;从而将多条重复记录合并为一条一致且准确的记录。设有n条指向同一学生的重复记录r1,r2,…,rn,其共同属性a对应的属性值分别为ra1,ra2,…,ran,重复记录r1,r2,…,rn所对应的数据源分别为s1,s2,…,sn;计算每个属性值的分值Score(rai):Score(rai)=Trustworthy(si)×Vote(rai)/n;其中,Trustworthy(si)为数据源si的可信度,数据源si的可信度通过人为设定,Vote(rai)是与属性值rai相同的属性值数量;最后,取得分最高的属性值作为选择的真实值。进一步的,所述数据标准化处理,是指,采用min-max标准化方法对清洗后的数据进行线性变换,变换后的结果均落到[0,1]区间中,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。进一步的,利用处理后的立体数据对待测学生的毕业去向进行预测:定义就业去向类别C=[c1,c2,c3,c4,c5,c6,c7,c8],学生特征X=[x1,x2,x3,x4,x5,x6,x7]c1,c2,c3,c4,c5,c6,c7,c8分别表示机关事业单位、国有企业、民营公司企业、外资公司企业、公办学校、其他教育行业、升学和出国;x1,x2,x3,x4,x5,x6,x7分别表示学业成绩,德育成绩,考勤成绩,创新学分,图书馆出入次数,图书借阅次数、职业性格测试值;首先,利用往届毕业生作为训练集,将往届毕业生的学生特征作为分类器的输入值,将往届毕业生的就业去向作为分类器的输出值,对分类器进行训练,得到训练好的分类器;其次,将待预测的学生特征作为输入值,输入到训练好的分类器中;输出待预测学生的就业去向概率;按照就业去向概率从大到小排序,给学生推荐排名靠前的若干个就业去向类别、概率值以及就业去向类别的往届毕业生人数。进一步的,对待预测学生的毕业去向预测结果进行展示,包括:待预测学生的综合评价、职业性格建议、就业去向展示以及推荐往届毕业生的信息。所述待预测学生的综合评价,是指,当前学生与同年级同专业其他学生的横向比较。所述职业性格建议,是指,通过各学期职业性格测试,对学生职业性格进行评价、对学生未来的就业方向以及待学习的内容进行合理化建议;所述就业去向展示,是指,通过可视化图表展示预测的就业去向类别及概率值。所述推荐往届毕业生的信息,是指,往届毕业生的立体数据信息及就业类型。通过待评测学生与往届毕业生的纵向比较,起到对就业去向类别预测结果可解释的作用。进一步的,对于非毕业级的学生,比如大二或大三年级的学生,由于没有其所有学期的数据,可填写预期表现调查表,根据调查表获取其对未来学期的成绩数据的预估值,从而形成待评测学生的完整数据。然后,据待评测学生的完整数据再次对该学生的就业去向进行预测,以得到更符合预期表现的预测结果。作为本专利技术的第二方面:基于高校学生立体数据的毕业去向预测系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时完成上述任一方法所述的步骤。作为本专利技术的第三方面:一种计算机可读存储介本文档来自技高网...

【技术保护点】
1.基于高校学生立体数据的毕业去向预测方法,其特征是,包括:步骤(1):获取学生的立体数据;步骤(2):对立体数据进行数据清洗和标准化处理;所述数据清洗是指:对立体数据依次进行缺失数据补全、重复数据检测和数据错误修改;步骤(3):利用处理后的立体数据对待测学生的毕业去向进行预测;步骤(4):对待预测学生的毕业去向预测结果进行展示;步骤(5):若个人就业意向与预测结果不符,则接收学生反馈数据,返回步骤(3)重新计算。

【技术特征摘要】
1.基于高校学生立体数据的毕业去向预测方法,其特征是,包括:步骤(1):获取学生的立体数据;步骤(2):对立体数据进行数据清洗和标准化处理;所述数据清洗是指:对立体数据依次进行缺失数据补全、重复数据检测和数据错误修改;步骤(3):利用处理后的立体数据对待测学生的毕业去向进行预测;步骤(4):对待预测学生的毕业去向预测结果进行展示;步骤(5):若个人就业意向与预测结果不符,则接收学生反馈数据,返回步骤(3)重新计算。2.如权利要求1所述的基于高校学生立体数据的毕业去向预测方法,其特征是,学生的立体数据,包括:学生的内在数据和外在数据;所述内在数据,包括:职业性格测试值,所述职业性格测试值通过职业性格测验量表获取;所述外在数据,包括:学生的学业成绩、德育成绩、考勤成绩、创新学分、图书馆出入次数和图书馆借阅次数。3.如权利要求1所述的基于高校学生立体数据的毕业去向预测方法,其特征是,所述缺失数据补全,采用K近邻算法对立体数据中的缺失值进行补全;在职业性格测试中,假设一份样本中缺失的职业性格测试值为主导变量,那么当前样本中未缺失的职业性格测试值为辅助变量;计算当前样本中辅助变量与若干完整样本中辅助变量之间的距离;找到当前样本的K个最近邻样本;计算K个最近邻样本的主导变量的平均值,将平均值作为当前样本缺失的职业性格测试值。4.如权利要求1所述的基于高校学生立体数据的毕业去向预测方法,其特征是,所述重复数据检测,是指检测出指向同一对象的记录,采用余弦相似度计算算法进行重复检测;记录ra与rb的共同属性为a1,a2,…,ak,则记录ra与rb的余弦相似度sim(ra,rb)为:其中,ra.ai表示记录ra的属性ai;rb.ai表示记录rb的属性ai;当记录ra与rb的余弦相似度sim(ra,rb)大于设定阈值时,说明两条记录指向同一对象。5.如权利要求1所述的基于高校学生立体数据的毕业去向预测方法,其特征是,所述数据错误修改,是指:对于经过重复检测的数据,如果其在某一属性上不一致,即发生属性值冲突,则必然存在错误的数据值;基于已检测出的重复数据,采用加权投票方式进行真实值选择,将选取的真实值作为冲突属性的真实值;从而将多条重复记录合并为一条一致且准确的记录;设有n条指向同一学生的重复记录r1,r2,…,rn,则在重复记录的共同属性a对应的属性值分别为ra1,ra2,…,ran,重复记录r1,r2,…,rn所对应的数据源分别为s1,s2,…,sn;计算每个属性值的分值Score(rai):Score(rai)=Trustworthy(si)×Vote(rai)/n;其中,Trustworth...

【专利技术属性】
技术研发人员:张永新张景焕王化雨杜德彭李涛徐卫志丁艳辉刘迎港公茂涛
申请(专利权)人:张永新
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1