一种高考院校录取分数预测与志愿推荐的算法制造技术

技术编号:35042314 阅读:90 留言:0更新日期:2022-09-24 23:21
本发明专利技术公开了一种高考院校录取分数预测与志愿推荐的算法,包括以下步骤:S1:收集各高校录取信息以及不同省份的高考分数与位次信息。S2:将收集到的各所高校信息进行筛选,剔除无用数据。S3:对整理后的高校信息进行归一化处理,减小差异样本对数据产生的影响。S4:利用XGBoost对高校当年在该省的成绩进行回归预测,预测出该高校的录取分数。S5:根据考生提供的分数、意向省份等信息,推荐出适合的高校,并提出稳定、可冲、危险三个推荐范围内的高校。本发明专利技术通过分析历史上高校的高考录取成绩,预测当年高校的录取分数,并提供考生填报高考志愿的参考信息。的参考信息。的参考信息。

【技术实现步骤摘要】
一种高考院校录取分数预测与志愿推荐的算法


[0001]本专利技术属于数据预测领域,具体涉及本专利技术公开了一种高考院校录取分数预测与志愿推荐的算法。
技术背景
[0002]高考是进入理想大学学习的必经途径,也是历年来社会关注的一个焦点。在高考之后,考生填报志愿又是非常关键的一个环节。志愿填报是否适当,直接关系到考生能否成功进入他所希望的高校学习,甚至会影响考生一生的成长。目前,各省所实行的志愿填报机制宏观上对考生志愿填报后的录取结果有着很大影响,直接决定了考生的满意程度和院校的生源质量。考生数量的众多和高校录取名额的稀缺使得很多考生不能进入理想的学校学习,同时,“高分落榜”、“高分低就”现象的出现也日益引起考生和家长的不满。随着高等教育的发展,高校和专业众多,考生及家长很难掌握全面的相关信息,由于不了解和随意填报志愿造成遗憾的现象比较普遍,在填报志愿时“慌不择路”,大大影响了未来的规划,造成终生的遗憾。随意填报志愿既是对教育资源的极大浪费,也是造成考生极大不满的主要原因。为了能够让每一位考生都有机会挑选最适合自己的高校,为了每一份教育资源都能得到充分的利用,需要为考生填报高考志愿提供有科学依据的参考。

技术实现思路

[0003]本专利技术的目的是为了解决高考院校录取分数线的预测问题,提出了一种高考院校录取分数预测与志愿推荐的算法。
[0004]本专利技术的技术方案是:一种高考院校录取分数预测与志愿推荐的算法,包括以下步骤:
[0005]S1:收集各高校录取信息以及不同省份的高考分数与位次信息;
[0006]S2:将收集到的各所高校信息进行筛选,剔除无用数据,填补空值;
[0007]S3:对进行整理后的高校信息进行归一化处理,减小差异样本对数据产生的影响;
[0008]S4:利用XGBoost对高校当年在该省的成绩进行回归预测,预测出该校的录取分数;
[0009]S5:根据考生给出的分数、意向省份信息,推荐适合的高校,并提出:稳定、可冲、危险三个推荐范围的高校。本专利技术通过分析历史高校高考录取成绩,提供填报高考志愿的参考信息。
[0010]进一步地,步骤S1包括以下子步骤:
[0011]S11:从网络上收集各所高校近五年在不同省份的招生人数,在不同省份的录取分数线与相应位次,和各所高校是否为双一流大学,各所高校当年的招生计划,以及高校所在省份,高校所在城市,各省的高考成绩与位次对应表(一分一段表);
[0012]S12:将收集的各高校录取信息以及不同省份的高考分数与位次信息按照省份进行分类,加入数据库。
[0013]进一步地,步骤S2包括以下子步骤:
[0014]S21:整理收集到的数据,剔除空值过多的数据;
[0015]S22:对于空值较少的近五年各校在各省的录取分数数据,缺乏的空值用近两年的平均位次与当年该位次的分值来代替;
[0016]S23:将高校名称,是否为双一流大学的信息转化为各不相同且独立的数字信息,高校的数字信息从1开始与高校一一对应,确保每一个高校对应一个数字。对于是否为双一流大学的数字信息,是双一流大学的数字信息为1,不是为 0。
[0017]进一步地,步骤S22中,其计算公式为:
[0018][0019]其中n1、n2表示该空值位置最近两年位置的位次信息。利用近两年一分一段表中分数的平均值与当年的一分一段表进行映射,所得分数替代空值填入表中。
[0020]进一步地,步骤S3包括以下子步骤:
[0021]S31:整理数据,获取每列的最小值X
min
与最大值X
max

[0022]S32:对所有高校信息按省分类后进行归一化处理,减小差异样本对数据产生的影响;
[0023]进一步地,步骤S32中,归一化的计算公式为:
[0024][0025]X
scaled
=X
std
*(max

min)+min
[0026]X
min
为每列中的最小值组成的行向量,X
max
为每列中的最大值组成的行向量。Max为要映射到的区间最大值,默认是1,min为要映射到的区间最小值,默认是0。X
std
为标准化结果,X
scaled
为归一化结果。
[0027]进一步地,步骤S4包括以下子步骤:
[0028]S41:对经过S3归一化处理的数据进行滑动窗口分配,X是输入信息,Y是输出信息。以高校、该校当年招生计划、是否为双一流大学作为输入端X不变的部分,将每年的成绩,位次,招生人数以滑动窗口的形式作为X输入,Y为预测年份的高校录取分数,输出Y;
[0029]滑动窗口处理具体方法为:
[0030](1)、定义一个滑动窗口,窗口长度为L,其中M≥L,M为数据长度,数据的维度为(M,F),其中F为所选特征个数;
[0031](2)、按照维度(0~L,F)取出前L个数据放入窗口中,同时将第L+1个数据作为标签;
[0032](3)、以1为步长滑动动窗口,即按照维度(1~L+1,F)取出L个数据,同时将第L+2个数据作为标签;
[0033](4)、分别对每年的成绩、位次、招生人数数据重复上述步骤,直到每个数据集得到M

L+1个窗口和M

L+1个标签。
[0034]S42:将经过滑动窗口处理得到的数组划分为训练集和验证集,因为样本集规模小于1000000个样本为小样本集,依据对小样本集的训练集与验证集划分原则进行划分;
[0035]S43:利用网格搜索法对XGBoost的参数进行调整;
[0036]网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法,手动选择XGBoost的参数的范围,在所有候选的参数选择中,通过循环遍历,尝试每一种可能,由算法评估不同参数下的模型性能,以获得参数范围内最优的参数值。
[0037]XGBoost是一个优化的分布式梯度增强库,它在Gradient Boosting框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。将S43得到的训练集与验证集样本输入 XGBoost进行训练得到预测模型。
[0038]S44:以高校、该校当年招生计划、是否为双一流大学、以及目标年份前两年的成绩,位次,招生人数作为输入,通过模型预测目标年份该大学的录取分数,输出该高校当年的预测录取分数;
[0039]S45:将该高校当年的预测录取分数存入数据库。
[0040]进一步地,步骤S5包括以下子步骤:
[0041]S51:根据S4获得各高校当年的预测录取分数,以及高校所在城市、省份等信息,利用交叉验证方法,选择出KNNBASIC算法中最适合的K值;
[0042]交叉验证是把在某种意义下将原始数据进行分组,一部分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高考院校录取分数预测与志愿推荐的算法,其特征在于,包括以下步骤:S1:收集各高校录取信息以及不同省份的高考分数与位次信息;S2:将收集到的各所高校信息进行筛选,剔除无用数据,填补空值;S3:对整理后的高校信息进行归一化处理,减小差异样本对数据产生的影响;S4:利用XGBoost对高校当年在该省的成绩进行回归预测,预测出该校的录取分数;S5:根据考生给出的分数、意向省份信息,推荐适合的高校,并提出:稳定、可冲、危险三个推荐范围的高校。2.根据权利要求1所述的针对高校录取成绩的预测算法,其特征在于,所述步骤S1包括以下子步骤:S11:从网络上收集各所高校近五年在不同省份的招生人数,在不同省份的录取分数线与相应位次,和各所高校是否为双一流大学,各所高校当年的招生计划,以及高校所在省份,高校所在城市,各省的高考成绩与位次对应表(一分一段表);S12:将收集的各高校录取信息以及不同省份的高考分数与位次信息按照省份进行分类,加入数据库。3.根据权利要求1所述的针对高考成绩的预测算法,其特征在于,所述步骤S2包括以下子步骤:S21:整理收集到的数据,剔除空值过多的数据;S22:对于空值较少的近五年高校在各省的录取分数数据,缺乏的空值用近两年的平均位次与当年该位次的分值来代替;S23:将高校名称,是否为双一流大学的信息转化为各不相同且独立的数字信息,高校的数字信息从1开始与高校一一对应,确保每一个高校对应一个数字,对于是否为双一流大学的数字信息,是双一流大学的数字信息为1,不是为0。4.根据权利要求3所述的针对高考成绩的预测算法,其特征在于,所述步骤S22中,其计算公式为:其中n1、n2表示该空值位置最近两年位置的位次信息,利用近两年一分一段表中分数的平均值与当年的一分一段表进行映射,所得分数替代空值填入表中。5.根据权利要求1所述的针对高考成绩的预测算法,其特征在于,所述步骤S3中,其中对数据进行归一化处理的计算公式为:X
scaled
=X
std
*(max

min)+minX
min
为每列中的最小值组成的行向量,X
max
为每列中的最大值组成的行向量,max为要映射到的区间最大值,默认是1,min为要映射到的区间最小值,默认是0,X
std
为标准化结果,X
scaled
为归一化结果。6.根据权利要求1所述的针对高考成绩的预测算法,其特征在于,所述步骤S4包括以下子步骤:
S41:对经过S3归一化处理的数据进行滑动窗口分配,X是输入信息,Y是输出信息,以高校、该校当年招生计划、是否为双一流大学作为输入端X不变的部分,将每年的成绩,位次,招生人数以滑动窗口的形式作为X输入,Y为预测年份的高校录取分数,输出Y;滑动窗口处理的具体方法为:(1)、定义一个滑动窗口,窗口长度为L,其中M≥L...

【专利技术属性】
技术研发人员:武畅周奕俞浩然黄肖曼刘思言
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1