一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法技术

技术编号:20487185 阅读:18 留言:0更新日期:2019-03-02 19:58
本发明专利技术涉及一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量‑流出适龄儿童数量”,建立以年为单位的学位压力评估模型,对城区内的学位压力进行评估;考虑了城区人口迁移对于教育资源需求量的影响,辅助政府部门以及学校管理者提前做出应对,从而按照需要优化城市的教育资源布局,提升整体教育水平。

A Method of Urban Degree Stress Assessment Based on Naive Bayesian Algorithms and Curve Modeling

The present invention relates to an urban degree stress assessment method based on Naive Bayesian algorithm and curve modeling, including an outflow model of school-age children based on Naive Bayesian algorithm and an inflow model of school-age children based on curve estimation method. Finally, according to the formula \degree demand = number of school-age children + number of inflow-age children; number of outflow-age children\, an annual unit is established. The degree pressure evaluation model evaluates the degree pressure in urban areas, considers the impact of population migration on the demand for educational resources, and assists government departments and school managers to respond in advance, so as to optimize the distribution of urban education resources and improve the overall level of education according to needs.

【技术实现步骤摘要】
一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法
本专利技术属于城市教育资源管理
,特别是涉及一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法。
技术介绍
目前城市生活中,特别是中小学生对于学位需求的预测主要是基于城区适龄人口的静态数据得到。此种方法的问题是忽略了城区人口流动因素,特别在对中长期的学位需求预测时,采用静态人口数据会导致预测结果与现实存在较大偏差。其中现有计算方法技术包括朴素贝叶斯算法和曲线拟合建模,但是都不能解决上述问题。1.朴素贝叶斯算法:贝叶斯定理是统计学中通过事件集中的先验概率对后验概率评估的一个算法,其具体形式为:对于随机事件A和B有,在B发生的情况下A发生的可能性P(A|B)为随机事件的条件概率满足如下公式:贝叶斯算法是应用贝叶斯定理对,它是一类利用概率统计知识对事件进行分类的算法。该算法被广泛运用到大型数据的预测中,但适用于具有多维度的事件发生可能性的准确评估。2.曲线拟合建模:曲线拟合(curvefitting)是指选择适当的曲线类型来拟合观测数据,并用拟合的曲线方程分析两变量间的关系。在确定拟合参数时采用最小二乘法,最小二乘法是一种数学优化技术,通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。本方法只适合用于建模预测一些根据事件连续变化的数值关系。考虑到以上两种预测方法不能单独完整的解决适龄人口的静态数据问题,有必要建立一套动态的学位需求预测模型,综合考虑城区内与学位压力相关的各项指标,据此评估城区内学位压力随时间演化的情况,以帮助教育部门合理分配教育资源与有计划扩充教育设施。
技术实现思路
本专利技术提供一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,综合考虑城区内与学位压力相关的各项指标,据此评估城区内学位压力随时间演化的情况,以帮助教育部门合理分配教育资源与有计划扩充教育设施。本专利技术采用的技术方案是:包括基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”,建立以年为单位的学位压力评估模型,对城区内的学位压力进行评估;本专利技术提供的一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括以下步骤:S10:探索所述学位压力相关数据方法:探索区域内与就学情况相关的信息,通过各相关委办局业务数据包括学生信息、房屋出租信息或房地产户主信息等,获取相应数据字段,为未来模型的构建提供数据支撑;S20:评估适龄儿童数量方法为:通过儿童年龄(身份证号)以及该地区平均入学年龄的统计结果,获取未来1-5年内到达入学年龄的儿童人数;S30:构建学龄儿童流出模型方法,选取样本中共m个适龄儿童数据作为训练样本,基于朴素贝叶斯算法构建相应模型,具体步骤如下:S31.对数据字段中的连续性指标进行分箱;S32.将如家庭年收入、房屋租赁年数等连续指标进行分箱,离散为若干条件指标;S33.最终获得包含n项条件的布尔类型指标集合,记为X=[X1,X2,...Xn]。对其数据中任意样本i,其特征表达为X(i)=[a1(i),a2(i),...an(i)],其中a(i)取值为真或假;S34.计算训练样本中流出儿童先验概率;对于儿童流出的黑白样本的先验概率有:P(Y=流出)+P(Y=未流出)=1其中Y代表个体的流出情况,有流出与未流出两种情况。S35.计算的流出概率:计算i样本的流出概率为:其中P(Xj(i)=aj(i)|Y=流出)表示训练数据的所有流出样本中,第j项指标等于aj(i)的概率;P(Xj(i)=aj(i))表示训练数据的所有训练样本中,第j项指标等于aj(i)的概率;S36.当出现训练数据中同类样本量为0的情况下,采用拉普拉斯平滑:即在计算先验概率时,出现本类型的样本量设定为1(原本为0),分母数值加2(由于归类指标只存在“流出/未流出”两种情况,特征可能值为2)。S37.最终计算结果中,若出现P(Y=流出)≥P(Y=未流出),则认为该儿童会发生学位流出情况,反之则不会。S38.检验条件指标集:采用验证样本特征带入通过训练数据,获得的适龄儿童流出概率,检验模型准确度,根据验证结果调整模型中的条件指标;S39.计算学位流出数量;S391.计算未来一段时间内的学位流入情况;S40:构建学龄儿童流入模型,相比于城区内流出儿童的相关数据比较容易获取,城区流入儿童的相关信息维度较多且难以掌握,故在本专利技术中采用曲线估计法构建城区流入儿童数量-时间的数值模型,具体步骤如下:S41.选择拟合曲线;首先根据实际问题本身特点,用时间作为x轴参数,实际流入学位数量作为y轴参数,选择常见的曲线模型,包括但不限于:二次曲线(Quadratic)、复合曲线(Compound)、增长曲线(Growth)、对数曲线(Logarithmic)、三次曲线(Cubic)、S曲线(S)、指数曲线(Exponential)、逆函数(Inverse)、幂函数(Power)、逻辑函数(Logistic);S42.曲线参数拟合;运用最小二乘法求解完成每一种曲线模型的参数估计,并显示R方、F检验值、相伴概率值以及模型的相关系数等统计量,然后对参数估计的相关统计量进行检验,看其是否通过显著性检验,最终,选择R方统计量值最大的模型作为首选的曲线模型;S43.计算学龄儿童流入的学位流入数量将时间带入拟合曲线中,计算未来一段时间内的学位流入情况;S50:计算学位需求数量根据所述步骤S20、S30、S40所获取的结果,计算以下公式:“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”计算得出未来几年内的学位需求情况。进一步方案为,所述步骤S10中的字段信息包括:是否为流出适龄儿童、儿童身份证号码、儿童性别、儿童是否本地户口、家庭本地是否有房、家庭是否租赁本地房屋、家庭租赁房屋年数、家庭年收入、父亲是否本地户口、母亲是否本地户口、父母是否海归、是否独生子女,同时获取该区域过去几年的适龄儿童流入情况。进一步方案为,所述步骤34中的流出适龄儿童黑样本为:年龄为6-8岁儿童,在5岁以前居住在区内,且现在未在区内上学;流出适龄儿童白样本为;年龄为6-8岁的本区户口儿童,且在区内就学。进一步方案为,所述基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,是通过记载有城区年龄-人口分布以及城区内学龄儿童的家庭信息建立的。本专利技术提供的技术方案带来的有益效果是:基于城区年龄-人口分布以及城区内学龄儿童的家庭信息,分别建立基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”,基于曲线估计法建模的城区学龄儿童流入评估方法,以及根据此模型分析得到城区学位需求评估方法,建立以年为单位的学位压力评估模型,考虑到了学龄人口的流动性,适用于不同区域划分级别的学去压力评估,对城区内的学位压力进行准确评估。附图说明:图1为本专利技术工作流程示意图;图2为本专利技术教育预警学位数据来源示意图;图3本专利技术学位流入数量示意图;图4为本专利技术区内学位缺口前十统计示意图。具本文档来自技高网
...

【技术保护点】
1.一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,其特征在于:包括基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量‑流出适龄儿童数量”,建立以年为单位的学位压力评估模型,对城区内的学位压力进行评估;本专利技术提供的一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括以下步骤:S10:探索所述学位压力相关数据方法:探索区域内与就学情况相关的信息,通过各相关委办局业务数据包括学生信息、房屋出租信息或房地产户主信息,获取相应数据字段,为未来模型的构建提供数据支撑;S20:评估适龄儿童数量方法为:通过儿童年龄(身份证号)以及该地区平均入学年龄的统计结果,获取未来1‑5年内到达入学年龄的儿童人数;S30:构建学龄儿童流出模型方法,选取样本中共m个适龄儿童数据作为训练样本,基于朴素贝叶斯算法构建相应模型,具体步骤如下:S31.对数据字段中的连续性指标进行分箱;S32.将如家庭年收入、房屋租赁年数等连续指标进行分箱,离散为若干条件指标;S33.最终获得包含n项条件的布尔类型指标集合,记为X=[X1,X2,...Xn]。对其数据中任意样本i,其特征表达为X(i)=[a1(i),a2(i),...an(i)],其中a(i)取值为真或假;S34.计算训练样本中流出儿童先验概率;对于儿童流出的黑白样本的先验概率有:P(Y=流出)+P(Y=未流出)=1其中Y代表个体的流出情况,有流出与未流出两种情况。S35.计算的流出概率:计算i样本的流出概率为:...

【技术特征摘要】
1.一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,其特征在于:包括基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”,建立以年为单位的学位压力评估模型,对城区内的学位压力进行评估;本发明提供的一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括以下步骤:S10:探索所述学位压力相关数据方法:探索区域内与就学情况相关的信息,通过各相关委办局业务数据包括学生信息、房屋出租信息或房地产户主信息,获取相应数据字段,为未来模型的构建提供数据支撑;S20:评估适龄儿童数量方法为:通过儿童年龄(身份证号)以及该地区平均入学年龄的统计结果,获取未来1-5年内到达入学年龄的儿童人数;S30:构建学龄儿童流出模型方法,选取样本中共m个适龄儿童数据作为训练样本,基于朴素贝叶斯算法构建相应模型,具体步骤如下:S31.对数据字段中的连续性指标进行分箱;S32.将如家庭年收入、房屋租赁年数等连续指标进行分箱,离散为若干条件指标;S33.最终获得包含n项条件的布尔类型指标集合,记为X=[X1,X2,...Xn]。对其数据中任意样本i,其特征表达为X(i)=[a1(i),a2(i),...an(i)],其中a(i)取值为真或假;S34.计算训练样本中流出儿童先验概率;对于儿童流出的黑白样本的先验概率有:P(Y=流出)+P(Y=未流出)=1其中Y代表个体的流出情况,有流出与未流出两种情况。S35.计算的流出概率:计算i样本的流出概率为:其中P(Xj(i)=aj(i)|Y=流出)表示训练数据的所有流出样本中,第j项指标等于aj(i)的概率;P(Xj(i)=aj(i))表示训练数据的所有训练样本中,第j项指标等于aj(i)的概率;S36.当出现训练数据中同类样本量为0的情况下,采用拉普拉斯平滑:即在计算先验概率时,出现本类型的样本量设定为1(原本为0),分母数值加2(由于归类指标只存在“流出/未流出”两种情况,特征可能值为2)。S37.最终计算结果中,若出现P(Y=流出)≥P(Y=未流出),则认为该儿童会发生学位流出情况,反之则不会。S38.检验条件指标集:采用验证样本特征带入通过训练数据,获得的适龄儿童流出概率,检验模型准确度,根据验证结果调整模型中的条件指标;S39.计算学位流出数量;S...

【专利技术属性】
技术研发人员:刘驰尤如辉肖骥李耀东张福成
申请(专利权)人:中电科新型智慧城市研究院有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1