当前位置: 首页 > 专利查询>辽宁大学专利>正文

一种基于分类回归树来用于检测教师亚健康状态的方法技术

技术编号:20007446 阅读:30 留言:0更新日期:2019-01-05 18:51
一种基于分类回归树来用于检测教师亚健康状态的方法,传统高校教师亚健康评估缺乏时效性、客观性、高效性。大数据环境下,利用机器学习技术能够更有效的建立亚健康评估模型,以支持高校教师亚健康状态的预测与预警。基于分类回归树来用于检测教师亚健康状态的方法首先针对高校教师亚健康影响因素进行多维分析和概念建模,其次对样本数据特征进行分析及数据预处理。在此基础上,利用分类回归树算法给出亚健康决策模型建模的详细过程,并分析评价指标。最后,利用Spark分布式计算框架给出了模型构建的并行实现。本发明专利技术提供了一种更加高效、客观且能够即时反映教师的亚健康状况,以及支持高校教师亚健康的预测与预警的方法。

A Method for Detecting Teachers'Sub-health Based on Classified Regression Tree

A method based on classification and regression tree is used to detect teachers'sub-health status. Traditional evaluation of teachers' sub-health in Colleges and universities lacks timeliness, objectivity and efficiency. In large data environment, machine learning technology can be more effective in establishing sub-health assessment model to support the prediction and warning of sub-health status of University teachers. Based on the classification and regression tree, the method to detect teachers'sub-health is to analyze and model the influencing factors of teachers' sub-health, and then to analyze the characteristics of sample data and preprocess the data. On this basis, the detailed process of sub-health decision-making model modeling is given by using the classification regression tree algorithm, and the evaluation index is analyzed. Finally, the parallel implementation of model construction is given by using Spark distributed computing framework. The invention provides a more efficient, objective and instant method to reflect the sub-health status of teachers, and to support the prediction and warning of sub-health of University teachers.

【技术实现步骤摘要】
一种基于分类回归树来用于检测教师亚健康状态的方法
本专利技术属于数据挖掘领域,具体涉及基于分类回归树算法构建出了一种教师亚健康决策模型,来用于检测教师的亚健康状态。
技术介绍
亚健康是介于健康与疾病之间的边缘状态。教师在教学、科研繁重任务下,工作没有时间界限和空间界限。同时,家庭、生活、职称晋升、竞争等社会和家庭压力使得亚健康状况对教师群体身心健康影响很大。传统研究方法采用自评量表和调查表的方式对教师亚健康状况及影响因素进行统计和评估。该方法往往只能从宏观角度出发,阶段性的开展调查。因此,从个体亚健康的预测预警角度,缺乏统计评估的时效性与客观性,且调查评估过程需要投入的代价较高,效率较低。大数据因其强大的预测能力,在疾病诊疗、模型建立、健康管理、基因分析等方面逐渐显示出巨大优势。大数据环境下,机器学习相关技术的广泛应用已经成为科学、健康、教育和国家安全等领域成功应用的关键因素之一。基于机器学习的教师亚健康检测方法能够根据已有大数据分析建立评估模型,并在此基础上根据影响因素基本数据满足教师个体亚健康状态的检测、评估。相比与传统方法,亚健康大数据的分析更加高效、客观,能够即时反映教师的亚健康状况,并且能够进一步支持教师亚健康的预测与预警。决策树分类是数据挖掘中的一种分类方法。通过对已有教师数据的学习和分析提取规则,对识别指标中的属性进行量化计算。从而,为教师亚健康状态的检测提供科学、准确的评估方法体系。CART分类回归树是决策树分类方法中的一种。目前,国内外大量研究针对CART分类回归技术在健康、医疗领域进行了深入研究。既涵盖了健康疾病检测、风险评估与干预的理论方法体系研究,也包括利用分类回归树对疾病和健康的检测和预警研究。还有方法通过改进CART算法降低数据的冗余度,提高诊断及预测的精度。但尚未存在研究利用分类回归树的方法针对教师亚健康状态的检测给出完整全面的分析和建模。
技术实现思路
专利技术提供针对现有技术的不足,本专利技术基于分类回归树算法对教师亚健康状态的检测给出了完整全面的分析和建模。首先综合分析教师职业本身的社会压力与生活行为,充分考虑职业特性,构建一种多维度的教师多维影响因素概念模型,然后进行影响因素样本数据集的特征分析,确定条件特征及决策特征,给出了数据预处理的方法及过程,接下来利用CART算法给出了教师亚健康决策模型的构建、优化方法和过程,并进一步提出了对该算法的评价指标,最后设计了模型的构建架构,并利用Spark计算框架给出了该方法的并行实现。为了实现上述目的,本专利技术创造采用的技术方案为:一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,其步骤为:1)分析处理样本数据:1.1)确定多维影响因素:建立多维度的教师多维影响因素概念模型:所述的多维度教师健康影响因素包括社会特性、健康特性、环境特性、职业特性和行为特性五个维度;1.2)对影响因素样本集数据集进行特征分析,确定条件特征及决策特征:将教师的健康数据转化为计算机易于处理的向量形式,采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性,对样本数据集展开分析;1.3)对样本数据集进行预处理,用于构建初始决策树:包括数据清洗阶段和数据整合阶段,首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树;2)利用CART算法对亚健康决策树进行建模:2.1)构造用于检测教师亚健康状态的决策树;2.2)对初步构造生成的决策树模型进行剪枝算法优化;2.3)确定CART算法的评价体系指标:亚健康评估决策模型的有效性首先考虑准确率accuracy的衡量:设真实应用过程中采集n个教师的数据样本实例,其中y′i是第i个样本的预测类别,yi是根据用户数据反映的真实类别,则准确率的数学表达如下,当完全正确时准确率值为1;结合精确度、召回率和综合各评价体系指标的衡量,整体分析效评价该模型的有效性:其中precision表示精确率,TP代表所有被正确分类到亚健康的样本数量,FP代表所有未能正确分类到亚健康的样本数量;其中recall表示召回率,FN代表被错误分类的亚健康样本数量。综合评价指标采用F1-measure值,即精确值和召回率的调和均值,即:推导得:3)基于spark的并行实现:3.1)确定决策树模型的构建架构:利用Flunme分布式工具针对不同部门、不同API、不同采集方式的数据进行数据的采集、聚合及传输处理;将来自于各部门的关系数据、管理数据、日志数据等通过整理存放于HDFS中,利用HBase数据库进行管理,按照不同的数据源存放在HBase相应表,同时按照属性和存储需求设计以确保大数据查询效率;在数据采集、整理、存储过程中,利用ZooKeeper工具进行数据的分布式配置、协调,分配训练数据集和测试数据集;决策树模型的计算采用基于内存的Spark分布式计算框架,利用分布式并行的处理方式以期提高CART算法构建决策树的效率;通过样本数据在Spark分布式框架下运行CART算法,计算教师亚健康评估决策树模型;最终得到的决策树;3.2):CART算法模型在spark上的并行实现:首先,考虑CART算法利用Gini指数计算最优分割点时,面向属性类别较多的教师多维影响因素数据集,根据属性的个数创建多个并发任务分别求解各属性最优分割点,在此基础上,比较并确定最小分割点;其次,对部分属性进行属性内并行化处理,将连续型数据的各分割点拆分至不同任务进行处理,最后,将计算结果合并,计算最优分割点;再次,针对连续型数据样本属性,通过减少高密度连续数据中的重复值提高算法计算效率;针对离散型数据样本属性,通过减少属性类型值中具有对称性的取值减少离散型数据的取值情况,从而缩小计算范围;最后,针对剪枝操作同样需要进行并行化处理:在各节点计算完成后,比较各任务计算结果,求出拥有最小误差增益值的节点,作为非叶子节点的剪枝优化目标。所述的步骤2.1)中,具体为:首先,需要针对条件属性从多样本集的输入变量中选择最佳分组变量,其次针对分组变量进行纯度计算,找到一个纯度最高的最佳分割值;对于离散型考虑除空集和全集之外的所有划分情况;对于连续型,则针对n个连续值产生n-1个分裂点,相邻两个连续值的均值(li+li-1)/2即为分裂点的分割值。将每个属性的所有划分按照Gini分割指数进行划分,Gini分割指数主要用于考察节点内n(n≥2)种样本的差异。针对整个样本训练数据集DT,DL部分一共包含n个条件属性,那么Gini指数可以定义为:其中,Pm为决策属性值m在训练样本DT中的相对概率,如果集合DT中共有t条训练数据,在l1的条件下分成DT1和DT2两部分,数据条数分别为t1和t2,那么这个Gini分割指数就是:以递归的方式针对每个属性值尝试划分,找到使得Gini分割指数变量最大的一个划分,该属性值划分的到的子树即为决策树构造阶段的最优分支。所述的步骤2.2)中,具体为:采用决策树剪枝算法检测和去除异常分枝,采用CART算法的后剪枝方法在已构建的决策树模型基础上,通过删除节点分支来剪去树节点。本专利技术创造的有益效果为:本专利技术通过上述方法,提供了一种更加具有时效性、客观性和高效性检测教师亚健康状态的方法。附图说明图1为本专利技术方法流程图。图2为教师多本文档来自技高网
...

【技术保护点】
1.一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,其步骤为:1)分析处理样本数据:1.1)确定多维影响因素:建立多维度的教师多维影响因素概念模型:所述的多维度教师健康影响因素包括社会特性、健康特性、环境特性、职业特性和行为特性五个维度;1.2)对影响因素样本集数据集进行特征分析,确定条件特征及决策特征:将教师的健康数据转化为计算机易于处理的向量形式,采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性,对样本数据集展开分析;1.3)对样本数据集进行预处理,用于构建初始决策树:包括数据清洗阶段和数据整合阶段,首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树;2)利用CART算法对亚健康决策树进行建模:2.1)构造用于检测教师亚健康状态的决策树;2.2)对初步构造生成的决策树模型进行剪枝算法优化;2.3)确定CART算法的评价体系指标:亚健康评估决策模型的有效性首先考虑准确率accuracy的衡量:

【技术特征摘要】
1.一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,其步骤为:1)分析处理样本数据:1.1)确定多维影响因素:建立多维度的教师多维影响因素概念模型:所述的多维度教师健康影响因素包括社会特性、健康特性、环境特性、职业特性和行为特性五个维度;1.2)对影响因素样本集数据集进行特征分析,确定条件特征及决策特征:将教师的健康数据转化为计算机易于处理的向量形式,采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性,对样本数据集展开分析;1.3)对样本数据集进行预处理,用于构建初始决策树:包括数据清洗阶段和数据整合阶段,首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树;2)利用CART算法对亚健康决策树进行建模:2.1)构造用于检测教师亚健康状态的决策树;2.2)对初步构造生成的决策树模型进行剪枝算法优化;2.3)确定CART算法的评价体系指标:亚健康评估决策模型的有效性首先考虑准确率accuracy的衡量:设真实应用过程中采集n个教师的数据样本实例,其中y′i是第i个样本的预测类别,yi是根据用户数据反映的真实类别,则准确率的数学表达如下,当完全正确时准确率值为1;结合精确度、召回率和综合各评价体系指标的衡量,整体分析效评价该模型的有效性:其中precision表示精确率,TP代表所有被正确分类到亚健康的样本数量,FP代表所有未能正确分类到亚健康的样本数量;其中recall表示召回率,FN代表被错误分类的亚健康样本数量。综合评价指标采用F1-measure值,即精确值和召回率的调和均值,即:推导得:3)基于spark的并行实现:3.1)确定决策树模型的构建架构:利用Flunme分布式工具针对不同部门、不同API、不同采集方式的数据进行数据的采集、聚合及传输处理;将来自于各部门的关系数据、管理数据、日志数据等通过整理存放于HDFS中,利用HBase数据库进行管理,按照不同的数据源存放在HBase相应表,同时按照属性和存储需求设计以确保大数据查询效率;在数据采集、整理、存储过程中,利用ZooKeeper工具进行数据的分布式配置、协调,分配训练数据集和测试数据集;决策树模型的计算采用基于内存的Spark分布式计算框架,利用分布式并行的处理方式以期提高CART算法构...

【专利技术属性】
技术研发人员:易俗王延明宋朋张一川
申请(专利权)人:辽宁大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1