A method based on classification and regression tree is used to detect teachers'sub-health status. Traditional evaluation of teachers' sub-health in Colleges and universities lacks timeliness, objectivity and efficiency. In large data environment, machine learning technology can be more effective in establishing sub-health assessment model to support the prediction and warning of sub-health status of University teachers. Based on the classification and regression tree, the method to detect teachers'sub-health is to analyze and model the influencing factors of teachers' sub-health, and then to analyze the characteristics of sample data and preprocess the data. On this basis, the detailed process of sub-health decision-making model modeling is given by using the classification regression tree algorithm, and the evaluation index is analyzed. Finally, the parallel implementation of model construction is given by using Spark distributed computing framework. The invention provides a more efficient, objective and instant method to reflect the sub-health status of teachers, and to support the prediction and warning of sub-health of University teachers.
【技术实现步骤摘要】
一种基于分类回归树来用于检测教师亚健康状态的方法
本专利技术属于数据挖掘领域,具体涉及基于分类回归树算法构建出了一种教师亚健康决策模型,来用于检测教师的亚健康状态。
技术介绍
亚健康是介于健康与疾病之间的边缘状态。教师在教学、科研繁重任务下,工作没有时间界限和空间界限。同时,家庭、生活、职称晋升、竞争等社会和家庭压力使得亚健康状况对教师群体身心健康影响很大。传统研究方法采用自评量表和调查表的方式对教师亚健康状况及影响因素进行统计和评估。该方法往往只能从宏观角度出发,阶段性的开展调查。因此,从个体亚健康的预测预警角度,缺乏统计评估的时效性与客观性,且调查评估过程需要投入的代价较高,效率较低。大数据因其强大的预测能力,在疾病诊疗、模型建立、健康管理、基因分析等方面逐渐显示出巨大优势。大数据环境下,机器学习相关技术的广泛应用已经成为科学、健康、教育和国家安全等领域成功应用的关键因素之一。基于机器学习的教师亚健康检测方法能够根据已有大数据分析建立评估模型,并在此基础上根据影响因素基本数据满足教师个体亚健康状态的检测、评估。相比与传统方法,亚健康大数据的分析更加高效、客观,能够即时反映教师的亚健康状况,并且能够进一步支持教师亚健康的预测与预警。决策树分类是数据挖掘中的一种分类方法。通过对已有教师数据的学习和分析提取规则,对识别指标中的属性进行量化计算。从而,为教师亚健康状态的检测提供科学、准确的评估方法体系。CART分类回归树是决策树分类方法中的一种。目前,国内外大量研究针对CART分类回归技术在健康、医疗领域进行了深入研究。既涵盖了健康疾病检测、风险评估与干预的理 ...
【技术保护点】
1.一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,其步骤为:1)分析处理样本数据:1.1)确定多维影响因素:建立多维度的教师多维影响因素概念模型:所述的多维度教师健康影响因素包括社会特性、健康特性、环境特性、职业特性和行为特性五个维度;1.2)对影响因素样本集数据集进行特征分析,确定条件特征及决策特征:将教师的健康数据转化为计算机易于处理的向量形式,采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性,对样本数据集展开分析;1.3)对样本数据集进行预处理,用于构建初始决策树:包括数据清洗阶段和数据整合阶段,首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树;2)利用CART算法对亚健康决策树进行建模:2.1)构造用于检测教师亚健康状态的决策树;2.2)对初步构造生成的决策树模型进行剪枝算法优化;2.3)确定CART算法的评价体系指标:亚健康评估决策模型的有效性首先考虑准确率accuracy的衡量:
【技术特征摘要】
1.一种基于分类回归树来用于检测教师亚健康状态的方法,其特征在于,其步骤为:1)分析处理样本数据:1.1)确定多维影响因素:建立多维度的教师多维影响因素概念模型:所述的多维度教师健康影响因素包括社会特性、健康特性、环境特性、职业特性和行为特性五个维度;1.2)对影响因素样本集数据集进行特征分析,确定条件特征及决策特征:将教师的健康数据转化为计算机易于处理的向量形式,采用数据归纳手段分析已存在数据,从而发现数据之间的共同特性,对样本数据集展开分析;1.3)对样本数据集进行预处理,用于构建初始决策树:包括数据清洗阶段和数据整合阶段,首先,利用决策树算法通过训练数据集构造初始决策树;然后,利用树优化算法通过测试数据集修正决策树;2)利用CART算法对亚健康决策树进行建模:2.1)构造用于检测教师亚健康状态的决策树;2.2)对初步构造生成的决策树模型进行剪枝算法优化;2.3)确定CART算法的评价体系指标:亚健康评估决策模型的有效性首先考虑准确率accuracy的衡量:设真实应用过程中采集n个教师的数据样本实例,其中y′i是第i个样本的预测类别,yi是根据用户数据反映的真实类别,则准确率的数学表达如下,当完全正确时准确率值为1;结合精确度、召回率和综合各评价体系指标的衡量,整体分析效评价该模型的有效性:其中precision表示精确率,TP代表所有被正确分类到亚健康的样本数量,FP代表所有未能正确分类到亚健康的样本数量;其中recall表示召回率,FN代表被错误分类的亚健康样本数量。综合评价指标采用F1-measure值,即精确值和召回率的调和均值,即:推导得:3)基于spark的并行实现:3.1)确定决策树模型的构建架构:利用Flunme分布式工具针对不同部门、不同API、不同采集方式的数据进行数据的采集、聚合及传输处理;将来自于各部门的关系数据、管理数据、日志数据等通过整理存放于HDFS中,利用HBase数据库进行管理,按照不同的数据源存放在HBase相应表,同时按照属性和存储需求设计以确保大数据查询效率;在数据采集、整理、存储过程中,利用ZooKeeper工具进行数据的分布式配置、协调,分配训练数据集和测试数据集;决策树模型的计算采用基于内存的Spark分布式计算框架,利用分布式并行的处理方式以期提高CART算法构...
【专利技术属性】
技术研发人员:易俗,王延明,宋朋,张一川,
申请(专利权)人:辽宁大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。