大数据驱动的学生有氧能力分群方法技术

技术编号:17251629 阅读:15 留言:0更新日期:2018-02-11 10:37
大数据驱动的学生有氧能力分群方法,它含以下步骤:1)将有氧能力数据作为隐马尔科夫模型(HMM)的观察数据,初始化HMM参数;2)训练HMM求解模型参数,据此HMM,基于观察序列进行HMM预测,求得状态转化序列;3)利用状态转化序列计算出每个学生的有氧能力模型;4)利用学生的有氧能力模型,使用KL距离计算每学生个体之间的相似度,得到学生之间的相似度矩阵,并使用层次聚类对学生体质进行分群。本发明专利技术提出了大数据驱动的学生有氧能力分群方法,能够据有氧能力将学生进行分群处理,实现学生体质的个性化画像与分群,可用于体育个性化锻炼、训练。

【技术实现步骤摘要】
大数据驱动的学生有氧能力分群方法
本专利技术涉及大数据驱动的学生有氧能力分群方法,具体涉及大数据背景下的学生有氧能力数据两阶段分群方法,尤其涉及对具有多维时间序列,在时间维度上非等长的有氧能力数据,提出非等长的多变量时间序列分群聚类方法。
技术介绍
从1985年起,我国进行了6次全国范围的青少年体质健康调查。调查显示,中国青少年的体质在持续下降。由于长期缺乏锻炼,超重和肥胖现象严重,近视发生率继续增加,血压调节机能不良比较普遍,一些常见的中老年人病症(如冠心病、高血压等),近年来也时常出现在有的青少年身上。据调查资料显示,从1985年到2005年春秋段的学生,大学生的耐力体质还在持续下降,而7至18岁的学生耐力正慢慢回升。2012年下半年,接连发生的多起青少年中长跑猝死事件,如上海东华大学一名大三学生,在测试1000米时忽然晕倒,不治身亡;2013年、2014年相继在湖北、浙江发生类似案例。致使多所学校取消了运动会的中长跑项目。这类事件引起社会各界对学生体质下降问题的广泛关注,如何遏制青少年体质持续下降,促进学生健康成长,是学校体育的当务之急。面对海量的学生运动有氧能力数据,合理的分析、挖掘学生,对学生健康状况进行一定的了解,定制合理的运动方案,是防止运动中突发事件产生、提高学生体质健康的一种重要手段。数据分析中的聚类方法是通过无监督的方式将相似性高的个体聚成簇,以此区分个体差异。通过对有氧能力数据进行聚类分析,可以找出不同的学生群体,针对不同的群体运用不同的运动方案,可以有效的促进学生的体质健康,防止突发事件的产生。因此,对学生有氧能力数据进行聚类分群具有重要意义。根据数据是否具有时间上的特性,聚类算法可分为:静态数据聚类算法和时间序列聚类算法;根据属性变量的个数,时间序列聚类算法又分为单变量时间序列和多变量时间序列。对单变量时间序列聚类的研究,大多数学者是单变量时间序列表示方法上进行优化,提出不同的数据表示方法,SAX是目前较为认可的时间序列表示法。根据数据在时间维度上是否等长的特征,多变量时间序列聚类又可分为等长的多变量时间序列聚类算法和非等长的多变量时间序列聚类算法,但对于多变时间序列聚类算法的研究上,目前还是甚少。本专利技术针对具有多维性和时间性,同时在时间维度上具有非等长的特性的有氧能力数据,提出非等长的多变量时间序列分群聚类算法。非等长的多变量时间序列聚类的难点在于如何解决多变量上特征的抽取、非等长多变量时间序列的表示、个体间的相似性度量和聚类过程。本专利技术拟解决以上所提大数据驱动下学生有氧能力数据分群问题。由于数据量大,无法一次性同时加载进内存进行处理,传统的聚类算法无法进行迭代分群操作。本专利技术采用两阶段聚类算法对有氧能力数据分群:第一阶段使用隐马尔可夫模型(HMM)对逐个加载进内存的有氧能力数据进行建模,获得在此观察序列下的状态转化序列,计算出概率转化矩阵(即学生有氧能力模型),而在第二阶段中,将学生有氧能力模型加载进内存即可完成学生有氧能力数据的分群处理。通过两阶段的处理,将大大减少了对内存的需求。
技术实现思路
由于每条学生有氧能力数据是数值型的多变量时间序列类型,且每条有氧能力数据的长度都是非等长的,在现有的方法中,无法准确的直接对非等长的矩阵数据进行相似度比较,针对上述问题,本专利技术的目的在于提供大数据驱动的学生有氧能力分群方法,解决学生有氧能力数据分群聚类的问题。所述的大数据驱动的学生有氧能力分群方法,采用两阶段法对学生生理数据进行分群处理,其特征在于第一阶段使用隐马尔可夫模型将每条学生生理数据作为观察序列进行建模,获得在此观察序列下的状态转化序列,计算出概率转化矩阵,即学生有氧能力模型;第二阶段将第一阶段得到的学生有氧能力模型加载进内存,采用层次聚类算法对学生有氧能力进行分群处理。所述的在本专利技术中,第一阶段中的学生有氧能力模型生成采用HMM。HMM有3个假设:(1)马尔科夫假设,后一个状态的值只与前一个状态有关;(2)时间无关性假设,状态转化矩阵和发射矩阵的值与时间无关;(3)观测独立性假设,任意时刻的观测只依赖于该时刻的马尔科夫链的状态。HMM可解决3个问题:(1)概率计算问题,给定模型λ=(A,B,π)和观察序列O=(o1,o2,o3,……,oT),计算在模型λ下的观察序列O出现的概率P(O|λ);(2)学习问题,在已知观察序列O=(o1,o2,o3,……,oT),估计模型λ=(A,B,π)参数,使得在该参数下概率P(O|λ)最大;(3)预测问题,已知模型λ=(A,B,π)和观测序列O=(o1,o2,o3,……,oT),,求对给定观测序列条件概率P(Q|O)最大的状态序列Q=(q1,q2,q3,……,qT)。对于有氧能力数据,将其视为HMM的观察数据。首先初始化状态数s以及模型参数然后通过解决HMM的学习问题,得到模型参数λ=(A,B,π),最后通过解码方法得出每条有氧能力数据所对应的状态转化序列,从而求得概率转化矩阵(即学生有氧能力模型)。在第二个阶段中,将学生有氧能力模型加载进内存,利用KL距离计算学生有氧能力数据之间的相似度,进一步使用层次聚类进行迭代分群。所述有氧能力数据运用HMM进行参数学习阶段包括在计算机上运行以下步骤:A1.将一条学生有氧能力数据记为O=(o1,o2,…,oT),假设其对应的状态序列(隐变量)为Q=(q1,q2,q3,……,qT),初始参数求在观察数据和初始参数下的隐变量的概率A2.EM算法的E步:求出E步的G函数它表示在参数下的观察序列O和状态序列Q概率的对数似然函数对参数λ和观察序列O下的状态序列Q的数学期望;A3.EM算法的M步:极大化G函数,求出模型参数A、B、π;A4.迭代计算A2、A3步,直到参数λ=(A,B,π)收敛为止。经过上述的处理过程后,就可得到每条有氧能力数据的隐马尔可夫参数。在此参数的基础上,预测每条有氧能力数据的状态序列Q。对于λ=(A,B,π),观测序列为O=(o1,o2,o3,…,oT)预测问题,在计算机上运行以下步骤:C1.初始化:记δt(i)表示在时刻t状态为si的所有单个状态序列(q1,q2,……,qt)中概率最大的值,ψt(i)表示在时刻t状态qt为si的所有单个状态序列(q1,q2,……qt-1,qt=si)中概率最大的序列的第t-1个状态。计算在t=1时刻、观测值为o1、状态为i下的最大状态序列概率δ1(i)=πibi(o1)以及前一个状态ψ1(i)=0,其中i=1,…,N;C2.对于t=2,3,……,T,1≤j≤N,递推计算:C3.当T=t时,终止计算:C4.最优回溯路径,对于t=T-1,T-2,T-3,……,1:求得最优路径进一步,在所得的每条有氧能力数据的状态转化序列Q*=(q1*,q2,*…,qT*)下,计算每条有氧能力数据的概率转化矩阵(即学生有氧能力模型),学生有氧能力模型代表了每个个体在该条有氧能力数据下的状态转化情况,可以反映个体之间的差异。给定状态空间S={s1,s2,s3,…,sN},对于某个学生的一条状态转化序列Q=(q1,q2,q3,…,qT),学生有氧能力模型的计算步骤如下:D1.k←1;D2.从S中取出状态sk;D3.对于状态转化序列Q,计算Pk=n(k→x)/nk,Pk本文档来自技高网
...
大数据驱动的学生有氧能力分群方法

【技术保护点】
大数据驱动的学生有氧能力分群方法,采用两阶段法对学生生理数据进行分群处理,其特征在于第一阶段使用隐马尔可夫模型将每条学生生理数据作为观察序列进行建模,获得在此观察序列下的状态转化序列,计算出概率转化矩阵,即学生有氧能力模型;第二阶段将第一阶段得到的学生有氧能力模型加载进内存,采用层次聚类算法对学生有氧能力进行分群处理。

【技术特征摘要】
1.大数据驱动的学生有氧能力分群方法,采用两阶段法对学生生理数据进行分群处理,其特征在于第一阶段使用隐马尔可夫模型将每条学生生理数据作为观察序列进行建模,获得在此观察序列下的状态转化序列,计算出概率转化矩阵,即学生有氧能力模型;第二阶段将第一阶段得到的学生有氧能力模型加载进内存,采用层次聚类算法对学生有氧能力进行分群处理。2.根据权利要求1所述的大数据驱动的学生有氧能力分群方法,其特征在于第一阶段包含:通过训练来求解HMM的模型参数,利用得到的参数和观察序列求解HMM的预测问题,得到的学生有氧能力模型记为P1,P2,……,PN,N是状态总数;第二阶段包括将一条观察序列记为O=(o1,o2,o3,…,oT),ot表示t时刻观察序列的观察值,设其对应的状态转化序列为Q=(q1,q2,q3,…,qT),qt表示t时刻状态转化序列的状态值,具体的分群方法包括如下步骤:步骤1第一阶段有氧能力模型生成:1.1)初始化HMM参数λ=(A,B,π)和状态空间S,相应状态数N,其中状态转换矩阵A=(aij)N×N,其中1≤i,j≤N,aij表示从状态i转化为状态j的概率;不同状态下观察值的概率分布矩阵B=(bj(ot))N×T,其中1≤j≤N,1≤t≤T,bj(ot)表示状态j的概率密度函数;设状态j的观察数据ot服从高斯分布,则bj(ot)=N(ot;μj,Σj),μj表示状态j所对应的观察数据的高斯分布的均值,Σj表示状态j所对应的观察数据的高斯分布的协方差矩阵;其中π为初始概率向量;S={s1,s2,s3,…,sN};1.2)使用所有的观察序列,通过期望最大化算法,即EM算法求得全体学生生理的HMM参数λ=(A,B,π);1.3)根据观察序列和模型参数,使用维特比算法,即Viterbi算法预测每条有氧能力数据的状态序列Q,对于λ=(A,B,π),观测序列为O=(o1,o2,o3,…,oT)预测问题,求解得到每个学生的状态转化序列;1.4)根据状态转换序列求得概率转化向量,即学生有氧能力模型;步骤2)第二阶段层次聚类:2.1)每个学生有氧能力模型初始化为一个类,C={c1,c2,…,cn};2.2)计算类间距离:有氧能力模型之间距离计算采用Kullback-Lieber方法;计算所有ci,cj的Kullback-Lieber距离KL(ci,cj),其中i>j,i,j=1,2,…,n;2.3)合并Kullback-Lieber距离最小,即相似度最高的两个类ci,cj形成新类cij,将C中的ci,cj替换为cij,如果C中只剩一个元素则停止计算,否则返回步骤2.2继续计算。3.根据权利要求2所述的大数据驱动的学生有氧能力分群方法,其特征在于步骤1.2中,全体学生生理的HMM参数λ通过期望最大化EM算法来求解,对于一条观察序列,使用EM算法在计算机上运行以下步骤:A1.将一条学生有氧能力数据记为O=(o1,o2,…,oT),假设其对应的状态序列,即隐变量为Q=(q1,q2,q3,……,qT),初始参数求在观察数据和初始参数下的隐变量的概率A2.EM算法的E步:求出E步的G函数它表示在参数下的观察序列O和状态序列Q概率的对数似然函数对参数λ和观察序列O下的状态序列Q的数学期望;A3.EM算法的M步:极大化G函数,求出模型参数A、B、π;A4.迭代计算步骤A2、A3,直到...

【专利技术属性】
技术研发人员:杨良怀王海龙柳乔凡周君来周雷李海鹏范玉雷龚卫华
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1