基于主元分析与超限学习机相结合的临床病理数据分类方法技术

技术编号:14620822 阅读:70 留言:0更新日期:2017-02-10 12:37
一种基于主元分析与超限学习机相结合的临床病理数据分类方法,所述分类方法包括如下步骤:1)对临床数据进行归一化,通过主元分析进行特征提取,按特征显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据降维的目的;2)数据降维后,用超限学习算法训练前馈神经网络分类器;3)运用训练后的前馈神经网络分类器对测试样本进行测试,得分类结果。本发明专利技术提供了一种有效降低维度、简化计算、分类效果良好的基于主元分析与超限学习机相结合的临床病理数据分类方法。

【技术实现步骤摘要】

本专利技术涉及一种数据分类技术,具体是一种基于主元分析与超限学习机相结合的病理数据分类方法,可有效应用于高维临床病理数据分类和挖掘。
技术介绍
临床生理指标是医疗诊断、医治、预后等行医基本依据。临床数据维度很高,医生确诊时,往往利用其专业医学知识和诊断经验,做出推测。这种诊断经验是一种直觉性知识与后天训练综合能力,是医生在多年临床诊断的经验中积累起来的。但是疾病的内在机理错综复杂,各种因素之间会互相影响,其与人体的关系也是错综复杂不可预知,其中交织着大量的非线性关系,如果能运用自主算法发掘数据内在特征,实现临床数据有效分类,将可以为医生的诊治策略提供有益的提示和补充。医疗信息数据挖掘与应用近年来已受到广泛关注,相关众多技术应用中,数据提取和分类算法速度,是关乎相关技术性能的两个重要方面。前面提到临床生理数据往往维度较高,而进行算法优化过程常涉及到矩阵求逆等运算,造成计算量巨大的瓶颈效应。而数据分类模型往往又是数据驱动型黑箱,需采用迭代学习方法解决,又进一步加剧计算量瓶颈效应,给算法应用造成困难。
技术实现思路
为了克服已有医疗信息数据挖掘方式的维度较高、计算复杂、分类效果较差的不足,本专利技术提供了一种有效降低维度、简化计算、分类效果良好的基于主元分析与超限学习机相结合的临床病理数据分类方法。本专利技术解决其技术问题所采用的技术方案是:一种基于主元分析与超限学习机相结合的临床病理数据分类方法,所述分类方法包括如下步骤:1)对临床数据进行归一化,通过主元分析进行特征提取,按特征显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据降维的目的;2)数据降维后,用超限学习算法训练前馈神经网络分类器;假设有N个训练样本(xi,ti),其中xi=[xi1xi2xi3…xin]T,i=1,2,3…N,n为样本维度,ti=[ti1ti2ti3…xim]T,对于一个有个隐层神经元地单隐层网络,设置其模型为:其中g(x)为激活函数,超限学习机对激活函数没有特别的要求,常见的激活函数有sigmoid函数和tanh函数,wi为输入权重,βi为连接隐层第i个神经元输出权重,wi=[wi1wi2wi3…xin]T(7)βi=[βi1βi2βi3…βim]T(8)bi是隐层第i个神经元地阈值,单隐层神经网络的训练目标是要使得拟合的误差最小,即其范数趋向于0,表示为:Σj=1N~||oj-tj||=0---(9)]]>存在βi,wi,bi,使得可进一步表示为为线性方程:Hβ=T(10)H为隐层节点的输出矩阵,β为输出权重矩阵,T为期望输出矩阵,H(W1...WN~,b1...bN~,X1...XN)=g(W1·X1+b1)...g(WN~·X1+bN~).........g(W1·XN+b1)...g(WN~·XN+bN~)---(11)]]>β=β1T...βN~T,T=t1T...tNT,---(12)]]>找到使得:||H(W^i,b^i)β^-T||=minw,b,β||H(Wi,bi)β-T||]]>等价于求解最小化损失函数:E=Σj=1N(Σi=1N~βig(Wi·Xj+bi)-tj)2;]]>由公式(10)看出一旦输入权重wi和阈值bi被随机确定,隐层的输出矩阵H便随之确定,单隐层神经网络便转换成了求解线性系统:Hβ=T通过广义逆矩阵可求得输出权重矩阵其中H+为H的广义逆矩阵;3)运用训练后的前馈神经网络分类器对测试样本进行测试,得分类结果。进一步,所述步骤1)中,数据降维的过程如下:假设有一组随机样本为x1,x2,x3,…,xN,xi=[xi1,xi2,xi3,…,xim]T,i=1,2,…,N,m为样本的维数,这组样本的均值标记为x‾=1NΣi=1i=Nxi1xi2xi3...ximT=μ1μ2μ3...μmT---(1)]]>将每个随机样本与平均值相减进行特征中心化,并得到一个N×m矩阵集X,X=x1-x‾x2-x‾...xN-x‾---(2)]]>此时,每个维度上的均值均为0;协方差定义:对于样本X和样本Y,其协方差定义为Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=1n-1[(x1-x‾)(y1-y‾)+(x2-x‾)(y2-y‾)+...+(xn-x‾)(yn-y‾)]---(3)]]>当样本为m维数组时,它们的协方差便是协方差矩阵:令矩阵P为:P=XXT=x1-x‾x2-x‾...xN-x‾(x1-x‾)T(x2-x‾)T...(xN-x‾)T---(5)]]>由公式(4)和(5)知矩阵P便是这组样本的协方差矩阵,通过求解协方差矩阵P的特征值和特征向量,并将特征值按照大小进行排序,λ1≥λ2≥λ3…≥λm与之相对应的特征向量为:e1,e2,e3,…em假设存在λi≈0,当i>k时,此时可取λ1,λ2,λ3…λk对应的特征向量e1,e2,e3…ek,选取的特征向量矩阵与原数据集内积后得到新的降维数据集。本专利技术基于主元分析与超限学习机相结合的病理数据分类技术,提取显著数据降低分类数据维度,再结合超限学习机高效解决优化学习问题,可有效应用于高维临床病理数据分类和挖掘。本专利技术的有益效果主要表现在:有效降低维度、简化计算、分类效果良好。附图说明图1是单隐层前馈神经网络结构图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1,一种基于主元分析与超限学习机相结合的临床病理数据分类方法,所述分类方法包括如下步骤:1)对临床数据进行归一化,通过主元分析进行特征提取,按特征显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据降维的目的;据降维的过程如下:假设有一组随机样本为x1,x2,x3,…,xN,xi=[xi1,xi2,xi3,…,xim]T,i=本文档来自技高网...

【技术保护点】
一种基于主元分析与超限学习机相结合的临床病理数据分类方法,其特征在于:所述分类方法包括如下步骤:1)对临床数据进行归一化,通过主元分析进行特征提取,按特征显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据降维的目的;2)数据降维后,用超限学习算法训练前馈神经网络分类器;假设有N个训练样本(xi,ti),其中xi=[xi1 xi2 xi3 ... xin]T,i=1,2,3…N,n为样本维度,ti=[ti1 ti2 ti3 ... xim]T,对于一个有个隐层神经元地单隐层网络,设置其模型为:Σi=1N~βig(Wi·Xj+bi)=oj,j=1,2,3...N---(6)]]>其中g(x)为激活函数,超限学习机对激活函数没有特别的要求,常见的激活函数有sigmoid函数和tanh函数,wi为输入权重,βi为连接隐层第i个神经元输出权重,wi=[wi1wi2wi3...win]T   (7)βi=[βi1βi2βi3...βim]T   (8)bi是隐层第i个神经元地阈值,单隐层神经网络的训练目标是要使得拟合的误差最小,即其范数趋向于0,表示为:Σj=1N~||oj-tj||=0---(9)]]>存在βi,wi,bi,使得可进一步表示为为线性方程:Hβ=T   (10)H为隐层节点的输出矩阵,β为输出权重矩阵,T为期望输出矩阵,H(W1...WN~,b1...bN~,X1...XN)=g(W1·X1+b1)...g(WN~·X1+bN~)·····...·g(W1·XN+b1)...g(WN~·XN+bN~)---(11)]]>β=β1T···βN~T,T=t1T···tNT,---(12)]]>找到使得:||H(W^i,b^i)β^-T||minw,b,β||H(Wi,bi)β-T||]]>等价于求解最小化损失函数:E=Σj=1N(Σi=1N~βig(Wi·Xj+bi)-tj)2;]]>由公式(10)看出一旦输入权重wi和阈值bi被随机确定,隐层的输出矩阵H便随之确定,单隐层神经网络便转换成了求解线性系统:Hβ=T通过广义逆矩阵可求得输出权重矩阵其中H+为H的广义逆矩阵;3)运用训练后的前馈神经网络分类器对测试样本进行测试,得分类结果。...

【技术特征摘要】
1.一种基于主元分析与超限学习机相结合的临床病理数据分类方法,
其特征在于:所述分类方法包括如下步骤:
1)对临床数据进行归一化,通过主元分析进行特征提取,按特征
显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据
降维的目的;
2)数据降维后,用超限学习算法训练前馈神经网络分类器;
假设有N个训练样本(xi,ti),其中xi=[xi1xi2xi3...xin]T,i=1,2,3…N,n
为样本维度,ti=[ti1ti2ti3...xim]T,对于一个有个隐层神经元地单隐层网络,
设置其模型为:
Σi=1N~βig(Wi·Xj+bi)=oj,j=1,2,3...N---(6)]]>其中g(x)为激活函数,超限学习机对激活函数没有特别的要
求,常见的激活函数有sigmoid函数和tanh函数,wi为输入权重,
βi为连接隐层第i个神经元输出权重,
wi=[wi1wi2wi3...win]T(7)
βi=[βi1βi2βi3...βim]T(8)
bi是隐层第i个神经元地阈值,单隐层神经网络的训练目标是要使
得拟合的误差最小,即其范数趋向于0,表示为:
Σj=1N~||oj-tj||=0---(9)]]>存在βi,wi,bi,使得可进一步表示为为线性方
程:
Hβ=T(10)
H为隐层节点的输出矩阵,β为输出权重矩阵,T为期望输出矩阵,
H(W1...WN~,b1...bN~,X1...XN)=g(W1·X1+b1)...g(WN~·X1+bN~)·····...·g(W1·XN+b1)...g(WN~·XN+bN~)---(11)]]>β=β1T···βN~T,T=t1T···tNT,---(12)]]>找到使得:
||H(W^i,b^i)β^-T||minw,b,β||H(Wi,bi)β-T||]]>等价于求解最小化损失函数:
E=Σj=1N(Σi=1N~&b...

【专利技术属性】
技术研发人员:陈翔庄华亮何熊熊伍益明
申请(专利权)人:三门县人民医院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1