【技术实现步骤摘要】
一种基于类间混合决策树的健康信息处理方法
[0001]本专利技术属于模式识别领域,尤其涉及一种基于类间混合决策树的健康信息处理方法。
技术介绍
[0002]决策树作为一种历史悠久的监督学习算法,近年来取得了长足的进步并受到了人们的广泛关注。最近的研究表明,决策树在处理表格数据方面优于神经网络。在医学疾病诊断领域,大部分数据皆为表格型数据,因而决策树在疾病诊断领域具有先天优势。此外,决策树还能处理金融、医疗、入侵检测、天气预测和许多其他领域的难题。然而,现存的决策树都面临着一个重要的问题,即节点分裂准则。对于轴平行决策树,合适的纯度度量是其分裂准则的关键。对于斜决策树,可以将不同的分类器或决策函数作为其分裂准则。虽然斜决策树平滑了轴平行决策树的决策超平面从而获得更好的性能,但它损害了轴平行决策树的可解释性。Universum学习和决策树之间的结合还未得到充分的探索。可能是因为难以将Universum数据集嵌入到二元决策树构建过程中。在引入Universum数据集的情况下,难以度量内部节点的不纯度。此外,在树生长过程中,难以确定 ...
【技术保护点】
【技术特征摘要】
1.一种基于类间混合决策树的健康信息处理方法,包括以下步骤:步骤1,获取包含用户身体数据的训练集X;步骤2,基于训练集X建立目标函数,并得到最优解;步骤3,将数据划分为不相交的分区,直到节点变纯或样本数小于预定义的阈值。2.根据权利要求1所述的方法,其特征在于,步骤1中,将包含用户身体数据的训练集X记为:其中x
i
=[x
i1
,x
i2
,...,x
id
]
T
是第i个用户样本,i=1,2,...,n,d是x
i
的特征维度,x
id
∈R表示第i个用户的第d个特征值,y
i
∈{
‑
1,+1}是第i个用户样本的标签,y
i
取值为
‑
1时表示第i个用户患病,y
i
取值为1时表示第i个用户健康;x'∈U是一个Universum样本,U表示Universum集。3.根据权利要求2所述的方法,其特征在于,步骤2包括:步骤2
‑
1,最小化两个用户样本x1,x2间的马氏距离d
A
(x1,x2)=(x1‑
x2)
T
A(x1‑
x2)等价于最大化其中A是一个d
×
d实对称正定矩阵;最大化两类中心的马氏距离d
A
(m1,m2)等价于最小化其中m1和m2分别代表患病数据的类中心和健康数据的类中心,每个内部节点t的分裂准则对应的目标函数min
A>0
f(A)表示为:min
A>0
f(A)=tr(A(S
w
+S
u
))+tr(A
‑1S
b
)
ꢀꢀꢀꢀ
(2)其中tr表示矩阵的迹,A>0表示A是一个正定矩阵;S
b
,S
w
和S
u
分别定义为类间协方差矩阵、类内协方差矩阵和Universum类内协方差矩阵;步骤2
‑
2,目标是获得一个对角矩阵A=diag(w1,...,w
j
,...,w
d
),它的第j个对角元素w
j
表示候选特征j的判别性权重,特征j表示用户的第j个体征,取值为1~d,diag表示对角矩阵,在对角化度量矩阵约束下优化公式(2),得到f(w1,...,w
j
,...,w
d
);步骤2
‑
3,当f(A)的导数为零时,获得全局最优解,f(A)对w
j
求导;步骤2
‑
4,获得...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。