The invention relates to a prediction method of TCM syndrome type classification and multi label learning based on Bayesian network, by looking for the relationship between TCM disease type 6 diabetes mellitus, explore each type of invisible existence \causes\, and the \cause\ and the traditional four diagnostic information combined with the augmented feature set to describe the sample. Finally, the classifier is constructed by feature selection algorithm and multi label classification algorithm to predict the classification of 6 common diseases of Chinese medicine and clinical diabetes.
【技术实现步骤摘要】
基于多标记学习和贝叶斯网络的中医症型分类预测方法
本专利技术涉及一种信息分类预测方法,特别是涉及一种使用标记相关性作为描述样本的补充特征,并且将多标记学习算法和贝叶斯网络进行结合的基于多标记学习的中医临床症型分类方法。
技术介绍
中医临床症型分类主要是通过中医望闻问切的手法得到患者的症状信息(如:头疼、四肢冰冷、脉细等),并运用分类模型得到该患者对应症型(如:气虚、肝胃郁热等)。中医临床症型分类问题最大特点在于:每个患者对应症型常有多个,例如:气阴两虚兼血瘀,其中包含了气虚、阴虚和血瘀三种症型,因此使用多标记学习模型构建分类器成为解决该问题的常用方法。基于考察标记之间相关性的不同方式,已有的多标记学习问题求解策略大致可以分为三种:一阶、二阶和高阶;其中一阶方法将多标记问题转化成多个独立的二分类问题,忽略标记之间的关系,所以模型泛化能力最低,正确率不高;二阶方法将多标记问题拆分成两两标记比较,在一定程度上提高分类器泛化能力和正确率,但当现实问题具有超越二阶的相关性时,该类方法的性能将会受到很大影响;高阶方法策略通过考察高阶的标记相关性来构造分类器,如处理任一标记对其 ...
【技术保护点】
一种基于多标记学习和贝叶斯网络的中医症型分类预测方法,其特征在于步骤如下:步骤1:根据收集到的t个中医病例,整理了s种四诊症状,选择以二值方式为特征赋值,如果病人出现某一症状,则该症状赋值为1,反之为0,由此得到每个样本的特征集x
【技术特征摘要】
1.一种基于多标记学习和贝叶斯网络的中医症型分类预测方法,其特征在于步骤如下:步骤1:根据收集到的t个中医病例,整理了s种四诊症状,选择以二值方式为特征赋值,如果病人出现某一症状,则该症状赋值为1,反之为0,由此得到每个样本的特征集xi=(xi1,xi2,…,xis),其中i=1,…,t;同时,根据中医病例整理出k种常见的糖尿病症型,针对每个样本,如果该样本对应标记集中有某一症型,则为该症型赋值1,反之为0,由此得到每个样本的标记集Yi=(yi1,yi2,…,yik),其中i=1,…,t,将每个样本的特征集和标记集一一对应对应得到一个数据集S={(x1,Y1),(x2,Y2),…,(xt,Yt)},将数据集S分为训练数据集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和测试数据集K={(x1,Y1),(x2,Y2),…,(xn,Yn)};步骤2:将样本的标记集Yi=(yi1,yi2,…,yik)输入到BayesianDAGlearning工具包中,使用BayesianDAGlearning工具包中所提供动态规划算法DP来计算得到最优贝叶斯网络模型;步骤3:根据贝叶斯网络模型读取训练数据集D中每个样本标记的父节点信息pa=(p1,p2,…,pk),将已有s维的四诊信息与k维的父节点信息融合,得到了一个s+k维的训练数据的增广特征集:xi′=xi∪pai=(xi1,xi2,…,xis,pi1,pi2,…,pik);步骤4:使用训练数据D的特征集x1,x2,…,xm和它们的父节点信息pa1,pa2,…,pam分别作为训练数据和训练数据的标记集,训练得到一个多标记神经网络,使用这个多标记神经网络来预测测试数据集K中每个样本标记的父节点信息;然后将父节点信息与测试数据四诊信息融合,形成测试数据的增广特征集;步骤5:将增广训练数据集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成两份D1’,D2’用来训练出最优特征子集;使用训练数据D1’来随机生成新的特征子集共100组,将100组特征子集作为最初解空间,使用模拟退火算法SA进行迭代,每轮迭代中,将经过每组特征子集简化后的训练数据D1’输入多标记分类器,由多标记分类器输出一个指标Averageprecision作为描述特征子集的适应度,在设定时间Tk搜索解空间里适应度最高的解,即100组的特征子集:BF1’,BF2’,…,BF100’;步骤6:将BF1’,BF2’,…,BF100’作为遗传算法GA的...
【专利技术属性】
技术研发人员:夏勇,马梦羽,沈璐,张艳宁,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。