当前位置: 首页 > 专利查询>吉林大学专利>正文

基于多维高斯分布贝叶斯分类的癌症复发预测系统技术方案

技术编号:19062431 阅读:485 留言:0更新日期:2018-09-29 13:18
本发明专利技术涉及一种基于多维高斯分布贝叶斯分类的癌症复发预测系统,该系统的包括预处理模块、训练模块和贝叶斯分类器;预处理模块对训练集进行数据清洗并生成类向量数据集;训练模块首先计算两个类属性先验概率,然后利用pearson相关系数将数据属性分成与类属性关联度紧密的类数据属性集合和与类属性关联度稀疏的II类数据属性集合,两类数据属性集合分别利用多维高斯分布和一维高斯分布来计算相应的概率;贝叶斯分类器将两者概率及类别的先验概率联合共同作为数据属于每个类的概率,并据此判别癌症的分类测试结果。本发明专利技术提高了癌症是否复发的预测准确率。

【技术实现步骤摘要】
基于多维高斯分布贝叶斯分类的癌症复发预测系统
本专利技术属于数据挖掘
,涉及一种基于属性选择的多维高斯分布贝叶斯分类系统,具体涉及一种基于多维高斯分布贝叶斯分类的癌症复发预测系统。该系统对于一般的满足高斯分布的连续型数据的分类具有普适性。
技术介绍
分类方法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类方法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类方法的应用非常广泛,例如银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。贝叶斯分类方法是数据分类方法中一种常用的方法,该方法以经典的数学理论为基础,采用概率统计知识对数据样本进行分类。它基于概率统计学中的贝叶斯定理,在己知先验概率与类条件概率的前提下,对类成员关系的可能性进行预测,具有稳固的理论知识根底。从理论上讲,贝叶斯分类方法的出错概率最小,并且它能综合样本信息和先验知识来训练分类器,避免了数据的过拟合现象,降低了因主观判断而造成的误差。朴素贝叶斯分类方法(NaiveBayesianClassifier,NBC)作为贝本文档来自技高网...

【技术保护点】
1.一种基于多维高斯分布贝叶斯分类的癌症复发预测系统,其特征在于包括数据预处理模块、训练模块和贝叶斯分类器;数据预处理模块:将训练集中的噪声数据及缺省数据清洗掉生成类向量数据集,该训练集中包含类属性和M个数据属性,当类属性值L等于复发类属性值C1时代表复发,等于不复发类属性值C2时代表不复发;训练模块:包括类先验概率计算子模块,数据属性分类子模块,多维高斯分布概率模型生成子模块和一维高斯分布概率模型生成子模块;类先验概率计算子模块:根据式(1)计算复发类属性值C1和不复发类属性值C2在类向量数据集中出现的频率P(Cs),s=1,2;

【技术特征摘要】
1.一种基于多维高斯分布贝叶斯分类的癌症复发预测系统,其特征在于包括数据预处理模块、训练模块和贝叶斯分类器;数据预处理模块:将训练集中的噪声数据及缺省数据清洗掉生成类向量数据集,该训练集中包含类属性和M个数据属性,当类属性值L等于复发类属性值C1时代表复发,等于不复发类属性值C2时代表不复发;训练模块:包括类先验概率计算子模块,数据属性分类子模块,多维高斯分布概率模型生成子模块和一维高斯分布概率模型生成子模块;类先验概率计算子模块:根据式(1)计算复发类属性值C1和不复发类属性值C2在类向量数据集中出现的频率P(Cs),s=1,2;Ns代表每一种类属性的样本数据条数,N代表总的样本数据条数;数据属性分类子模块:利用pearson相关系数将属于数据属性分成与类属性关联度紧密的I类数据属性集合XA和与类属性关联度稀疏的II类数据属性集合XB,其中Xaj代表I类数据属性集合XA中的第j条样本数据;Xbj代表II类数据属性集合XB中第j条样本数据;多维高斯分布概率模型生成子模块:对I类数据属性集合XA进行训练,求出对应的属性均值向量ua与多维高斯分布的协方差矩阵G;从而求出基于I类数据属性集合XA的多维高斯概率分布函数MultiGaussion(Xa);式中,Xa代表一条测试数据中属于I类数据属性的测试数据向量;p为多维高斯分布函数的维数,即I类数据属性集合XA中数据属性的数目NA,ua为多维高斯分布函数的均值向量,G为多维高斯分布函数的互协方差矩阵;G=E((XA-E(XA))T(XA-E(XA)))一维高斯分布概率模型生成子模块:对II类数据属性集合XB进行训练,求出II...

【专利技术属性】
技术研发人员:李玲渠云龙杨秀华刘丹黄玉兰张海蓉佟宇琪顾琳刘婉莹戴思达李林骆宝童高华照张春霞
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1