一种疾病因素数据处理方法和系统技术方案

技术编号:14945387 阅读:107 留言:0更新日期:2017-04-01 11:49
公开了用于疾病因素数据处理的方法,该方法包括:步骤S1:将病人疾病因素数据通过归一化转化为疾病因素矩阵;步骤S2:将病人疾病因素数据划分为不同的疾病因素集合并从该矩阵得到不同的疾病因素集合矩阵;步骤S3:针对所述不同的疾病因素集合矩阵,利用典型相关分析获得该疾病因素集合之间的相关系数,并获得该疾病因素集合之间的相关因素子集;步骤S4:使用所述疾病因素矩阵、获得的所述疾病因素集合之间的相关性和获得的所述相关因素子集进行显著性计算,以得到所述不同的疾病因素集合矩阵中每两个疾病因素集合矩阵的显著性;以及步骤S5:利用该显著性和该相关系数,获得相关的因素集合和该因素集合间的相关因素。

【技术实现步骤摘要】

本申请涉及医学数据挖掘领域,更具体地涉及基于典型相关分析的对象因素关系挖掘方法和系统。
技术介绍
在疾病发现、治疗的过程中,通常是根据病人的不同信息进行相应的诊断,因此不同信息以及其相关性的准确性对疾病诊断是非常重要的。现有的对病人信息的相关分析方法将病人的疾病因素分割来看,只进行简单的检验。因此,期望有一种新能够将病人的不同疾病因素作为整体进行分析的新方法。
技术实现思路
为解决现有技术中存在的上述问题,本专利技术的一个方面提出了用于疾病因素数据处理的方法,该方法包括:步骤S1:将至少一个病人的疾病因素数据通过归一化转化为疾病因素矩阵;步骤S2:将该疾病因素数据划分为不同的疾病因素集合并得到该不同的疾病因素集合的不同的疾病因素集合矩阵;步骤S3:针对所述不同的疾病因素集合矩阵,利用典型相关分析获得该不同的疾病因素集合之间的相关系数,并获得该不同的疾病因素集合之间的相关因素子集;步骤S4:使用所述疾病因素矩阵、获得的所述疾病因素集合之间的相关性和获得的所述相关因素子集进行显著性计算,以得到所述不同的疾病因素集合矩阵中每两个疾病因素集合矩阵的显著性;以及步骤S5:利用该显著性和该相关系数,获得相关的因素集合和该因素集合间的相关因素。本专利技术的另一个方面提出了一种疾病因素数据处理系统,该系统可以包括:第一模块,被配置成将至少一个病人的疾病因素数据通过归一化转化为疾病因素矩阵;第二模块,被配置成将该疾病因素数据划分为不同的疾病因素集合并得到该不同的疾病因素集合的不同的疾病因素集合矩阵;第三模块,被配置成针对所述不同的疾病因素集合矩阵,利用典型相关分析获得该不同的疾病因素集合之间的相关系数,并获得该不同的疾病因素集合之间的相关因素子集;第四模块,被配置成使用所述疾病因素矩阵、获得的所述疾病因素集合之间的相关性和获得的所述相关因素子集进行显著性计算,以得到所述不同的疾病因素集合矩阵中每两个疾病因素集合矩阵的显著性;以及第五模块,被配置成利用该显著性和该相关系数,获得相关的因素集合和该因素集合间的相关因素。附图说明图1是根据本专利技术的实施方式的用于疾病因素数据处理的方法的示意图;图2是根据本专利技术的实施方式的用于实施根据本专利技术的实施方式的疾病因素数据处理方法中的步骤S1的示意图;图3是根据本专利技术的实施方式的用于实施根据本专利技术的实施方式的疾病因素数据处理方法中的步骤S3的示意图;图4是根据本专利技术的实施方式的用于实施根据本专利技术的实施方式的疾病因素数据处理方法中的步骤S4的示意图;图5是根据本专利技术的实施方式的用于实施根据本专利技术的实施方式的疾病因素数据处理方法中的步骤S5的示意图;以及图6是根据本专利技术的实施方式的用于实施根据本专利技术的实施方式的疾病因素数据处理方法中的步骤S6的示意图。具体实施方式下面结合附图对本专利技术的实施方式进行更详细的描述。本专利技术的实施方式是基于典型相关分析(canonicalcorrelationanalysis)进行的。在详细介绍本专利技术的实施方式的细节之前,先简单描述典型相关分析的一些概念和步骤。典型相关分析(canonicalcorrelationanalysis)就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。假设有p+q个变量,n个样本,X是第一组变量,其形式是n×p的矩阵,Y是第二组变量,其形式是n×q的矩阵,并且X和Y的列已经中心化和归一化。经典的典型相关分析(简称CCA)方法解决的是一个优化问题:找到向量u和v,使得cor(Xu,Yv)最大,如下式所示:maximizeu,vuTXTYvsubjecttouTXTXu≤1,vTYTYv≤1.u和v可以从X和Y的协方差矩阵求解得到,称向量u和v为典型变量。但是当p或q大于n时,得不到u和v的唯一解,于是想到对u和v加入惩罚。sCCA(稀疏典型相关分析)就是对CCA加入L1范数使其典型变量稀疏化,其形式如下式所示:maximizeu,vuTXTYvsubjecttouTXTXu≤1,vTYTYv≤1,||u||L1≤c1,||v||L1≤c2.]]>以往的研究证明,在高维空间里,将协方差矩阵视为对角阵处理可以得到比较好的结果。所以将上式中的XTX和YTY用单位矩阵I代替,得到下式:sCCA(X,Y)=maximizeu,vuTXTYvs.t.||u||22≤1,||v||22≤1,||u||L1≤c1,||v||L1≤c2,]]>其中s.t.是“subjectto(约束于)”的缩写。图1是根据本专利技术的实施方式的用于疾病因素数据处理的方法的示意图。参考图1,在本专利技术的一个实施方式中,提供了一种基于典型相关分析的疾病因素数据处理方法,该方法可以包括:步骤S1:因素矩阵取值归一化。这里因素矩阵取值归一化是指将医学数据(例如病人疾病因素数据)通过归一化转化为矩阵。例如,因素“性别”可根据男、女分别取值为-1、1(或者,反之依然);因素“阳性”可以根据值转为0、1;保留取值信息的因素可根据值归一化为-1到1之间的值。对输入的至少一个病人的疾病因素数据进行离散化、数值化,而后进行疾病因素数据归一化;本步骤的输入可以为收集的病人疾病数据,行为因素,列为病人,每一个值为病人的原始记录。原始记录可以为一个数,比如病人的年龄,汉字比如“男”,符号比如“+”等。图2示出了根据本专利技术的实施方式的用于实施步骤S1的示意图。参考图2,步骤S1可以包括:步骤S1-1:将至少一个病人的疾病因素数据离散化、数值化:收集至少部分病人的疾病因素,将这些疾病因素分为离散型、连续型。对于离散型取值的因素,可以将数值转化为离散值例如1、2…。对于连续型取值的因素,可以保留原数值。步骤S1-2:将病人的疾病因素数据归一化:将病人的疾病因素数据按照公式(1)归一化。该公式(1)中,x为病人的疾病因素数据,xi表示第i个疾病因素值,xmax表示疾病因素值的最大值,xmin表示疾病因素值的最小值。xi=xi-xminxmax-xmin-1]]>公式(1)本步骤的输出为数值化后的矩阵,如式(2)所示本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/CN105653866.html" title="一种疾病因素数据处理方法和系统原文来自X技术">疾病因素数据处理方法和系统</a>

【技术保护点】
一种用于疾病因素数据处理的方法,该方法包括:步骤S1:将至少一个病人的疾病因素数据通过归一化转化为疾病因素矩阵;步骤S2:将该疾病因素数据划分为不同的疾病因素集合并得到该不同的疾病因素集合的不同的疾病因素集合矩阵;步骤S3:针对所述不同的疾病因素集合矩阵,利用典型相关分析获得该不同的疾病因素集合之间的相关系数,并获得该不同的疾病因素集合之间的相关因素子集;步骤S4:使用所述疾病因素矩阵、获得的所述疾病因素集合之间的相关系数和获得的所述相关因素子集进行显著性计算,以得到所述不同的疾病因素集合矩阵中每两个疾病因素集合矩阵的显著性;以及步骤S5:利用该显著性和该相关系数,获得相关的因素集合和该因素集合间的相关因素。

【技术特征摘要】
1.一种用于疾病因素数据处理的方法,该方法包括:
步骤S1:将至少一个病人的疾病因素数据通过归一化转化为疾病因素
矩阵;
步骤S2:将该疾病因素数据划分为不同的疾病因素集合并得到该不同
的疾病因素集合的不同的疾病因素集合矩阵;
步骤S3:针对所述不同的疾病因素集合矩阵,利用典型相关分析获得
该不同的疾病因素集合之间的相关系数,并获得该不同的疾病因素集合之间
的相关因素子集;
步骤S4:使用所述疾病因素矩阵、获得的所述疾病因素集合之间的相
关系数和获得的所述相关因素子集进行显著性计算,以得到所述不同的疾病
因素集合矩阵中每两个疾病因素集合矩阵的显著性;以及
步骤S5:利用该显著性和该相关系数,获得相关的因素集合和该因素
集合间的相关因素。
2.根据权利要求1所述的方法,其中,所述步骤S1包括:
将所述疾病因素数据进行数值化和离散化,其中该数值化和离散化包括
将该疾病因素数据转化成数值,将该疾病因素数据分为离散型和连续型,将
该离散型的疾病因素数据的数值转化为离散值;
根据公式(1)将经过数值化和离散化的该疾病因素数据归一化,以得
到所述疾病因素矩阵:
xi=xi-xminxma...

【专利技术属性】
技术研发人员:黄亦谦
申请(专利权)人:北京千安哲信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1