一种面向医疗数据的多因素相关性交互式分析方法技术

技术编号:24414569 阅读:52 留言:0更新日期:2020-06-06 10:50
本发明专利技术公开了一种面向医疗数据的多因素相关性交互式分析方法,包括以下步骤:将采集的医疗数据进行处理,将处理后的医疗数据按照患者病案号进行关联,获得每个患者的就诊序列;使用t‑SNE算法将获得的就诊序列映射到二维平面上,形成不同的特征群体;根据需要从特征群体中选择出特征群体;设定疾病表征指标;对选择的特征群体所具有的特征进行特征选择,确定与所述疾病表征指标相关性的特征顺序;采用统计学度量指标对选择的特征之间的相关性进行度量,获得具有统计学意义的结果,完成多因素相关性交互式分析。本发明专利技术能够交互式地对高维医疗数据进行分析,可视化展示影响疾病发展的关键因素。

A multi factor correlation interactive analysis method for medical data

【技术实现步骤摘要】
一种面向医疗数据的多因素相关性交互式分析方法
本专利技术属于多因素相关性分析
,特别涉及一种面向医疗数据的多因素相关性交互式分析方法。
技术介绍
医学统计学是应用统计学的基本原理和方法,主要研究医学及相关领域数据信息的搜集、整理、分析、表达和解释的科学。在临床医学研究中,根据已有的临床医疗数据,结合现有的医学知识,通过计算皮尔森相关系数等统计学特征进行多因素相关性分析,确定对疾病发展影响较大的关键因素。但是医疗数据高维复杂,传统方法需要繁重的计算,且结果抽象难以理解,不利于医生开展诊疗和科研;疾病的发展常与多种因素相关,目前传统的方法只能测算两个因素之间的相关性,影响结果的有效性。综上,亟需一种新的面向高维医疗数据的多因素相关性交互式分析方法。
技术实现思路
本专利技术的目的在于提供一种面向医疗数据的多因素相关性交互式分析方法,以解决上述存在的一个或多个技术问题。本专利技术能够交互式地对高维医疗数据进行分析,可视化展示影响疾病发展的关键因素。为达到上述目的,本专利技术采用以下技术方案:本专利技术的一种面向医疗数据的多因素相关性交互式分析方法,包括以下步骤:步骤1,将采集的医疗数据进行处理,将处理后的医疗数据按照患者病案号进行关联,获得每个患者的就诊序列;其中,处理包括标准化处理;步骤2,使用t-SNE算法将步骤1获得的就诊序列映射到二维平面上,形成不同的特征群体;根据需要从特征群体中选择出特征群体;步骤3,设定疾病表征指标;对步骤2中选择的特征群体所具有的特征进行特征选择,确定与所述疾病表征指标相关性的特征顺序;步骤4,采用统计学度量指标对步骤3中选择的特征之间的相关性进行度量,获得具有统计学意义的结果,完成多因素相关性交互式分析。本专利技术的进一步改进在于,步骤1中,所述将采集的医疗数据进行处理的具体步骤包括:(1.1),消除医疗数据中的无关特征和隐私数据;其中,无关特征包括:患者姓名、患者序号,隐私数据包括:患者身份证号、患者手机号;(1.2),消除医疗数据中的缺失值和异常值;其中,缺失值包括:空值、null、“-”,异常值包括:违反医学知识的值、违反常识的值;(1.3),消除医疗数据中完全重复的数据;(1.4),将医疗数据中的数值数据进行标准化处理,包括:对于同一特征数据xi,式中,X为某一数值特征的所有值的集合,xi表示X中的第i个元素,i=1,2,3,...n,n表示元素总数,min(X)表示集合X中的最小值,max(X)表示集合X中的最大值;(1.5),将医疗数据中的类别型数据进行编码,获得编码向量Y;其中,编码格式为:其中,yk表示编码向量中的第k个值,k=1,2,3,...,m,m表示编码向量中的元素数目,j表示数据所属的类别编号。本专利技术的进一步改进在于,步骤1中,获得的每个患者的就诊序列T,表达式为:T={xa,yb,zc,...},式中,xa,yb,zc,a,b,c=1,2,3,...l,分别代表不同类型的医疗数据,属于同一个患者;l表示每一类医疗数据的元素数目;步骤2中,根据需要从特征群体中选择出待研究特征群体G,表达式为:G={T1,T2,...,Tp,…,Td},式中,Tp代表待研究特征群体中第p个患者的就诊序列,d=1,2,3,...,d,d表示待研究特征群体中患者数量。本专利技术的进一步改进在于,步骤3中具体包括:(3.1),设定疾病表征指标时,通过交互式指定;(3.2),对选择的特征群体所具有的特征进行特征选择,确定与所述疾病表征指标相关性的特征顺序时,将特征的方差值小于阈值特征移除,获得移除后的特征;将移除后的特征按照与疾病表征指标的相关性排序,确定对疾病表征最关键的k个特征,完成特征选择及特征排序。本专利技术的进一步改进在于,步骤(3.2)中,所述将剩余的特征按照与疾病表征指标的相关性排序,确定对疾病发展最为关键的k个特征的步骤具体包括:(3.2.1),构建以决策树为基学习器的分类器,记为F;(3.2.2),将移除后特征的数据送入分类器F中,预测疾病表征指标P,得到基准预测结果O,表达式为:O=F(t1,t2,...,tq...,te),式中,tq,q=1,2,...,e表示包含第q个特征的数据,e表示特征的数量;(3.2.3),将去除第r个特征后的数据送入分类器中进行预测,得到预测结果Or,表达式为:Oi=F(t1,t2,...tr-1,tr+1,...,te);(3.2.4),计算预测结果Or与基准预测结果O的差值,作为第r个特征对疾病发展的影响程度ΔOr,表达式为:ΔOr=|Or-O|,式中,ΔOr,r=1,2,3,...,e表示第r个特征对疾病发展的影响程度;其中,ΔOr越大,代表第r个特征对于疾病的发展影响越大,越关键;(3.2.5),重复步骤(3.2.4)和(3.2.5),直到全部特征都得到对疾病发展的影响程度ΔO;(3.2.6),按照关键性度量指标大小对特征进行排序,获得前s个最关键的特征,表达式为:{t1,t2,...ts}=sort(ΔO1,ΔO2,...,ΔOn),式中,sort()表示排序函数。本专利技术的进一步改进在于,步骤4中,所述统计学度量指标包括:皮尔森相关系数、u检验、t检验、方差分析、基于中心极限定理进行一元回归或多元回归分析。本专利技术的进一步改进在于,还包括:步骤5,对步骤(3.2.6)中获得的s个最关键特征之间的相关性进行可视化。本专利技术的进一步改进在于,步骤5具体包括:(5.1),以特征选择获得的每个特征为纵轴,每个患者的就诊序列为横轴,绘制特征之间的平行坐标系,用于可视化展示不同特征之间的依赖变化规律;(5.2),选取两个特征,将数据映射到以所述两个特征为坐标轴的二维平面上,用于可视化展示两个特征之间的相关性关系。与现有技术相比,本专利技术具有以下有益效果:本专利技术提供的面向高维医疗数据的多因素相关性交互式分析方法,设计了从原始临床医疗数据到最终相关性可视化结果的完整流程,可以直接展示高维医疗数据中的关键特征之间的依赖变化规律。本专利技术的方法,首先对采集的原始临床医疗数据进行处理,去除数据中的无效信息、敏感信息、缺失值和异常值,针对数值型和类别型数据分别采取标准化和编码处理方法,根据病案号进行拼接,生成患者的就诊序列;然后将高维就诊序列数据映射到二维平面,生成特征群体,由医生交互式选择需要研究的群体;进一步对该群体患者的数据进行特征选择,计算每一个特征对于最终预测结果的关键度量指标,经过排序后选出最关键的前几个特征,通过统计学方法对选择的特征进行假设检验,验证这些特征之间相关性在统计学上的显著水平;进一步地采用平行坐标系和二维坐标系分别可视化展示所有特征和两两特征之间的依赖变化关系,分析不同特这对于疾病发展的本文档来自技高网...

【技术保护点】
1.一种面向医疗数据的多因素相关性交互式分析方法,其特征在于,包括以下步骤:/n步骤1,将采集的医疗数据进行处理,将处理后的医疗数据按照患者病案号进行关联,获得每个患者的就诊序列;其中,处理包括标准化处理;/n步骤2,使用t-SNE算法将步骤1获得的就诊序列映射到二维平面上,形成不同的特征群体;根据需要从特征群体中选择出特征群体;/n步骤3,设定疾病表征指标;对步骤2中选择的特征群体所具有的特征进行特征选择,确定与所述疾病表征指标相关性的特征顺序;/n步骤4,采用统计学度量指标对步骤3中选择的特征之间的相关性进行度量,获得具有统计学意义的结果,完成多因素相关性交互式分析。/n

【技术特征摘要】
1.一种面向医疗数据的多因素相关性交互式分析方法,其特征在于,包括以下步骤:
步骤1,将采集的医疗数据进行处理,将处理后的医疗数据按照患者病案号进行关联,获得每个患者的就诊序列;其中,处理包括标准化处理;
步骤2,使用t-SNE算法将步骤1获得的就诊序列映射到二维平面上,形成不同的特征群体;根据需要从特征群体中选择出特征群体;
步骤3,设定疾病表征指标;对步骤2中选择的特征群体所具有的特征进行特征选择,确定与所述疾病表征指标相关性的特征顺序;
步骤4,采用统计学度量指标对步骤3中选择的特征之间的相关性进行度量,获得具有统计学意义的结果,完成多因素相关性交互式分析。


2.根据权利要求1所述的一种面向医疗数据的多因素相关性交互式分析方法,其特征在于,步骤1中,所述将采集的医疗数据进行处理的具体步骤包括:
(1.1),消除医疗数据中的无关特征和隐私数据;其中,无关特征包括:患者姓名、患者序号,隐私数据包括:患者身份证号、患者手机号;
(1.2),消除医疗数据中的缺失值和异常值;其中,缺失值包括:空值、null、“-”,异常值包括:违反医学知识的值、违反常识的值;
(1.3),消除医疗数据中完全重复的数据;
(1.4),将医疗数据中的数值数据进行标准化处理,包括:对于同一特征数据xi,



式中,X为某一数值特征的所有值的集合,xi表示X中的第i个元素,i=1,2,3,...n,n表示元素总数,min(X)表示集合X中的最小值,max(X)表示集合X中的最大值;
(1.5),将医疗数据中的类别型数据进行编码,获得编码向量Y;其中,编码格式为:



其中,yk表示编码向量中的第k个值,k=1,2,3,...,m,m表示编码向量中的元素数目,j表示数据所属的类别编号。


3.根据权利要求1所述的一种面向医疗数据的多因素相关性交互式分析方法,其特征在于,步骤1中,获得的每个患者的就诊序列T,表达式为:
T={xa,yb,zc,...},
式中,xa,yb,zc,a,b,c=1,2,3,...l,分别代表不同类型的医疗数据,属于同一个患者;l表示每一类医疗数据的元素数目;
步骤2中,根据需要从特征群体中选择出待研究特征群体G,表达式为:
G={T1,T2,...,Tp,…,Td},
式中,Tp代表待研究特征群体中第p个患者的就诊序列,d=1,2,3,...,d,d表示待研究特征群体中患者数量。


4.根据权利要求1所述的一种面向医疗数据的多因素相关性交互式分析方法,其特征在于,步骤3中具体包括:
(3.1),设定疾病表征指标时,通过交互式指定;
(...

【专利技术属性】
技术研发人员:钱步月刘涛郑莹倩刘璇吕欣许靖琴侯梦薇吴风浪
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1