一种面向动态医疗数据的因果特征提取方法技术

技术编号:31830592 阅读:9 留言:0更新日期:2022-01-12 13:07
本发明专利技术公开了一种面向动态医疗数据的因果特征提取方法,包括:1对医疗数据集进行特征的提取,构建/更新医疗数据的特征集合;2根据提取的特征和当前的医疗数据,通过构建/更新全维树结构,将医疗数据信息以统计信息的形式进行汇总;3使用已有的关键特征(因素)集合赋值给本次因果特征提取的初始特征子集,即对最优子集进行初始化;4利用因果关系推断理论与算法,通过添加与删除操作的迭代,选择最优的特征子集,即得到当前医疗数据的关键特征信息;5当新的医疗数据到来后,重复步骤1

【技术实现步骤摘要】
一种面向动态医疗数据的因果特征提取方法


[0001]本专利技术属于数据挖掘领域,涉及到因果发现、人工智能等技术,具体地说是一种面向动态医疗数据的因果特征提取方法。

技术介绍

[0002]伴随着大数据技术的快速发展,使用信息科技来处理健康医疗大数据来保障居民的健康已成为炽手可热的焦点之一。其中健康医疗大数据是指在人们疾病防治、健康管理等过程中产生的与健康医疗相关的数据。但是大多的医疗数据是动态产生的,庞大且杂乱,医护人员无法从众多的条目中及时而准确的得到关键信息。因此在捕获并汇总动态医疗数据的同时,如何实时地提取出当前医疗数据中的关键特征信息,以期更好地辅助医生的工作具有重大意义。
[0003]选择关键的特征需要使用特征选择技术。特征选择作为一种数据处理技术,可以降低特征数量、去除冗余特征和噪声数据,广泛地应用于机器学习和数据挖掘的各个领域。特征选择是从高维数据集中选择必要且尽可能小的一组特征子集,用于各类机器学习与数据挖掘任务,并与使用完整数据特征相比,拥有相近或更好的效果。
[0004]但是主要通过计算特征与类别变量之间的相关性进行特征子集的选择的传统特征选择方法存在一些缺点:
[0005](1)缺乏可解释性。相关性旨在捕获特征与类别变量之间的共现性,因此通过相关性选择出来的特征并不能为预测模型提供令人信服的解释。
[0006](2)缺乏鲁棒性。通过特征与类别变量之间相关性选择的特征子集所构建的预测模型,在应用到其它同分布的数据集时,其性能可能会明显下降,效果会比验证时的差很多,即该模型不可靠。

技术实现思路

[0007]本专利技术是为了克服现有技术的不足之处以及应对动态医疗数据,提出了一种面向动态医疗数据的因果特征提取方法,以期能够更加准确地选择出关键特征来辅助医生的工作,同时持续跟进患者的情况,实时地选择关键因素,并提高选择的可解释性和鲁棒性。
[0008]本专利技术为解决技术问题采用如下技术方案:
[0009]本专利技术一种面向动态医疗数据的因果特征提取方法的特点是按如下步骤进行:
[0010]步骤1、获取第i次的医疗数据记录,并记为其中,record
j,i
表示第i次的第j条医疗数据记录,1≤j≤R
i
;R
i
表示第i次的医疗数据记录的条数,且第i次的第j条医疗数据记录record
j,i
中包含M
i
种特征,记为其中,f
m,j,i
表示第i次的第j条医疗数据记录record
j,i
中的第m个特征;且第m个特征f
m,j,i
有N
m
个不同取值;M
j,i
表示第i次的第j条医疗数据记录record
j,i
中的特征数,令第j条记录record
j,i
的类别标签为L
j,i

[0011]步骤2、构建并更新全维树的结构,并在全维树中以统计信息的形式汇总全部数据
信息:
[0012]步骤2.0、初始化i=1;k=1;
[0013]步骤2.1、新建根节点root并作为第k层统计节点,并记录Data
i
的记录条数;
[0014]步骤2.2、按Data
i
中从第m个特征开始,分别在第k层统计节点下,向下新建统计节点的子节点,并作为第k层特征节点;
[0015]步骤2.3、按每个特征的取值个数,分别在第k层每个特征节点下,向下新建特征节点的子节点,并作为第k+1层统计节点,所述第k+1层统计节点内记录有数据集中与第k层特征节点取值相同的条数,并作为统计信息;
[0016]步骤2.4、将m+1赋值给m,将k+1赋值给k后,返回步骤2.2顺序执行,直到全维树构建完成,从而得到第i个全维树,记为ADT
i
,用于存储第i次的医疗数据记录;
[0017]步骤2.5、将i+1赋值给i;
[0018]步骤2.6、在第i

1个全维树ADT
i
‑1上,更新根节点root中所记录的条数为
[0019]步骤2.7、初始化k=1;
[0020]步骤2.8、更新第k层统计节点下的第k层特征节点:若Data
i
中出现新的特征,则在第k层统计节点下新建相对应的特征节点;
[0021]步骤2.9、统计Data
i
中与第k层特征节点取值相同的条数,并累加到第k层每个特征节点下的第k层每个统计节点的统计信息中,从而完成统计节点的更新,同时,若Data
i
中的特征出现新的取值,则第k层特征节点下新建相对应的统计节点,用于记录Data
i
中与新的取值相同的条数;
[0022]步骤2.10、将k+1赋值给k后,循环进行步骤2.8顺序执行,直到第i个全维树更新完成,并存储有前i次的医疗数据记录;
[0023]步骤2.11、返回步骤2.5执行,直到完成所有医疗数据记录的存储;
[0024]步骤3、构建最优特征子集,即关键特征集合F


[0025]步骤3.1、初始化i=1;
[0026]步骤3.2、定义第i次的医疗数据记录Data
i
所对应的第i次选取的关键特征集合为F

i
={f

1,i
,f

2,i
,

,f

m

,i
,

,f

M

,i
},其中,f

m

,i
表示第i次选取的关键特征集合F

i
中第m

个关键特征,M

表示第i次选取的关键特征集合F

i
中的关键特征的个数;
[0027]步骤3.3、初始化
[0028]步骤3.4、使用因果关系推断方法,从第i次的医疗数据记录Data
i
中的M
i
个特征中选择出可能的特征作为关键特征添加到最优特征子集F

i
中;
[0029]步骤3.4.1、定义候选特征集合C
i
={c
i,k
|c
i,k
∈F
i
\F

i
,1≤k≤M
i
},其中,F
i
表示第i次的医疗数据记录Data
i
中包含的M
i
种特征的集合,且f
m,i
表示第i次的医疗数据记录Data
i
中第m种特征,c
i,k...

【技术保护点】

【技术特征摘要】
1.一种面向动态医疗数据的因果特征提取方法,其特征是按如下步骤进行:步骤1、获取第i次的医疗数据记录,并记为其中,record
j,i
表示第i次的第j条医疗数据记录,1≤j≤R
i
;R
i
表示第i次的医疗数据记录的条数,且第i次的第j条医疗数据记录record
j,i
中包含M
i
种特征,记为其中,f
m,j,i
表示第i次的第j条医疗数据记录record
j,i
中的第m个特征;且第m个特征f
m,j,i
有N
m
个不同取值;M
j,i
表示第i次的第j条医疗数据记录record
j,i
中的特征数,令第j条记录record
j,i
的类别标签为L
j,i
;步骤2、构建并更新全维树的结构,并在全维树中以统计信息的形式汇总全部数据信息:步骤2.0、初始化i=1;k=1;步骤2.1、新建根节点root并作为第k层统计节点,并记录Data
i
的记录条数;步骤2.2、按Data
i
中从第m个特征开始,分别在第k层统计节点下,向下新建统计节点的子节点,并作为第k层特征节点;步骤2.3、按每个特征的取值个数,分别在第k层每个特征节点下,向下新建特征节点的子节点,并作为第k+1层统计节点,所述第k+1层统计节点内记录有数据集中与第k层特征节点取值相同的条数,并作为统计信息;步骤2.4、将m+1赋值给m,将k+1赋值给k后,返回步骤2.2顺序执行,直到全维树构建完成,从而得到第i个全维树,记为ADT
i
,用于存储第i次的医疗数据记录;步骤2.5、将i+1赋值给i;步骤2.6、在第i

1个全维树ADT
i
‑1上,更新根节点root中所记录的条数为步骤2.7、初始化k=1;步骤2.8、更新第k层统计节点下的第k层特征节点:若Data
i
中出现新的特征,则在第k层统计节点下新建相对应的特征节点;步骤2.9、统计Data
i
中与第k层特征节点取值相同的条数,并累加到第k层每个特征节点下的第k层每个统计节点的统计信息中,从而完成统计节点的更新,同时,若Data
i
中的特征出现新的取值,则第k层特征节点下新建相对应的统计节点,用于记录Data
i
中与新的取值相同的条数;步骤2.10、将k+1赋值给k后,循环进行步骤2.8顺序执行,直到第i个全维树更新完成,并存储有前i次的医疗数据记录;步骤2.11、返回步骤2.5执行,直到完成所有医疗数据记录的存储;步骤3、构建最优特征子集,即关键特征集合F

:步骤3.1、初始化i=1;步骤3.2、定义第i次的医疗数据记录Data
i
所对应的第i次选取的关键特征集合为F
i

={f

1,i
,f

2,i
,

,f

m

,i
,

,f

M

,i
},其中,f

m

,i
表示第i次选取的关键特征集合F
i

中第m

个关键特征,M

表示第i次选取的关键特征集合F
i

中的关键特征的个数;步骤3.3、初始化
步骤3.4、使用因果关系推断方法,从第i次的医疗数据记录Data
i
中的M
i
个特征中选择出可能的特征作为关键特征添加到最优特征子集F
i

中;步骤3.4.1、定义候选特征集合C
i
={c
i,k
|c
i,k
∈F
i
\F
i

,1≤k≤M
i
},其中,F
i
表示第i次的医疗数据记录Data
i
中包含的M
i
种特征的集合,且f
m,i
表示第i次的医疗数据记录Data
i
中第m种特征,c
i,k
表示第i次的医疗数据记录Data
i
中包含M
i
种特征的集合F
i
中除第i次选取的关键特征集合F
i

以外的第k个特征;步骤3.4.2、将第i次的医疗数据记录Data
i
的类别标签L
i
={L
j,i
|j=1,2,

,R
i
}和候选特征集合C
i
中的每个特征均作为特征节点,并从全维树的根节点root开始,对所有特征节点及其取值进行遍历,得到所有特征节点之间的第一列联表,用于表征各个特征节点之间不同取值相互组合的出现次数;步骤3.4.3、以第i次选取的关键特征集合F
i

为条件集,利用式(1)分别计算候选特征集合C
...

【专利技术属性】
技术研发人员:俞奎刘超凡李培培
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1