【技术实现步骤摘要】
一种肺癌筛查患者就医行为偏好推测方法
[0001]本专利技术涉及肺癌数据处理
,尤其是涉及一种肺癌筛查患者就医行为偏好推测方法
。
技术介绍
[0002]近年来,基于低剂量螺旋
CT
的肺癌筛查技术的筛查效果进一步被证实,并且在高危人群选择
、
筛查间隔及肺结节管理的研究方面取得了显著进展
。
但是由于普及率偏低和有限资源的配置错位导致进行该项筛查的人数偏低,进而导致肺癌筛查效果不佳
。
精准的患者肺癌筛查就医行为偏好推测有利于管理者了解患者行为,并进一步促进肺癌筛查医疗资源优化配置,从而从根本上协助解决上述问题
。
[0003]目前对于患者肺癌筛查就医行为的预测模型少,且大多研究是仅考虑单个医疗机构内人群流向
、
就诊人次及排队等因素
。
针对患者就诊医院偏好,传统的二元
Logistic
回归模型仅适用于小范围预测,当特征空间大且特征变量复杂时,该方法预测性能较差且容易出现欠拟合的情况
。
而传统人工神经网络
、
支持向量机等机器学习模型解释性较差,对深层次理解多变量系统带来了较大困难
。
在实际情况中,影响因素复杂多变
、
数据空间庞大,因此运用这些传统的模型无法准确测度和理解系统多元特征变量并进行更为精准的预测
。
相比之下,贝叶斯网络提供了一种概率图的建模框架,通过有向无环图表示多个变量的 ...
【技术保护点】
【技术特征摘要】
1.
一种肺癌筛查患者就医行为偏好推测方法,其特征在于,包括以下步骤:
S1、
通过问卷调研获取数据,对收集的数据进行预处理,筛选影响就医行为偏好的变量;
S2、
将步骤
S1
中筛选出的影响就医行为偏好的变量进行变量定义,形成数据集;
S3、
根据步骤
S2
中定义的影响就医行为偏好的变量确定贝叶斯网络模型的隐变量,并优化隐变量状态数;
S4、
利用步骤
S2
中的变量及步骤
S3
中确定的隐变量构建隐变量结构化改进的贝叶斯网络;
S5、
利用步骤
S4
中构建的隐变量结构化改进的贝叶斯网络及实际调研数据训练得到训练好的模型,并依据该模型进行推理预测;
S6、
利用步骤
S4
中构建隐变量结构化改进的贝叶斯网络及步骤
S5
中采用实际数据训练好的模型进一步识别影响患者就医行为偏好的敏感可控变量
。2.
根据权利要求1所述的一种肺癌筛查患者就医行为偏好推测方法,其特征在于,步骤
S1
中,剔除收集数据中的非基本特征,将影响就医行为偏好的变量分为个人基本特征和医疗健康特征两类;其中,个人基本特征包括年龄
、
文化程度
、
家庭收入
、
性别
、
现居地五种影响变量;医疗健康特征包括家族史
、
肺癌了解度
、CT
筛查
、
筛查原因
、
医疗保险和健康体检六种影响变量;针对推测目标,包括筛查机构和就诊医院两种变量;其中就诊医院为最终目标变量,用以表达患者就医行为的偏好
。3.
根据权利要求2所述的一种肺癌筛查患者就医行为偏好推测方法,其特征在于,步骤
S2
中,对筛选出的影响就医行为偏好的变量进行变量定义,形成数据集,包括以下步骤:
S21、
将步骤
S1
选取的
13
种变量数据进行变量定义,并且为每个变量选取变量状态;为减少空间复杂程度,每个变量状态根据实际情况区分为2~4个层次;具体变量状态划分方式为:性别为男和女;现居地
、
筛查机构
、
就诊医院按区域划分为省级和非省级;家族史
、
医疗保险
、
肺癌了解度
、CT
筛查为是和否的判断状态,其中,
CT
筛查中加入遗忘选项;筛查原因划分为家人朋友建议
、
医生建议
、
体检结果及抽烟影响四种状态,年龄
、
文化程度
、
家庭收入按阶段划分为高
、
中
、
低三种状态;健康体检按频次划分为从未
、
偶尔和经常三种状态;
S22、
将步骤
S21
中定义好的数据组成建模数据集,建模数据集包括数据集1和数据集2,其中数据集1用于后续改进的贝叶斯网络学习,数据集2用于测试改进网络的推测准确性
。4.
根据权利要求3所述的一种肺癌筛查患者就医行为偏好推测方法,其特征在于,步骤
S3
中,确定隐变量及优化隐变量状态数,包括以下步骤:
S31、
依据步骤
S1
中选取的个人基本特征及医疗健康特征两大类影响因素,引入两个隐变量:个人条件隐变量和医疗条件隐变量;
S32、
进行隐变量状态数优化,利用
KLD
作为目标准则,用于衡量两个概率分布之间的差异性,
KLD
表示为:其中,
R
为隐变量的状态数,
K
为隐变量的不同状态的索引;
ρ
K
是在历史数据分布中状态
K
出现的概率;
P
K
基于数据在后验概率分布中状态
K
出现概率;在公式
(1)
中,隐变量不同的状态数对应的
KLD
越小,表示目标变量的后验概率分布和历史数据分布越匹配,选取
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。