【技术实现步骤摘要】
一种基于机器学习的恶性肿瘤合并VTE风险预测方法
[0001]本专利技术涉及智慧医疗大数据疾病风险预测,尤其涉及一种基于机器学习的恶性肿瘤合并VTE风险预测方法。
技术介绍
[0002]静脉血栓栓塞症(venousthromboembolism,VTE)是恶性肿瘤患者常见的合并症,也是导致恶性肿瘤患者死亡的重要原因。目前国内缺乏系统、有效的针对恶性肿瘤患者的VTE风险评估工具。国内外多采用普适性的风险评估表进行评估,但这些风险评估表涉及恶性肿瘤患者特有风险特征不足,可靠性欠佳,加上恶性肿瘤患者人种、地域存在差异,利用这类风险评估表预测不排除漏诊和误诊情况。
[0003]与传统风险评分表相比,基于机器学习的模型结合了多学科优势,可从海量患者电子病历数据中抓取关键数据指标,及时发布预警信息,提前预防患者的不良后果。但利用机器学习方法进行疾病预测研究普遍存在以下几个问题:
[0004]1)数据冗余:在收集处理电子病历信息时,提取到大量的数据特征,但并不是所有特征均会对患者疾病预测起作用,存在大量冗余特征。对此类冗余 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的恶性肿瘤合并VTE风险预测方法,其特征在于,包括如下步骤:S101:获取恶性肿瘤患者的电子病历数据,每条电子病历数据包括用户ID、临床基本信息、血液实验室检查信息和临床文本信息;S102:对获取到的临床基本信息和血液实验室检查信息进行预处理作为患者的基础体征数据集,对收集到的临床基本信息进行预处理作为患者的病历文本数据集,并按照出院前患者检查患病情况确定样本为正样本和负样本;S103:对S102中获取的基础体征数据集进行重采样得到正负样本比例平衡的体征数据训练集;S104:对体征数据训练集中的样本数据进行特征筛选;S105:构建命名实体识别模型REGPS,采用S102中获取的病历文本数据集对REGPS进行训练,采用训练好的REGPS提取患者病历文本中与VTE预测相关的医疗实体;所述REGPS包含输入层、词嵌入层、解码层、输出层四个部分,其中词嵌入层使用采用动态词嵌入方法BERT的优化模型RoBERTa,解码层采用嵌入中文分词信息的EGPS来对单词上下文进行特征提取;所述EGPS采用改进的Efficient
‑
GP模型,对输入序列进行旋转位置编码,并在Efficient
‑
GP模型中将不同类型的实体定义为不同的头,每个头中,输入序列会通过一个线性变换转换成一个新的向量,然后将所有的头计算结果拼接起来作为输出;S106:将患者通过训练好的REGPS得到的医疗实体与经过S104特征筛选后的体征数据进行特征融合后,作为最新的训练样本,所有最新的训练样本构成新的训练集;S107:采用S106得到的新的训练集训练XGBoost模型,得到最优XGBoost模型;S108:对疑诊患者,收集疑诊患者的电子病历数据,血液实验室检查信息和临床文本信息,通过S104的方法进行特征筛选,通过S105的方法得到医疗实体,通过S106进行特征融后得到疑诊患者的对应的预测样本,将该预测样本输入最优XGBoost模型中,即得到疑诊患者患VTE预测患病概率。2.如权利要求1所述的基于机器学习的恶性肿瘤合并VTE风险预测方法,其特征在于,所述S102中的预处理的具体步骤如下:数据结构化,将临床基本信息转换成为布尔类型的结构化数据;数据集成,把临床基本信息进行结构化处理后,将转换成为布尔类型的临床基本信息与对应的血液实验室检查信息进行数据集成;数据清洗,对经过数据集成后的数据:对于列空缺率高的特征,直接删除;对于列空缺率低的特征,采取插补特殊值法,利用该列均值进行填充;对于噪声数据,采用平滑处理的方式,根据周围点的均值进行填充。3.如权利要求1所述的基于机器学习的恶性肿瘤合并VTE风险预测方法,其特征在于,所述S103中重采样得到正负样本比例平衡的体征数据训练集的具体步骤如下:采用双向联合重采样方法对获取到的基础体征数据集进行重采样,对于基础体征数据集中的N个少数类样本和M个多数类样本,在过采样方向,从少数类样本中随机选择样本n
i
的k个近邻样本,计算n
i
与N个少数类样本欧式距离,由大到小进行排序,排序靠前的k个即为k近邻,记作n
i(1)
,n
i(2)
…
n
i(k)
,随机选择一个样本n
i(r)
,合成一个新样本n
new
=n
i
+x*(n
i(r)
‑
n
i
),x∈[0,1];在欠采样方向,同样随机选择多数类样本m
j
的k个近邻样本,得到m
j(1)
,m
j(2)
…
m
j(k)
,计算近邻样本的类别y(m
j(1)
),y(m
j(2)
),
…
...
【专利技术属性】
技术研发人员:刘海霞,牟明杰,徐玲,雷海科,龙波,邓忠阳,罗兆林,刘长鑫,
申请(专利权)人:重庆大学附属肿瘤医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。