【技术实现步骤摘要】
一种基于多模态融合的心血管疾病风险预测方法
[0001]本专利技术属于数据分类与预测
,具体涉及一种基于多模态融合的心血管疾病风险预测方法
。
技术介绍
[0002]目前针对心血管疾病的预测一般可以分为以下两类:其一是医学指南中的风险预测方法来预测,如美国心脏病学会指南推荐的
Framingham Risk Score
,欧洲指南推荐的系统冠状动脉风险评估
(SCORE)
算法,然而这些风险预测算法通常使用多元回归模型开发,模型结合了有限数量的既定风险因素的信息,并且通常假设所有这些因素都以线性方式与
CVD
结果相关,不同因素之间的相互作用有限或没有相互作用,因此实际效果不佳
。
其二是基于机器学习的心血管疾病预测方法,随着机器学习技术的不断发展,越来越多的医疗领域科研人员开始探索使用数据驱动的机器学习方法来辅助医生进行疾病诊断
。
在心血管疾病预测方向,大多数研究都是基于医学数据集中的病患体征检测数据,应用各种机器学习模型对病患是否患有心血管疾病进行诊断
。
如
Ahmed
等人基于
UK Biobank
数据集提出了
AutoPrognosis
模型,该模型集成了各种传统机器学习模型,集权集成后的模型具有更高的鲁棒性,因此效果优于单个模型
。Ajay
等人致力于心血管风险预测的可解释性和应用上的可操作性,在特征选择上加以创新,考虑了多种特征 ...
【技术保护点】
【技术特征摘要】
1.
一种基于多模态融合的心血管疾病风险预测方法,其特征在于,所述心血管疾病风险预测方法具体包括以下步骤:步骤一:获取医疗数据集中的病患体征数据,筛选相关性高,且数据量合适的检测指标;步骤二:对病人在医院期间产生的各类文本报告进行聚合,并进行数据清洗和语句断句;步骤三:将步骤一获取的病患体征数据使用图神经网络
GNN
‑
encoder
作为时序主干的网络,进行时序特征的提取;步骤四:将步骤二聚合的各类文本报告中病患文本报告使用基于预训练的分层
BioBERT
模型作为语言主干网络,进行文本特征的提取;步骤五:将步骤三的时序特征和步骤四的文本特征拼接在一起,通过一个自注意力深度融合网络,得到融合后的特征作为病患身体状况在特征空间上的嵌入向量;步骤六:构造一个基于多层感知机的二元分类器,其输入为融合后的特征,其输出为是否患有心血管疾病的二分类结果;步骤七:构造一个基于多层感知机的多元分类器,其分类数量为心血管疾病的亚型数量,其输入为融合后的特征,其输出为预测的病人所患亚型
。2.
根据权利要求1所述一种基于多模态融合的心血管疾病风险预测方法,其特征在于,所述步骤四基于预训练的分层
BioBERT
模型具体为,专门基于医学大数据预训练的语言模型编码器,用于提取文本报告特征
。3.
根据权利要求2所述一种基于多模态融合的心血管疾病风险预测方法,其特征在于,使用
PubMed 200K
和
PMC 270K
数据集上训练分层
BioBERT
模型;给定代表每份报告最多有
S
个句子,每个句子最多包含
Z
个
token
,则在输入到分层
BioBERT
模型前,每篇报告先被编码为矩阵
H
,经过分层
BioBERT
模型处理后,取最后一个隐藏层的输出作为结果,用平均处理的方式聚合每个句子中的所有
token
的
embedding
,得到句子层级的
embeddingQ
公式如下,之后使用分层
BioBERT
模型进一步编码每个句子的初步编码特征,使得每个句子层级的编码同样学习到前后句子的语义信息的编码同样学习到前后句子的语义信息继续使用平均聚合的方式得到报告层级的嵌入
P
i
,表示模型从病人文本报告中提取的集成了其患有心血管情况的特征,
4.
根据权利要求3所述一种基于多模态融合的心血管疾病风险预测方法,其特征在于,分层
BioBERT
模型注意力部分的时间复杂度为
token
层级的编码复杂度加上句子层级的编码复杂度,即考虑到
Z2>>
S
,可...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。