一种基于多模态融合的心血管疾病风险预测方法技术

技术编号:39648876 阅读:9 留言:0更新日期:2023-12-09 11:17
本发明专利技术公开了一种基于多模态融合的心血管疾病风险预测方法

【技术实现步骤摘要】
一种基于多模态融合的心血管疾病风险预测方法


[0001]本专利技术属于数据分类与预测
,具体涉及一种基于多模态融合的心血管疾病风险预测方法


技术介绍

[0002]目前针对心血管疾病的预测一般可以分为以下两类:其一是医学指南中的风险预测方法来预测,如美国心脏病学会指南推荐的
Framingham Risk Score
,欧洲指南推荐的系统冠状动脉风险评估
(SCORE)
算法,然而这些风险预测算法通常使用多元回归模型开发,模型结合了有限数量的既定风险因素的信息,并且通常假设所有这些因素都以线性方式与
CVD
结果相关,不同因素之间的相互作用有限或没有相互作用,因此实际效果不佳

其二是基于机器学习的心血管疾病预测方法,随着机器学习技术的不断发展,越来越多的医疗领域科研人员开始探索使用数据驱动的机器学习方法来辅助医生进行疾病诊断

在心血管疾病预测方向,大多数研究都是基于医学数据集中的病患体征检测数据,应用各种机器学习模型对病患是否患有心血管疾病进行诊断


Ahmed
等人基于
UK Biobank
数据集提出了
AutoPrognosis
模型,该模型集成了各种传统机器学习模型,集权集成后的模型具有更高的鲁棒性,因此效果优于单个模型
。Ajay
等人致力于心血管风险预测的可解释性和应用上的可操作性,在特征选择上加以创新,考虑了多种特征,包括病患家族病史

生活方式

多组学血液数据和环境数据等,之后使用
XGBoost
等机器学习模型对病患是否患有心血管疾病进行更全面的评估


技术实现思路

[0003]本专利技术提供一种基于多模态融合的心血管疾病风险预测方法,针对医学文本数据集存在的文本报告过长,难以在不损失全文信息的同时有效提取语义特征的问题

[0004]本专利技术通过以下技术方案实现:
[0005]一种基于多模态融合的心血管疾病风险预测方法,所述心血管疾病风险预测方法具体包括以下步骤:
[0006]步骤一:获取医疗数据集中的病患体征数据,筛选相关性高,且数据量合适的检测指标;
[0007]步骤二:对病人在医院期间产生的各类文本报告进行聚合,并进行数据清洗和语句断句;
[0008]步骤三:将步骤一获取的病患体征数据使用图神经网络
GNN

encoder
作为时序主干的网络,进行时序特征的提取;
[0009]步骤四:将步骤二聚合的各类文本报告中病患文本报告使用基于预训练的分层
BioBERT
模型作为语言主干网络,进行文本特征的提取;
[0010]步骤五:将步骤三的时序特征和步骤四的文本特征拼接在一起,通过一个自注意力深度融合网络,得到融合后的特征作为病患身体状况在特征空间上的嵌入向量;
[0011]步骤六:构造一个基于多层感知机的二元分类器,其输入为融合后的特征,其输出为是否患有心血管疾病的二分类结果;
[0012]步骤七:构造一个基于多层感知机的多元分类器,其分类数量为心血管疾病的亚型数量,其输入为融合后的特征,其输出为预测的病人所患亚型

[0013]进一步的,所述步骤四基于预训练的分层
BioBERT
模型具体为,专门基于医学大数据预训练的语言模型编码器,用于提取文本报告特征

[0014]进一步的,使用
PubMed 200K

PMC 270K
数据集上训练分层
BioBERT
模型;
[0015]给定代表每份报告最多有
S
个句子,每个句子最多包含
Z

token
,则在输入到分层
BioBERT
模型前,每篇报告先被编码为矩阵
H

[0016]经过分层
BioBERT
模型处理后,取最后一个隐藏层的输出作为结果,用平均处理的方式聚合每个句子中的所有
token

embedding
,得到句子层级的
embedding Q
公式如下,
[0017][0018]之后使用分层
BioBERT
模型进一步编码每个句子的初步编码特征,使得每个句子层级的编码同样学习到前后句子的语义信息
[0019][0020]继续使用平均聚合的方式得到报告层级的嵌入
P
i
,表示模型从病人文本报告中提取的集成了其患有心血管情况的特征,
[0021][0022]进一步的,分层
BioBERT
模型注意力部分的时间复杂度为
token
层级的编码复杂度加上句子层级的编码复杂度,即考虑到
Z2>>
S
,可以得到其时间复杂度大约是原来的
1/S

[0023][0024]进一步的,所述步骤五自注意力深度融合网络是一个基于
Transformer
的自注意力网络,将来自不同模态的特征堆叠在一起,再通过自注意力网络学习彼此之间的注意力权重,进行特征间的深度融合

[0025]进一步的,在步骤三与步骤四分别使用
GNN

Encoder

cvdHierBERT
提取不规则采样的时序特征和医学长文本特征后,对其进行多模态融合,融合算法分别是特征融合单塔结构

双塔结构和拼接方法;
[0026]在单塔结构中,时序特征和文本特征简单地连接在一起,然后输入单个
transformer
编码器自注意力模块中;
[0027]在双塔结构中,时序特征和文本特征独立地输入不同的
transformer
编码器自注意力模块中,并使用交叉注意力实现跨模态交互,基于另一特征的信息进行学习;
[0028]拼接融合方式则是直接将不同模态骨干网络提取到的特征直接拼接在一起,直接用于下游任务中

[0029]进一步的,运用对比学习损失函数,该损失函数旨在最小化同一病患的不同模态特征之间的距离,并最大化与其他病患的特征之间的距离;能够促进模型学习到同一病患的特征在特征空间中的相似性和差异性,即,
[0030][0031][0032][0033]式中,
x
i

y
i
分别代表第
i
对时序数据和文本数据归一化后特征,使用余弦相似度来度量样本特征间的距离,并且使用类似
softmax
的处理得到其相对距离;
[0034]其中
N<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多模态融合的心血管疾病风险预测方法,其特征在于,所述心血管疾病风险预测方法具体包括以下步骤:步骤一:获取医疗数据集中的病患体征数据,筛选相关性高,且数据量合适的检测指标;步骤二:对病人在医院期间产生的各类文本报告进行聚合,并进行数据清洗和语句断句;步骤三:将步骤一获取的病患体征数据使用图神经网络
GNN

encoder
作为时序主干的网络,进行时序特征的提取;步骤四:将步骤二聚合的各类文本报告中病患文本报告使用基于预训练的分层
BioBERT
模型作为语言主干网络,进行文本特征的提取;步骤五:将步骤三的时序特征和步骤四的文本特征拼接在一起,通过一个自注意力深度融合网络,得到融合后的特征作为病患身体状况在特征空间上的嵌入向量;步骤六:构造一个基于多层感知机的二元分类器,其输入为融合后的特征,其输出为是否患有心血管疾病的二分类结果;步骤七:构造一个基于多层感知机的多元分类器,其分类数量为心血管疾病的亚型数量,其输入为融合后的特征,其输出为预测的病人所患亚型
。2.
根据权利要求1所述一种基于多模态融合的心血管疾病风险预测方法,其特征在于,所述步骤四基于预训练的分层
BioBERT
模型具体为,专门基于医学大数据预训练的语言模型编码器,用于提取文本报告特征
。3.
根据权利要求2所述一种基于多模态融合的心血管疾病风险预测方法,其特征在于,使用
PubMed 200K

PMC 270K
数据集上训练分层
BioBERT
模型;给定代表每份报告最多有
S
个句子,每个句子最多包含
Z

token
,则在输入到分层
BioBERT
模型前,每篇报告先被编码为矩阵
H
,经过分层
BioBERT
模型处理后,取最后一个隐藏层的输出作为结果,用平均处理的方式聚合每个句子中的所有
token

embedding
,得到句子层级的
embeddingQ
公式如下,之后使用分层
BioBERT
模型进一步编码每个句子的初步编码特征,使得每个句子层级的编码同样学习到前后句子的语义信息的编码同样学习到前后句子的语义信息继续使用平均聚合的方式得到报告层级的嵌入
P
i
,表示模型从病人文本报告中提取的集成了其患有心血管情况的特征,
4.
根据权利要求3所述一种基于多模态融合的心血管疾病风险预测方法,其特征在于,分层
BioBERT
模型注意力部分的时间复杂度为
token
层级的编码复杂度加上句子层级的编码复杂度,即考虑到
Z2>>
S
,可...

【专利技术属性】
技术研发人员:卢凯龙臧天仪赵飞
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1