当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于多任务学习的肝癌预后分析方法、系统及设备技术方案

技术编号:36431310 阅读:10 留言:0更新日期:2023-01-20 22:43
本发明专利技术提供了基于多任务学习的肝癌预后分析方法、系统及设备,方法包括:获取肝癌病例数据集;构建基于多任务神经网络的肝癌预后分析模型;利用肝癌病例数据集,对基于多任务神经网络的肝癌预后分析模型进行训练,得到训练好的基于多任务神经网络的肝癌预后分析模型;获取待预测的肝癌病例数据,并将待预测的肝癌病例数据输入至训练好的基于多任务神经网络的肝癌预后分析模型,获得肝癌病例的预测的各个时间点的生存状态,并估计术后生存时间;基于训练好的肝癌预后分析模型,进行危险因素筛选与风险评估。本发明专利技术采用基于多任务学习的肝癌预后分析方法,从而从根源上解决了现有的肝癌预后分析准确度低的问题。癌预后分析准确度低的问题。癌预后分析准确度低的问题。

【技术实现步骤摘要】
一种基于多任务学习的肝癌预后分析方法、系统及设备


[0001]本专利技术属于医疗数据处理及机器学习
,具体涉及一种基于多任务学习的肝癌预后分析方法、系统及设备。

技术介绍

[0002]肝细胞癌(HCC)是一种原发性肝脏恶性肿瘤,主要由慢性肝炎和肝硬化发展而来。HCC是全球第7大常见肿瘤和第2位癌症相关死亡原因,每年导致超过80万人死亡。大多数HCC患者首次诊断时已处于中晚期,根据巴塞罗那分期(BCLC)系统,TACE是中期(B期)患者的首选治疗方案,但由于肝癌复杂的病因和人群中的高度异质性,中期患者TACE术后总生存期变化很大,从11个月到45个月不等,预后较差。因此,分析HCC术后生存情况在肝癌患者的个性化治疗中至关重要,临床医生基于此为患者术后健康管理提供临床决策。
[0003]随着现代海量医疗数据的增多,一些人工智能模型被引入用以处理这些医疗数据,挖掘有价值的信息。目前国内外已建立的肝癌预后模型多以传统的统计学模型为主,对于生存数据中的删失问题并不能很好的处理,导致预测效果较差。多任务学习是目前人工智能模型中的一个重要研究领域,其主要通过同时学习多个任务,利用相关任务的共享表示来减少每个任务的预测误差。
[0004]因此,如何进行准确地肝癌预后分析,提高预测精度,是本领域亟待解决的问题。

技术实现思路

[0005]本专利技术的目的是针对现有技术的缺陷,提供一种基于多任务学习的肝癌预后分析方法、系统及设备。本专利技术基于多任务学习的肝癌预后分析方法、系统及设备,通过将肝癌临床数据、深度神经网络技术和多任务学习技术进行结合,从而从根源上解决了现有的肝癌预后分析准确度低的问题。
[0006]为了实现以上目的,本专利技术采用以下技术方案:
[0007]一种基于多任务学习的肝癌预后分析方法,其特征在于,包括步骤:
[0008]S1、获取肝癌病例数据集;所述肝癌病例数据集表示为{(X
i
,T
i
,δ
i
)|i=1,2,...,n},其中,X
i
为第i个肝癌病例的特征向量;T
i
为第i个肝癌病例的生存时间;δ
i
为第i个肝癌病例的删失状态,当δ
i
=0时,表示该病例数据为删失数据,即在随访结束前患者都一直存活,δ
i
=1表示该病例数据为完整数据,即在随访结束前患者就已经死亡;
[0009]其中,所述肝癌病例的特征至少包括:病因和类型、甲胎蛋白、血红蛋白、血小板、白细胞、谷草转氨酶、乳酸脱氢酶、白蛋白、总胆红素、C反应蛋白、肝性脑病、肿瘤直径、病变部位、肝内病变数、新病灶、门静脉侵犯、门静脉受侵支、肝静脉侵犯、侵犯静脉导管或心房、腹水、远处转移,所述类型包括:HBV、HCV、无病毒感染;
[0010]S2、构建基于多任务神经网络的肝癌预后分析模型,包括:
[0011]生存时间的转化,将肝癌病例的生存时间划分为J个时间点,其中J为所纳入病例的最大生存时间;每一个病例数据的生存时间转化为在这J个时间点中的生存状态,分别用

1”代表死亡,“0”代表存活,“?”代表未知;转化后,每个病例的生存时间就转化为J个生存状态,用y
i
=[y1,y2,

,y
J
]来表示转化后的标签向量;将肝癌病例的特征向量X
i
和转化后的标签向量y
i
作为多任务神经网络的输入;
[0012]所述基于多任务神经网络的肝癌预后分析模型中,多任务神经网络包括三个层结构:输入层、参数共享层、多任务输出层;输入层输入肝癌病例的特征向量X
i
和转化后的标签向量y
i
;输入层与参数共享层之间采用全连接方式,参数共享层包括多个层,多任务参数共享方式采用硬参数共享机制,即共享层的各个层之间通过全连接方式连接;网络的输出部分开始分叉,包括J个输出任务,每个输出任务对应两个节点,分别对应死亡或存活的概率,存活概率大于死亡概率时表示此时间点病例存活,反之,J个输出任务就对应了J个时间节点下的生存状态;通过这J个时间点的生存状态来预测病人的存活时间;另外在输出层之前增加dropout层和softmax层,dropout层提高模型的泛化能力,softmax使输出映射到(0,1),使得输出结果为概率;
[0013]S3、利用所述肝癌病例数据集,对所述基于多任务神经网络的肝癌预后分析模型进行训练,得到训练好的基于多任务神经网络的肝癌预后分析模型;
[0014]具体地,模型训练过程中,所述基于多任务神经网络的肝癌预后分析模型的目标函数由生存损失和排序损失两个损失函数组成,具体如下:
[0015][0016]其中α,β为正常数,用于调节生存损失和排序损失的权重,θ是网络参数,λ为正则化参数;
[0017]生存损失和排序损失的计算方式具体如下:
[0018](1)生存损失
[0019]未删失数据的标签包括存活和死亡两种状态;而由于删失的原因,删失病例的某些时间点的生存状态是已知的,其他时间点的生存状态是未知的,因此生存损失由两部分组成,计算方式如下:
[0020]L
cen
(θ)=Lo
bs
(y
ij
,p(X
i
|θ))+λL
unlabel
(p(X
i
|θ))
[0021]其中,y
ij
代表病例i在时间点j实际的标签值,p(X
i
|θ)代表病例预测的标签值,L
obs
代表有标签的数据的损失,L
unlabel
代表无标签数据的损失;
[0022]对于有标签数据是一个二元分类问题,采用交叉熵损失函数,计算公式如下:
[0023][0024]s代表有标签的任务数,p1是预测该时间点死亡的概率;
[0025]对于无标签的数据,熵的计算如下:
[0026][0027]k是总任务的数量,p0是预测该时间点仍存活的概率,当属于某一状态的概率越高,对应的熵就越低;
[0028](2)排序损失
[0029]生存状态一旦变为死亡后,即标签为“1”,将不能再更改,因此同一病例的各个时间点的生存概率是一个非递增结构,在目标函数中加入排序损失来约束这种非递增趋势,
排序损失是一种成对的排序损失,用于计算存活实例与预测值之间的排序误差;
[0030]对于病例i在任意两个时间点j和h的生存概率,排序误差计算如下:
[0031]R(y
i
,p
i
)=[(y
ij

y
ih
)

(p
ij

p
ih
)]2[0032]y
ij
代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的肝癌预后分析方法,其特征在于,包括步骤:S1、获取肝癌病例数据集;所述肝癌病例数据集表示为{(X
i
,T
i
,δ
i
)|i=1,2,...,n},其中,X
i
为第i个肝癌病例的特征向量;T
i
为第i个肝癌病例的生存时间;δ
i
为第i个肝癌病例的删失状态,当δ
i
=0时,表示该病例数据为删失数据,即在随访结束前患者都一直存活,δ
i
=1表示该病例数据为完整数据,即在随访结束前患者就已经死亡;其中,所述肝癌病例的特征至少包括:病因和类型、甲胎蛋白、血红蛋白、血小板、白细胞、谷草转氨酶、乳酸脱氢酶、白蛋白、总胆红素、C反应蛋白、肝性脑病、肿瘤直径、病变部位、肝内病变数、新病灶、门静脉侵犯、门静脉受侵支、肝静脉侵犯、侵犯静脉导管或心房、腹水、远处转移,所述类型包括:HBV、HCV、无病毒感染;S2、构建基于多任务神经网络的肝癌预后分析模型,包括:生存时间的转化,将肝癌病例的生存时间划分为J个时间点,其中J为所纳入病例的最大生存时间;每一个病例数据的生存时间转化为在这J个时间点中的生存状态,分别用“1”代表死亡,“0”代表存活,“?”代表未知;转化后,每个病例的生存时间就转化为J个生存状态,用y
i
=[y1,y2,

,y
J
]来表示转化后的标签向量;将肝癌病例的特征向量X
i
和转化后的标签向量y
i
作为多任务神经网络的输入;所述基于多任务神经网络的肝癌预后分析模型中,多任务神经网络包括三个层结构:输入层、参数共享层、多任务输出层;输入层输入肝癌病例的特征向量X
i
和转化后的标签向量y
i
;输入层与参数共享层之间采用全连接方式,参数共享层包括多个层,多任务参数共享方式采用硬参数共享机制,即共享层的各个层之间通过全连接方式连接;网络的输出部分开始分叉,包括J个输出任务,每个输出任务对应两个节点,分别对应死亡或存活的概率,存活概率大于死亡概率时表示此时间点病例存活,反之,J个输出任务就对应了J个时间节点下的生存状态;通过这J个时间点的生存状态来预测病人的存活时间;另外在输出层之前增加dropout层和softmax层,dropout层提高模型的泛化能力,softmax使输出映射到(0,1),使得输出结果为概率;S3、利用所述肝癌病例数据集,对所述基于多任务神经网络的肝癌预后分析模型进行训练,得到训练好的基于多任务神经网络的肝癌预后分析模型;具体地,模型训练过程中,所述基于多任务神经网络的肝癌预后分析模型的目标函数由生存损失和排序损失两个损失函数组成,具体如下:其中α,β为正常数,用于调节生存损失和排序损失的权重,θ是网络参数,λ为正则化参数;生存损失和排序损失的计算方式具体如下:(1)生存损失未删失数据的标签包括存活和死亡两种状态;而由于删失的原因,删失病例的某些时间点的生存状态是已知的,其他时间点的生存状态是未知的,因此生存损失由两部分组成,计算方式如下:L
cen
(θ)=L
obs
(y
ij
,p(X
i
|θ))+λL
unlabel
(p(X
i
|θ))其中,y
ij
代表病例i在时间点j实际的标签值,p(X
i
|θ)代表病例预测的标签值,L
obs
代表有标签的数据的损失,L
unlabel
代表无标签数据的损失;
对于有标签数据是一个二元分类问题,采用交叉熵损失函数,计算公式如下:s代表有标签的任务数,p1是预测该时间点死亡的概率;对于...

【专利技术属性】
技术研发人员:刘慧君黄果
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1