System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于跨模态视图关联发现网络的卵巢癌预后预测方法技术_技高网

基于跨模态视图关联发现网络的卵巢癌预后预测方法技术

技术编号:40474553 阅读:7 留言:0更新日期:2024-02-26 19:11
本发明专利技术公开了基于跨模态视图关联发现网络的卵巢癌预后预测方法,引入随机森林与LASSO回归结合的特征选择方法RLASSO,去除冗余和带有噪声的特征,充分选择与卵巢癌预后相关的基因;引入临床特征,将其分别与mRNA表达、DNA甲基化、miRNA表达和拷贝数变异进行整合;采用多模态深度神经网络并行学习特定组学数据的高级特征表示,进行卵巢癌初始预后预测;提出使用跨模态视图关联网络对初始预测结果构建发现张量,探索空间中交叉组学的互相关性,实现最终的卵巢癌预后预测。本发明专利技术能够有效解决现有方法忽略不同组学数据之间的差异性和互相关性的问题,更准确地预测了卵巢癌患者的预后。

【技术实现步骤摘要】

本专利技术涉及卵巢癌预后研究与分析领域,尤其涉及基于跨模态视图关联发现网络的卵巢癌预后预测方法


技术介绍

1、卵巢癌是具有不同临床病理和分子特征的肿瘤,绝大多数患者在确诊时已存在局部或大范围扩散,对患者进行早期诊断和预后预测有助于卵巢癌潜在发病机制的理解和治疗效果的改善。卵巢癌的发生受基因组、转录组以及蛋白组等多个复杂机制的影响,不同类型的组学分析有助于卵巢癌患者存活率的预测。卵巢癌多组学数据具有高维异质性,现有方法在整合多组学数据时未考虑到不同组学数据之间的差异性和互相关性。


技术实现思路

1、本专利技术的目的在于避免现有技术的不足之处而提供一种基于跨模态视图关联发现网络的卵巢癌预后预测方法。

2、本专利技术是这样实现的,基于跨模态视图关联发现网络的卵巢癌预后预测方法,包括以下步骤:

3、步骤s1、获取卵巢癌患者的临床数据和多个组学数据,构建多模态特征空间,并对临床数据和多个组学数据进行预处理;

4、步骤s2、预处理后的组学数据利用rlasso进行组学特征选择,使用lasso回归将组学特征稀疏化,结合随机森林对组学特征进行重要性排序,并将随机森林选取的重要组学特征作为lasso回归中丢失组学特征的补充,获得与卵巢癌相关的预后特征;

5、步骤s3、预处理后的临床数据与预后特征进行整合,得到整合组学数据;

6、步骤s4、采用多模态深度神经网络,提取整合组学数据的高级特征表示;

7、步骤s5、采用跨模态视图关联发现网络,对整合组学数据的高级特征表示构建发现张量,探索空间中交叉组学的互相关性,构建卵巢癌预后预测模型;

8、步骤s6、训练卵巢癌预后预测模型;

9、步骤s7、验证并评估卵巢癌预后预测模型的预测能力和有效性。

10、进一步的,多个所述组学数据包括mrna表达、dna甲基化、mirna表达和拷贝数变异,所述临床数据中的临床特征包括年龄、种族、figo分期、卵巢癌亚型、生存时间和生存状态。

11、进一步的,步骤s1中,预处理步骤具体包括:

12、过滤临床数据和多个组学数据中缺失值超过20%的样本和特征;

13、将临床数据和多个组学数据中的样本相交,得到临床数据和多个组学数据的共同样本;

14、将共同样本的组学数据通过方差阈值进行初步筛选,得到预处理后的组学数据;

15、将共同样本的临床数据进行嵌入处理,得到预处理后的临床数据。

16、进一步的,步骤s2中,具体包括:

17、lasso回归进行特征选择的公式如下:

18、

19、

20、其中,i表示第i个组学数据,n表示样本数量,di表示第i个组学数据的组学特征总量,yj表示第j个样本的标签,λ表示正则化参数;

21、使用随机森林构建决策树,对所有组学特征进行重要性排名,根据组学特征重要性标准选择前k个重要组学特征;

22、在组学数据的特征集中,根据特征重要性,输出特征重要性集合其中di表示第i个组学数据的组学特征总数,ix计算公式如下所示:

23、

24、其中,和表示扰动前后的袋外数据,即决策树重采样时未采样到的样本,并统计分类正确的样本数;

25、按重要性降序排列,选择重要性较高的k个特征作为筛选后的特征;

26、将随机森林选择的重要特征与lasso回归中保留的特征共同作为特定组学数据的总特征,即与卵巢癌相关的预后特征。

27、进一步的,步骤s3中,具体包括:

28、将临床数据中的年龄、种族、卵巢癌亚型、figo分期这4个临床特征分别与经过特征选择的组学特征,即预后特征,进行拼接,得到整合组学数据,作为多模态深度神经网络的输入,其中,一个深度神经网络输入的特征如下所示:

29、

30、其中,xi表示第i个组学特征与临床特征融合后的总特征,表示第i个组学数据的第p个组学特征,i=1,2,3,4,c1-c4表示临床特征。

31、进一步的,步骤s4中,具体包括:

32、采用多模态深度神经网络,从多个通道并行学习整合组学数据,每个通道对应一个深度神经网络,每个通道独立学习并提取不同类型整合组学数据的高级特征表示;

33、第i个整合组学数据具有l个隐藏层的深度神经网络表示如下:

34、

35、

36、

37、其中,y表示样本标签,θ表示所有神经网络的参数,zk(k=1,2,…,l)均是通过隐藏神经元处理后的结果,b是偏置向量;z和w取决于输入维度的大小,隐藏神经元的个数以及类别的数量;σ(·)是激活函数leakyrelu,g(·)是softmax函数,将输出层的值转换为预测概率;

38、对于第i个类型的整合组学数据的预测过程可以写为:

39、

40、其中,使用表示中的第j行,这是第i个整合组学数据的第j个训练样本的预测标签分布,即整合组学数据的高级特征表示。

41、进一步的,步骤s5,具体包括:

42、采用跨模态视图关联发现网络对每个多组学数据的预测标签分布构建跨组学发现张量,通过跨组学发现张量充分学习不同组学数据之间的互相关性;

43、其中,对mrna表达、dna甲基化、mirna表达和拷贝数变异的相关性进行建模,令pj∈r2×2×2×2表示第j个样本的跨组学发现张量,计算公式如下:

44、

45、表示的第i项,使用pj挖掘不同组学数据预测标签分布之间的关系,充分学习它们之间的互相关性;

46、将跨组学发现张量pj∈r2×2×2×2重塑为长度是24的一维向量pj∈r16,pj表示融合后的标签特征,使用全连接神经网络学习重塑后的跨组学发现张量,即融合后的标签特征,获得卵巢癌预后预测的最终结果;

47、其中,将pj输入全连接神经网络中获得卵巢癌最终的预后预测结果y′j;

48、当全连接网络由2个隐藏层组成,每个层数均为100时,获得最好的预测结果,公式如下:

49、macodn(pj)=σ2(w2(σ1(w1pj+b1))+b2)

50、y′j=macodn(pj)

51、其中,σ1和σ2表示激活函数分别为leakyrelu和softmax,w表示权重矩阵,b表示偏置向量,y′j∈r2。

52、进一步的,步骤s6中,训练卵巢癌预后预测模型,具体包括:

53、采用交叉熵作为代价函数,以最小化训练多模态神经网络误差:

54、

55、

56、其中,v表示组学类型的数量,n表示样本数量,表示交叉熵损失函数,yj∈r2是第j个样本的one-hot编码的标签;

57、跨模态视图关联发现网络使用交叉熵损失函数进行训练,即:

...

【技术保护点】

1.基于跨模态视图关联发现网络的卵巢癌预后预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,多个所述组学数据包括mRNA表达、DNA甲基化、miRNA表达和拷贝数变异,所述临床数据中的临床特征包括年龄、种族、Figo分期、卵巢癌亚型、生存时间和生存状态。

3.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,步骤S1中,预处理步骤具体包括:

4.根据权利要求2所述的卵巢癌预后预测方法,其特征在于,步骤S2中,具体包括:

5.根据权利要求4所述的卵巢癌预后预测方法,其特征在于,步骤S3中,具体包括:

6.根据权利要求5所述的卵巢癌预后预测方法,其特征在于,步骤S4中,具体包括:

7.根据权利要求6所述的卵巢癌预后预测方法,其特征在于,步骤S5,具体包括:

8.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,步骤S6中,训练卵巢癌预后预测模型,具体包括:

9.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,步骤S7中,具体包括:

【技术特征摘要】

1.基于跨模态视图关联发现网络的卵巢癌预后预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,多个所述组学数据包括mrna表达、dna甲基化、mirna表达和拷贝数变异,所述临床数据中的临床特征包括年龄、种族、figo分期、卵巢癌亚型、生存时间和生存状态。

3.根据权利要求1所述的卵巢癌预后预测方法,其特征在于,步骤s1中,预处理步骤具体包括:

4.根据权利要求2所述的卵巢癌预后预测方法,其特征在于,步骤s2中,...

【专利技术属性】
技术研发人员:王会青韩笑程昊任建雪
申请(专利权)人:太原理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1