一种基于多组学和影像数据融合的癌症患者分类系统技术方案

技术编号:33551562 阅读:9 留言:0更新日期:2022-05-26 22:47
本发明专利技术公开了一种基于多组学和影像数据融合的癌症患者分类系统,该系统能完成端到端的多组学数据、影像数据的载入和预处理,利用外部知识数据库引入额外的特征信息对特定组学数据进行特征降维和信息聚集,通过计算癌症患者,即样本之间的相似度来补充额外的样本信息,最终通过一种多模态交叉融合方法实现多组学数据和影像数据分类结果的融合,并完成最终的分类结果输出,其包括以下功能模块:数据载入和预处理模块、多组学处理模块、图片处理模块、融合模块。本发明专利技术能有效地融合多组学和影像数据,可用于多种癌症患者的准确分类。可用于多种癌症患者的准确分类。可用于多种癌症患者的准确分类。

【技术实现步骤摘要】
一种基于多组学和影像数据融合的癌症患者分类系统


[0001]本专利技术涉及癌症患者分类的
,尤其是指一种基于多组学和影像数据融合的癌症患者分类系统。

技术介绍

[0002]癌症是一种具有复杂的潜在分子机制和因素的疾病,需要通过大量的数据来更准确地描述、诊断和治疗患者。组学一直是研究者们用来研究癌症机理的主要数据,近几年,由于基因测序技术的进步,使得测序时间极大缩短、测序成本大幅度降低、人力消耗降低,从而促进了包括基因组学、蛋白组学等多种组学的快速发展。同时由于现代计算机、医学影像的发展,影像被当作研究癌症的有效手段,其中更有病理学图片被称为诊断的“金标准”。多组学和影像从不同层面提供了患者的疾病信息,其中,基因组学、转录组学、蛋白组学分别从基因、转录、蛋白表达层面为癌症患者提供分子级的分析,而影像数据直观地呈现了患者目前的身体状况。越来越多的研究致力于将组学数据和影像数据融合,从而更全面地为癌症患者进行诊断和治疗,但组学数据和影像数据的融合面临着维度灾难、数据异构、数据不平衡等多种挑战;
[0003]多年来,人们提出了许多针对各种问题进行多组学数据和影像数据融合的方法。然而,大多数现有的工作集中在无监督的多组学数据和影像数据融合,或者是单一地从特征或样本中获取额外的信息。随着公共数据集和个性化医疗的发展,越来越多的组织和机构提供了癌症的相关文献信息和数据集,吸引了人们对有监督的多组学数据和影像数据融合的方法进行研究,该类方法可以识别与疾病相关的生物标志物,并对新样本进行预测。该类方法的早期尝试包括基于特征拼接的方法和基于集成的方法。一方面,基于拼接的方法通过直接拼接输入数据的特征来融合多组学数据和影像数据,完成分类模型的学习。另一方面,基于集成的方法集成了来自不同分类器的预测,每个分类器分别在一种类型的输入数据上进行训练。然而,这些方法没有考虑到不同输入数据类型之间的相关性,可能偏向于某些输入数据类型;
[0004]综上所述,考虑同时从特征和样本中获取额外的信息,利用一种新的多模态数据融合方法,实现不同输入数据之间的信息交互,完成多组学数据和影像数据的融合。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的缺点与不足,提出了一种基于多组学和影像数据融合的癌症患者分类系统,能够实现多组学数据和影像数据之间的信息融合,并利用融合后的多组学和影像数据对癌症患者进行准确分类。
[0006]为实现上述目的,本专利技术所提供的技术方案为:一种基于多组学和影像数据融合的癌症患者分类系统,该系统能完成端到端的多组学数据、影像数据的载入和预处理,利用外部知识数据库引入额外的特征信息对特定组学数据进行特征降维和信息聚集,通过计算癌症患者,即样本之间的相似度来补充额外的样本信息,最终通过一种多模态交叉融合方
法实现多组学数据和影像数据分类结果的融合,其具体包括以下功能模块:
[0007]数据载入和预处理模块,用于导入多组学数据和影像数据,并针对导入的数据进行预处理;
[0008]多组学处理模块,包括整合基因网络模块和有监督图卷积模块,其中,所述整合基因网络模块利用外部数据库HINT所提供的基因之间相互作用信息构建基因之间的邻接矩阵,利用图卷积神经网络(GCN,Graph Convolutional Network)和基因之间的邻接矩阵进行基因的表征,所述有监督图卷积模块利用余弦相似性构建样本之间的邻接矩阵,利用图卷积神经网络(GCN,Graph Convolutional Network)和样本之间的邻接矩阵进行样本的表征,并获得以组学数据为输入的初步预测分类结果;
[0009]图片处理模块,利用卷积神经网络对影像数据进行表示学习,获得以影像数据为输入的初步预测分类结果;
[0010]融合模块,包括初步交叉融合模块和网络融合模块,其中,所述初步交叉融合模块构建多模态数据交叉融合向量,并将该向量的重构向量输入到网络融合模块,实现多个组学和影像数据的分类结果融合,获得最终的分类结果。
[0011]进一步,所述数据载入和预处理模块包括数据载入模块和数据预处理模块;所述数据载入模块实现多组学数据和影像数据的加载,所述多组学数据包括基因组学数据、转录组学数据和表观组学数据,所述多组学数据每行表示在相应特征上每个样本的表达值,每列表示一个样本在对应特征中的表达值,所述影像数据为癌症患者病理图数据;所述数据预处理模块的预处理包括样本对齐,特征对齐,对多组学数据空值比例超过全部样本的a%的特征进行删除,而空值比例低于全部样本的b%的值用软件IMPUTE2进行填充,去除方差低于阈值的特征,利用软件TCGA

Assembler对特定组学数据进行特征对齐,利用软件HistomicsTK对病理图进行分析,利用OpenSlide工具对病理图进行裁剪,每个样本得到z块感兴趣区域(ROI,region of interest),z大于或等于1,每个感兴趣区域(ROI,region of interest)的像素大小是r1×
r2,其中r1和r2分别对应每个感兴趣区域(ROI,region of interest)的长、宽像素值,最后将组学和影像数据按照指定比例进行划分,得到训练集和测试集;经过数据预处理模块后输出的数据由多个样本构成,每个样本包含多种组学数据和多块病理学图片。
[0012]进一步,所述多组学处理模块包括整合基因网络模块和有监督图卷积模块;
[0013]所述整合基因网络模块利用外部数据库HINT引入基因之间相互作用信息,通过图卷积神经网络(GCN,Graph Convolutional Network)实现多个组学数据特征层面的信息聚集和特征筛选,包括以下步骤:
[0014]a1)利用外部数据库HINT提供的智人二元物理相互作用数据集构建基因之间的邻接矩阵A
(g)
∈R
(p
×
p)
,R为实数集,p为特征数目;
[0015]a2)利用步骤a1)得到的邻接矩阵A
(g)
构建图卷积神经网络(GCN,Graph Convolutional Network)获得特征空间的邻居信息:
[0016][0017]其中,组学u={1,2,...,U},U为多组学数目,分别为经过预处理的组学u的训练集和测试集,分别在训练阶段和测试阶段输入步骤a2)的公式中,为组学u的
隐含层表征,σ(
·
)为激活函数ReLU(
·
)=max(0,
·
),max(0,
·
)表示取0和
·
中较大的数,

为阿达玛乘积,为组学u在图卷积神经网络(GCN,Graph Convolutional Network)训练过程中需要学习的参数,整合基因网络模块只在训练阶段学习图卷积神经网络(GCN,Graph Convolutional Network)的参数;
[0018]所述有监本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多组学和影像数据融合的癌症患者分类系统,其特征在于:该系统能完成端到端的多组学数据、影像数据的载入和预处理,利用外部知识数据库引入额外的特征信息对特定组学数据进行特征降维和信息聚集,通过计算癌症患者,即样本之间的相似度来补充额外的样本信息,最终通过一种多模态交叉融合方法实现多组学数据和影像数据分类结果的融合,其具体包括以下功能模块:数据载入和预处理模块,用于导入多组学数据和影像数据,并针对导入的数据进行预处理;多组学处理模块,包括整合基因网络模块和有监督图卷积模块,其中,所述整合基因网络模块利用外部数据库HINT所提供的基因之间相互作用信息构建基因之间的邻接矩阵,利用图卷积神经网络GCN和基因之间的邻接矩阵进行基因的表征,所述有监督图卷积模块利用余弦相似性构建样本之间的邻接矩阵,利用图卷积神经网络GCN和样本之间的邻接矩阵进行样本的表征,并获得以组学数据为输入的初步预测分类结果;图片处理模块,利用卷积神经网络对影像数据进行表示学习,获得以影像数据为输入的初步预测分类结果;融合模块,包括初步交叉融合模块和网络融合模块,其中,所述初步交叉融合模块构建多模态数据交叉融合向量,并将该向量的重构向量输入到网络融合模块,实现多个组学和影像数据的分类结果融合,获得最终的分类结果。2.根据权利要求1所述的一种基于多组学和影像数据融合的癌症患者分类系统,其特征在于:所述数据载入和预处理模块包括数据载入模块和数据预处理模块;所述数据载入模块实现多组学数据和影像数据的加载,所述多组学数据包括基因组学数据、转录组学数据和表观组学数据,所述多组学数据每行表示在相应特征上每个样本的表达值,每列表示一个样本在对应特征中的表达值,所述影像数据为癌症患者病理图数据;所述数据预处理模块的预处理包括样本对齐,特征对齐,对多组学数据空值比例超过全部样本的a%的特征进行删除,而空值比例低于全部样本的b%的值用软件IMPUTE2进行填充,去除方差低于阈值的特征,利用软件TCGA

Assembler对特定组学数据进行特征对齐,利用软件HistomicsTK对病理图进行分析,利用OpenSlide工具对病理图进行裁剪,每个样本得到z块感兴趣区域ROI,z大于或等于1,每个感兴趣区域ROI的像素大小是r1×
r2,其中r1和r2分别对应每个感兴趣区域ROI的长、宽像素值,最后将组学和影像数据按照指定比例进行划分,得到训练集和测试集;经过数据预处理模块后输出的数据由多个样本构成,每个样本包含多种组学数据和多块病理学图片。3.根据权利要求1所述的一种基于多组学和影像数据融合的癌症患者分类系统,其特征在于:所述多组学处理模块包括整合基因网络模块和有监督图卷积模块;所述整合基因网络模块利用外部数据库HINT引入基因之间相互作用信息,通过图卷积神经网络GCN实现多个组学数据特征层面的信息聚集和特征筛选,包括以下步骤:a1)利用外部数据库HINT提供的智人二元物理相互作用数据集构建基因之间的邻接矩阵A
(g)
∈R
(p
×
p)
,R为实数集,p为特征数目;a2)利用步骤a1)得到的邻接矩阵A
(g)
构建图卷积神经网络GCN获得特征空间的邻居信息:
其中,组学u={1,2,...,U},U为多组学数目,分别为经过预处理的组学u的训练集和测试集,分别在训练阶段和测试阶段输入步骤a2)的公式中,为组学u的隐含层表征,σ(
·
)为激活函数ReLU(
·
)=max(0,
·
),max(0,
·
)表示取0和
·
中较大的数,

为阿达玛乘积,为组学u在图卷积神经网络GCN训练过程中需要学习的参数,整合基因网络模块只在训练阶段学习图卷积神经网络GCN的参数;所述有监督图卷积模块依据样本之间的余弦相似性构建样本邻接矩阵A
(s)
,通过图卷积神经网络GCN获得每个组学的初步预测分类结果,包括以下步骤:b1)依据样本之间的相似性构建邻接矩阵A
(s)
;b1.1)在训练阶段,计算训练集中的样本之间的余弦相似度,得到训练样本的邻接矩阵b1.1)在训练阶段,计算训练集中的样本之间的余弦相似度,得到训练样本的邻接矩阵其中,表示样本i和样本j的邻接矩阵,表示样本i和样本j之间的余弦相似度,x
i
和x
i
分别为样本i和样本j在组学中的表达值,||
·
||2表示对
·
进行2

范数操作,是邻接矩阵的度矩阵,I表示单位矩阵,ε通过给定的参数k确定,k表示每个节点保留的平均边数,包括自连接,其公式如下:其中,δ(
·
)为指示函数,当sim(x
i
,x
j
)≥ε时,δ(
·
)=1,否则,δ(
·
)=0,n为样本数,即节...

【专利技术属性】
技术研发人员:董守斌黄薇娴谭凯文胡金龙张子烨
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1