【技术实现步骤摘要】
基于多组学数据融合的癌症分型方法、系统及存储介质
[0001]本专利技术涉及医疗数据分析
,尤其涉及一种基于多组学数据融合的癌症分型方法,还涉及应用这种癌症分型方法的癌症分型系统以及计算机可读存储介质。
技术介绍
[0002]癌症是一种侵略性强且复杂的疾病,其异质性使得针对不同肿瘤类型的特定治疗变得具有挑战性。癌症的临床异质性可追溯到形态相似的肿瘤具有多个明显不同发病机制的亚型。因此,准确预测癌症亚型对于帮助理解癌症的演变、优化患者分层和设计有效的治疗方法是有意义且必要的。许多基于唯一的生物学特征或临床结果的方法已用于识别特定肿瘤组织中的癌症亚型。然而,大多数这些方法只使用单一的数据类型,因此无法全面描述生物体的临床信息,也无法捕捉癌症的细微差别。将癌症基因组与癌症表型联系起来是困难的,因为基因组不是简单或独立的,而是复杂的并且彼此相互作用。因此,全面了解肿瘤不同组织类型对于高效的疾病诊断和治疗至关重要。
[0003]癌症基因组图谱(TCGA)提供了来自不同平台的各种癌症的测序数据即组学数据,包括基因表达、拷贝数和DNA甲基化数据。这些不同类型的数据提供了互补或共同的信息,涵盖了高度有序的分子和细胞事件。一些癌症亚型预测模型已经整合了多样的组学数据,以捕捉表型的复杂性和生物过程的异质性。使用多组学数据的模型比使用单组学数据(如基因表达)的模型提供了对特定生物过程或复杂疾病的分子机制的更全面的理解。
[0004]但是,现有的多组学聚类方法并没有考虑到各个组学数据类型之间的相似性,以及融合矩阵与基因 ...
【技术保护点】
【技术特征摘要】
1.一种基于多组学数据融合的癌症分型方法,其特征在于,包括以下步骤:步骤一、对患者癌症细胞样本的组学数据进行归一化处理;每个样本具有m种组学数据;步骤二、基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵;其中,所述高斯核函数中的高斯核计算方式为:将欧氏距离添加到核函数中,采用k最近邻算法即KNN计算出每个样本的邻居信息,并将每个样本的邻居信息添加到核函数中;步骤三、利用相似网络融合算法对各种组学数据的相似性矩阵进行融合,形成包含有多组学数据的整体相似性网络;所述整体相似性网络通过拉普拉斯矩阵L
G
描述拓扑结构;步骤四、将所述各种组学数据的相似性矩阵与所述整体相似性网络的融合过程转化为一个约束最小化问题的构建,通过所述约束最小化问题求解出融合的目标矩阵S;所述约束最小化问题的表达为:式中,f(S)为目标函数;W
l
为第l种组学数据的相似性矩阵,l∈{1,2,
…
m};α
l
为W
l
的权重;||
·
||
F
表示“·”的Frobenius范数;β和γ是控制正则化强度的非负超参数;步骤五、利用聚类算法对所述目标矩阵S进行聚类处理,进而将癌症患者划分为不同的亚型或子群体。2.根据权利要求1所述的一种基于多组学数据融合的癌症分型方法,其特征在于,步骤一中,所述患者癌症细胞样本设有n个,记为{x1,x2,
…
,x
n
},每个样本数据具有m种不同的组学数据,记为,l∈{1,2,
…
m};其中,对样本的组学数据进行归一化处理的表达公式如下:式中,表示第i个样本的第l种组学数据,i∈{1,2,
…
n},表示归一化后的相应特征;和分别表示的经验均值和方差。3.根据权利要求2所述的一种基于多组学数据融合的癌症分型方法,其特征在于,步骤二中,第l种组学数据的相似性矩阵W
l
中的矩阵元素表示记为,表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的相似性,其计算公式如下:式中,表示第j个样本的第l种组学数据,j∈{1,2,
…
n};σ
i
表示第i个样本的局部密度;σ
j
表示第j个样本的局部密度;表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的欧氏距离;其中,局部密度σ
i
、σ
j
的计
算公式分别如下:式中,表示对利用KNN算法得到的的k个邻居,记为集合;其中,,的取值范围为,z的取值范围为集合,其中;表示对利用KNN算法得...
【专利技术属性】
技术研发人员:马韵洁,夏莎莎,王飞,王佐成,吴艳平,
申请(专利权)人:数据空间研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。