基于多组学数据融合的癌症分型方法、系统及存储介质技术方案

技术编号:38827604 阅读:26 留言:0更新日期:2023-09-15 20:06
本发明专利技术涉及医疗数据分析技术领域,公开了基于多组学数据融合的癌症分型方法、系统及存储介质。癌症分型方法首先对患者癌症细胞样本的组学数据进行归一化处理,然后基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵,再利用相似网络融合算法对各种组学数据的相似性矩阵进行融合,将各种组学数据的相似性矩阵与整体相似性网络的融合过程转化为一个约束最小化问题的构建,通过约束最小化问题求解出目标矩阵。最后利用聚类算法对目标矩阵进行聚类处理,进而将癌症患者划分为不同的亚型或子群体。该癌症分型方法能提供更准确、可靠的癌症分型结果。可靠的癌症分型结果。可靠的癌症分型结果。

【技术实现步骤摘要】
基于多组学数据融合的癌症分型方法、系统及存储介质


[0001]本专利技术涉及医疗数据分析
,尤其涉及一种基于多组学数据融合的癌症分型方法,还涉及应用这种癌症分型方法的癌症分型系统以及计算机可读存储介质。

技术介绍

[0002]癌症是一种侵略性强且复杂的疾病,其异质性使得针对不同肿瘤类型的特定治疗变得具有挑战性。癌症的临床异质性可追溯到形态相似的肿瘤具有多个明显不同发病机制的亚型。因此,准确预测癌症亚型对于帮助理解癌症的演变、优化患者分层和设计有效的治疗方法是有意义且必要的。许多基于唯一的生物学特征或临床结果的方法已用于识别特定肿瘤组织中的癌症亚型。然而,大多数这些方法只使用单一的数据类型,因此无法全面描述生物体的临床信息,也无法捕捉癌症的细微差别。将癌症基因组与癌症表型联系起来是困难的,因为基因组不是简单或独立的,而是复杂的并且彼此相互作用。因此,全面了解肿瘤不同组织类型对于高效的疾病诊断和治疗至关重要。
[0003]癌症基因组图谱(TCGA)提供了来自不同平台的各种癌症的测序数据即组学数据,包括基因表达、拷贝数和DNA甲基化数据。这些不同类型的数据提供了互补或共同的信息,涵盖了高度有序的分子和细胞事件。一些癌症亚型预测模型已经整合了多样的组学数据,以捕捉表型的复杂性和生物过程的异质性。使用多组学数据的模型比使用单组学数据(如基因表达)的模型提供了对特定生物过程或复杂疾病的分子机制的更全面的理解。
[0004]但是,现有的多组学聚类方法并没有考虑到各个组学数据类型之间的相似性,以及融合矩阵与基因调控网络的拓扑结构之间的一致性,造成对于患者癌症亚型分类结果的准确性较低。

技术实现思路

[0005]为了克服现有技术中多组学聚类方法对患者癌症亚型分类结果的准确性较低的技术问题,本专利技术提出了基于多组学数据融合的癌症分型方法、系统及存储介质。
[0006]为实现上述目的,本专利技术公开一种基于多组学数据融合的癌症分型方法,包括以下步骤,即步骤一至步骤五。
[0007]步骤一、对患者癌症细胞样本的组学数据进行归一化处理。每个样本具有m种组学数据。
[0008]步骤二、基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵。其中,高斯核函数中的高斯核计算方式为:将欧氏距离添加到核函数中,采用k最近邻算法即KNN计算出每个样本的邻居信息,并将每个样本的邻居信息添加到核函数中。
[0009]步骤三、利用相似网络融合算法对各种组学数据的相似性矩阵进行融合,形成包含有多组学数据的整体相似性网络。整体相似性网络通过拉普拉斯矩阵L
G
描述拓扑结构。
[0010]步骤四、将各种组学数据的相似性矩阵与整体相似性网络的融合过程转化为一个约束最小化问题的构建,通过约束最小化问题求解出融合的目标矩阵S。约束最小化问题的
表达为:
[0011]式中,f(S)为目标函数。W
l
为第l种组学数据的相似性矩阵,l∈{1,2,

m}。α
l
为W
l
的权重。||
·
||
F
表示“·”的Frobenius范数。β和γ是控制正则化强度的非负超参数。
[0012]步骤五、利用聚类算法对目标矩阵S进行聚类处理,进而将癌症患者划分为不同的亚型或子群体。
[0013]作为上述方案的进一步改进,步骤一中,患者癌症细胞样本设有n个,记为{x1,x2,

,x
n
},每个样本数据具有m种不同的组学数据,记为,l∈{1,2,

m}。
[0014]其中,对样本的组学数据进行归一化处理的表达公式如下:
[0015]式中,表示第i个样本的第l种组学数据,i∈{1,2,

n},表示归一化后的相应特征。和分别表示的经验均值和方差。
[0016]作为上述方案的进一步改进,步骤二中,第l种组学数据的相似性矩阵W
l
中的矩阵元素表示记为,表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的相似性,其计算公式如下:
[0017]式中,表示第j个样本的第l种组学数据,j∈{1,2,

n};σ
i
表示第i个样本的局部密度;σ
j
表示第j个样本的局部密度;表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的欧氏距离;其中,局部密度σ
i
、σ
j
的计算公式分别如下:
[0018]式中,表示对利用KNN算法得到的的k个邻居,记为集
合;其中,,的取值范围为,z的取值范围为集合,其中;表示对利用KNN算法得到的的k个邻居,记为集合;其中,,的取值范围为,y的取值范围为集合,其中。
[0019]作为上述方案的进一步改进,步骤三中,拉普拉斯矩阵为一个图G的矩阵表示,该图由若干个节点和边构成,其中的节点表示样本,边表示样本组学数据的相似性。L
G
计算方式如下:L
G
=D
G
-A
G
式中,D
G
为度矩阵,对角线元素为每个节点的度数。A
G
为邻接矩阵,表示节点之间的连接关系。
[0020]作为上述方案的进一步改进,步骤三中,相似网络融合算法包括以下过程:对每种组学数据的相似性矩阵进行归一化处理。
[0021]将归一化后的相似性矩阵组合成一个相似性网络集合。
[0022]依次对相似性网络集合中的每一个网络进行迭代更新,直至所有网络融合收敛,得到整体相似性网络。其中,对每一个网络即对象网络进行更新的方式为:通过集合中的其余任意一个网络的一处节点对相似性信息,更新对象网络中相应节点对的相似性信息。
[0023]作为上述方案的进一步改进,步骤四中,非负超参数的设置方式为:对超参数进行初步估计,指定超参数范围。在超参数范围内进行穷举搜索,通过在每个超参数上选择一组候选值,对所有可能的组合进行评估,找到在交叉验证或验证集上表现最好的超参数组合。
[0024]作为上述方案的进一步改进,步骤五中,利用K

means聚类算法对目标矩阵S进行聚类处理。
[0025]作为上述方案的进一步改进,多种组学数据至少包括:DNA甲基化数据、mRNA表达数据和miRNA表达数据。
[0026]本专利技术还公开一种基于多组学数据融合的癌症分型系统,其应用上述基于多组学数据融合的癌症分型方法。癌症分型系统包括:预处理模块、构建模块、第一融合模块、第二融合模块以及聚类模块。
[0027]预处理模块用于对患者癌症细胞样本的组学数据进行归一化处理。
[0028]构建模块用于基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵。
[0029]第一融合模块用于利用相似网络融合算法对各种组学数据的相似性矩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多组学数据融合的癌症分型方法,其特征在于,包括以下步骤:步骤一、对患者癌症细胞样本的组学数据进行归一化处理;每个样本具有m种组学数据;步骤二、基于高斯核函数构建经过归一化处理的各种组学数据的相似性矩阵;其中,所述高斯核函数中的高斯核计算方式为:将欧氏距离添加到核函数中,采用k最近邻算法即KNN计算出每个样本的邻居信息,并将每个样本的邻居信息添加到核函数中;步骤三、利用相似网络融合算法对各种组学数据的相似性矩阵进行融合,形成包含有多组学数据的整体相似性网络;所述整体相似性网络通过拉普拉斯矩阵L
G
描述拓扑结构;步骤四、将所述各种组学数据的相似性矩阵与所述整体相似性网络的融合过程转化为一个约束最小化问题的构建,通过所述约束最小化问题求解出融合的目标矩阵S;所述约束最小化问题的表达为:式中,f(S)为目标函数;W
l
为第l种组学数据的相似性矩阵,l∈{1,2,

m};α
l
为W
l
的权重;||
·
||
F
表示“·”的Frobenius范数;β和γ是控制正则化强度的非负超参数;步骤五、利用聚类算法对所述目标矩阵S进行聚类处理,进而将癌症患者划分为不同的亚型或子群体。2.根据权利要求1所述的一种基于多组学数据融合的癌症分型方法,其特征在于,步骤一中,所述患者癌症细胞样本设有n个,记为{x1,x2,

,x
n
},每个样本数据具有m种不同的组学数据,记为,l∈{1,2,

m};其中,对样本的组学数据进行归一化处理的表达公式如下:式中,表示第i个样本的第l种组学数据,i∈{1,2,

n},表示归一化后的相应特征;和分别表示的经验均值和方差。3.根据权利要求2所述的一种基于多组学数据融合的癌症分型方法,其特征在于,步骤二中,第l种组学数据的相似性矩阵W
l
中的矩阵元素表示记为,表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的相似性,其计算公式如下:式中,表示第j个样本的第l种组学数据,j∈{1,2,

n};σ
i
表示第i个样本的局部密度;σ
j
表示第j个样本的局部密度;表示第i个样本的第l种组学数据与第j个样本的第l种组学数据之间的欧氏距离;其中,局部密度σ
i
、σ
j
的计
算公式分别如下:式中,表示对利用KNN算法得到的的k个邻居,记为集合;其中,,的取值范围为,z的取值范围为集合,其中;表示对利用KNN算法得...

【专利技术属性】
技术研发人员:马韵洁夏莎莎王飞王佐成吴艳平
申请(专利权)人:数据空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1