基于多组学数据的癌症分类方法、系统及电子设备技术方案

技术编号：40482369 阅读：9 留言：0更新日期：2024-02-26 19:16

本发明专利技术涉及医疗数据分析技术领域，公开了基于多组学数据的癌症分类方法、系统及电子设备。该方法首先获取不同样本的多种组学数据；构建每种组学数据的样本加权相似度矩阵；根据各样本的特征向量和每种组学数据的样本加权相似度矩阵构建图数据；再将图数据输入至图注意力网络中，融合邻居节点信息，更新节点的向量表示；随后将图注意力网络最后一层的隐藏层输出送入深度神经网络，将特征维度投影到分类数目上，从而构建分类器以得到每种组学数据的基础预测结果；最后将多种组学数据的基础预测结果视为不同视图下的预测，利用注意力机制计算得到每个分类器预测结果的权重，加权融合得到最终预测结果。本发明专利技术提升了癌症类型识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医疗数据分析，具体是基于多组学数据的癌症分类方法，以及应用这种方法的癌症分类系统以及电子设备。

技术介绍

1、随着组学技术的快速发展，可以获取临床患者更为详细的生物医学数据。虽然每种组学技术只能捕捉到生物复杂性的一部分，但整合多种类型的组学数据可以更全面的揭示潜在生物过程，综合利用多组学数据建模能够更全面的探索人类疾病规律，提高患者临床结果预测的准确性。

2、如何有效地利用多组学数据中的相互作用和互补信息是一个挑战。对于多组学数据建模，若直接将特征向量拼接，不仅会忽略不同类别组学数据之间的内在关联，还会导致特征维度升高，导致维度灾难。现有方法对多组学数据进行融合，一般是在输入空间或低维特征空间进行融合。利用无监督方式获取多组学数据融合后的低维表示，用于下游任务的聚类或分类任务。这种方式没有充分利用标签的信息。同时，若只用样本每种组学数据的表达谱数据进行建模，会忽略了样本内部关联，从而限制了癌症类型识别的准确性。

技术实现思路

1、为了避免和克服现有技术中存在的技术问题，本专利技术提供了基于多组学数据的癌症分类方法、系统及电子设备。不仅利用了样本的特征还利用了样本之间的内在联系，通过图神经网络对样本内在信息进行融合，提升了癌症类型识别的准确性。通过利用注意力机制，自适应的计算每个分类器在最终结果预测中的权重，进一步提升了癌症分类效果。

2、为实现上述目的，本专利技术提供如下技术方案：

3、本专利技术公开基于多组学数据的癌症分类方法，包括以下步骤s1~s6。

4、s1.获取不同患者癌细胞即样本的多种组学数据。

5、s2.构建每种组学数据的样本加权相似度矩阵 s’，包括以下过程：

6、将每个样本作为节点，将各样本的同一种组学数据作为各样本的特征向量，根据特征向量计算样本间的相似度，从而得到 s’。

7、s3.根据各样本的每种组学数据与对应的样本加权相似度矩阵，构建用于训练的图数据；表示节点集合即样本集合；表示由样本加权相似度矩阵 s’得到的邻接矩阵；表示特征向量。

8、s4.将每种组学的图数据输入至对应的图注意力网络中，融合邻居节点信息，更新节点的向量表示。

9、s5.将图注意力网络最后一层的隐藏层输出送入深度神经网络，将特征维度投影到分类数目上，从而构建分类器以得到每种组学数据的基础预测结果。

10、s6.将多种组学数据的基础预测结果视为不同视图下的预测，利用注意力机制计算得到每个分类器预测结果的权重，加权融合得到最终预测结果。

11、作为上述方案的进一步改进，步骤s4具体包括以下过程：

12、s41.设目标节点 v i，其邻居节点 v j到 v i的注意力权重 e ij为：

13、

14、式中， α用于计算目标节点与邻居节点的相似度； h i表示目标节点 v i的特征向量； h j表示目标节点 v i的邻居节点 v j的特征向量； w表示图注意力网络的参数。

15、s42.利用以下公式计算简化注意力权重：

16、

17、式中， α（ l）是第 l层可训练的权重向量； l表示图神经网络的第 l层；leakrelu表示激活函数；表示图神经网络的第 l-1层邻居节点 v j的特征向量；表示第 l层目标节点 v i到邻居节点 v j的注意力权重。

18、s43.对所述简化注意力权重进行归一化处理，得到注意力系数：

19、

20、式中，表示目标节点 v i的邻居节点集合； v r表示邻居节点集合中的任意一个邻居节点；表示第 l层目标节点 v i到邻居节点 v r的注意力权重；表示图注意力网络第 l层目标节点 v i到邻居节点 v j之间的注意力系数。

21、s44.根据注意力系数对所有邻居节点进行聚合，得到目标节点的特征向量：

22、

23、式中，表示图注意力网络第 l层目标节点 v i的特征向量；表示图注意力网络第 l层目标节点 v i与邻居节点 v r之间的注意力系数； w( l)为第 l层的可训练权重参数；表示图神经网络的第 l-1层邻居节点 v r的特征向量 relu表示激活函数。

24、作为上述方案的进一步改进，步骤s6中，组学数据共 q种， q种组学数据的基础预测结果为；利用注意力机制计算得到每个分类器预测结果的权重：

25、

26、接着，得到最终预测结果本文档来自技高网...

【技术保护点】

1.基于多组学数据的癌症分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多组学数据的癌症分类方法，其特征在于，步骤S4具体包括以下过程：

3.根据权利要求2所述的基于多组学数据的癌症分类方法，其特征在于，步骤S6中，组学数据共q种，q种组学数据的基础预测结果为；利用注意力机制计算得到每个分类器预测结果的权重：

4.根据权利要求3所述的基于多组学数据的癌症分类方法，其特征在于，基础预测结果和最终预测结果的总损失L为：

5.根据权利要求1所述的基于多组学数据的癌症分类方法，其特征在于，步骤S1中，对原始获取的组学数据进行预处理，具体过程包括：

6.根据权利要求5所述的基于多组学数据的癌症分类方法，其特征在于，对原始获取的组学数据进行预处理的具体过程还包括：

7.根据权利要求6所述的基于多组学数据的癌症分类方法，其特征在于，在对获取的组学数据进行预处理之后，还进行以下特征筛选工作：

8.根据权利要求1所述的基于多组学数据的癌症分类方法，其特征在于，步骤S2中，先根据特征向量计算样本间的

9.基于多组学数据的癌症分类系统，其特征在于，应用如权利要求1至8中任一项所述的基于多组学数据的癌症分类方法；所述癌症分类系统包括：

10.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至8中任意一项所述的基于多组学数据的癌症分类方法的步骤。

...

【技术特征摘要】

1.基于多组学数据的癌症分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多组学数据的癌症分类方法，其特征在于，步骤s4具体包括以下过程：

3.根据权利要求2所述的基于多组学数据的癌症分类方法，其特征在于，步骤s6中，组学数据共q种，q种组学数据的基础预测结果为；利用注意力机制计算得到每个分类器预测结果的权重：

4.根据权利要求3所述的基于多组学数据的癌症分类方法，其特征在于，基础预测结果和最终预测结果的总损失l为：

5.根据权利要求1所述的基于多组学数据的癌症分类方法，其特征在于，步骤s1中，对原始获取的组学数据进行预处理，具体过程包括：

6.根据权利要求5所述的基于多组学数据的癌症分类方法，其特征在于，对原始获取的组学数据进行预处理的具体过程还包括：

...

【专利技术属性】
技术研发人员：马韵洁，常静怡，王佐成，宋国磊，吴艳平，王飞，
申请(专利权)人：数据空间研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人