基于深度图切割的scRNA-seq数据聚类方法及装置制造方法及图纸

技术编号：40379177 阅读：8 留言：0更新日期：2024-02-20 22:17

本发明专利技术公开了一种基于深度图切割的scRNA‑seq数据聚类方法及装置，该方法包括：对原始的scRNA‑seq计数矩阵进行预处理，得到原始数据X，并分别构建所述原数数据X的协调协同图和垂直融合图；基于自动编码器提取原始数据X的表征矩阵H，并计算重构损失；结合表征矩阵H最小化协调协同图和垂直融合图的联合归一化切，以得到NCut损失；根据表征矩阵H进行基于最佳传输的自监督聚类，并计算聚类损失；联合重构损失、NCut损失以及聚类损失进行参数更新后，得到原始数据X的聚类结果。本发明专利技术可以解决scRNA‑seq实验中数据成指数增长带来的挑战，并获得更好的聚类精度。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及生物信息，尤其涉及一种基于深度图切割的scrna-seq数据聚类方法及装置。

技术介绍

1、随着高通量测序技术的不断进步，单细胞全基因组的转录组测序(scrna-seq)技术已经成为生命科学领域的一项革命性技术。它使研究人员能够在单个细胞水平上探测基因表达的微小差异，从而揭示了细胞群体内的多样性和异质性。然而，scrna-seq数据受到多种因素的影响，包括扩增偏差、细胞周期效应以及外部环境干扰等，导致数据中存在大量的信息丢失并包含了大量的噪声。此外，由于scrna-seq数据通常具有高维度、高稀疏性和非线性的特点，进而增加了数据处理的难度。

2、在对scrna-seq数据的下游分析中，聚类分析扮演了至关重要的角色，对于挖掘scrna-seq数据的基础信息具有关键性作用，例如鉴定种群结构、了解细胞发育轨迹、揭示疾病机制以及识别新的细胞类型和亚型等。举例来说，在细胞发育轨迹的研究中，聚类分析可以帮助研究人员追踪细胞分化的轨迹，揭示驱动组织形成和再生的复杂过程。

3、目前，已经提出了多种针对scrna-seq数据的聚类方法，它们大致可以分为传统的聚类方法、基于深度学习的聚类方法与基于图神经网络的聚类方法。然而，这些方法都面临着不同程度的挑战：1.传统的聚类方法通常先使用pca、umap、t-sne等方法对数据进行降维，再使用k-means聚类、层次聚类等方法进行聚类，其解释在很大程度上依赖于用户主观判断的聚类数量和生物学的先验知识。由于多采用硬聚类算法，使得其难以解决高维度数据带来的挑战以及难以捕获复

4、除此之外，当前的聚类方法通常采用“聚类引导损失函数”的策略，其缺乏对不同类型数据的适应性并过度依赖于预学习的聚类中心，易导致聚类结果退化。此外，随着scrna-seq相关实验中分析的细胞数量呈指数增长，数据量挑战变得越来越严峻。与此同时，生物学领域的大型语言模型的出现为生物信息学提供了新的可能性。

5、在这种背景下，开发一种能够处理大规模数据集且具有高度可扩展性的scrna-seq数据聚类分析方法变得至关重要。

技术实现思路

1、本专利技术提供了一种基于深度图切割的scrna-seq数据聚类方法(简称sccdcg)及装置，该方法是一种能够处理大规模数据集且具有高度可扩展性的scrna-seq数据聚类分析，以根据单个细胞的基因表达谱将其划分为不同的簇或群落，可以有效的解决现有聚类方法面临的挑战，并获得更好的聚类精度。

2、本专利技术的技术方案，包括：

3、一种基于深度图切割的scrna-seq数据聚类方法，包括：

4、对原始的scrna-seq计数矩阵进行预处理，得到原始数据x，并分别构建所述原数数据x的协调协同图和垂直融合图；

5、基于自动编码器提取原始数据x的表征矩阵h，并计算重构损失；

6、结合所述表征矩阵h最小化协调协同图和垂直融合图的联合归一化切，以得到ncut损失；

7、根据所述表征矩阵h进行基于最佳传输的自监督聚类，并计算聚类损失；

8、联合重构损失、ncut损失以及聚类损失进行参数更新后，得到所述原始数据x的聚类结果。

9、进一步地，所述对原始的scrna-seq计数矩阵进行预处理，得到原始数据x，包括：

10、针对原始的scrna-seq计数矩阵，过滤掉在少于a个细胞中表达的基因与基因表达数量少于b个的细胞，以得到原始数据x；其中，a、b为自然数。

11、进一步地，构建所述原始数据x的协调协同图，包括：

12、计算协调协同特征矩阵c＝xxt；其中，所述协同特征矩阵c中的元素cij表示细胞i和细胞j之间的基因表达协方差；

13、利用所述协调协同矩阵c构建协调协同图其中，v是节点集合，每个节点代表一个细胞，ε是边集，ac是协调协同图的邻接矩阵。

14、进一步地，构建所述原始数据x的垂直融合图，包括：

15、计算垂直融合特征矩阵s；其中，所述垂直融合特征矩阵s的元素xi、xj分别表示细胞i和细胞j的基因表达；

16、利用所述垂直融合特征矩阵s构建垂直融合图其中，v是节点集合，每个节点代表一个细胞，ε是边集，as是垂直融合图的邻接矩阵。

17、进一步地，所述基于自动编码器提取原始数据x的表征矩阵h，并计算重构损失，包括：

18、编码器将原始数据x映射为表征矩阵h；

19、解码器将表征矩阵h映射到原始数据的重构矩阵

20、计算重构损失其中，n表示原始数据x中的细胞数量，||·||f表示·的f范式。

21、进一步地，结合所述表征矩阵h最小化协调协同图和垂直融合图的联合归一化切，以得到ncut损失，包括：

22、分别对协调协同特征矩阵和垂直融合特征矩阵做归一化图拉普拉斯处理，得到归一化结果lc和归一化结果ls；

23、联合表征矩阵h、归一化结果lc和归一化结果ls设计优化函数以使表征矩阵h同时利用协调协同图和垂直融合图的信息；其中，α是协调协同图和垂直融合图之间的平衡参数，hth＝i，i为单位矩阵；

24、获取学习过程的ncut损失其中，β、γ是调整参数。

25、进一步地，所述根据所述表征矩阵h进行基于最佳传输的自监督聚类，并计算聚类损失，包括：

26、将学生t分布作为内核来衡量嵌入点hi和聚类中心cj之间的相似度qij；其中，hi＝f(xi)∈h，xi∈x；

27、将聚类结果分布q＝[qij]定义为所有样本分配的分布；

28、在标签分布与混合比例对齐的约束下，构造具有熵约束拉格朗日乘子的优化函数以计算基于最优传输策略的目标分布p；其中，λ是控制簇平衡的平滑参数，h(·)是熵函数；

29、获取学习过程的聚类损失表示最优传输计划矩阵。

30、进一步地，所述联合重构损失、ncut损失以及聚类损失进行参数更新后，得到所述原始数据x的聚类结果，包括：

31、基于重构损失和ncut损失进行若干epoch训练后，应用k-means算法以获得初始质心和簇大小；

32、针对重构损失、ncut损失以及聚类损失各使用若干个epoch来训练，并将最后一个epoch的聚类结果作为所述原始数据x的聚类结果。

33、进一步地，所述方法还包括本文档来自技高网...

【技术保护点】

1.一种基于深度图切割的scRNA-seq数据聚类方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对原始的scRNA-seq计数矩阵进行预处理，得到原始数据X，包括：

3.如权利要求1所述的方法，其特征在于，构建所述原始数据X的协调协同图，包括：

4.如权利要求1所述的方法，其特征在于，构建所述原始数据X的垂直融合图，包括：

5.如权利要求1所述的方法，其特征在于，所述基于自动编码器提取原始数据X的表征矩阵H，并计算重构损失，包括：

6.如权利要求1所述的方法，其特征在于，结合所述表征矩阵H最小化协调协同图和垂直融合图的联合归一化切，以得到NCut损失，包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述表征矩阵H进行基于最佳传输的自监督聚类，并计算聚类损失，包括：

8.如权利要求1所述的方法，其特征在于，所述联合重构损失、NCut损失以及聚类损失进行参数更新后，得到所述原始数据X的聚类结果，包括：

9.如权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

10.一种基于深度图切割的scRNA-seq数据聚类装置，其特征在于，所述装置包括：

...

【技术特征摘要】

1.一种基于深度图切割的scrna-seq数据聚类方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对原始的scrna-seq计数矩阵进行预处理，得到原始数据x，包括：

3.如权利要求1所述的方法，其特征在于，构建所述原始数据x的协调协同图，包括：

4.如权利要求1所述的方法，其特征在于，构建所述原始数据x的垂直融合图，包括：

5.如权利要求1所述的方法，其特征在于，所述基于自动编码器提取原始数据x的表征矩阵h，并计算重构损失，包括：

6.如权利要求1所述的方法，...

【专利技术属性】
技术研发人员：周园春，许萍，王鹏飞，肖濛，宁致远，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人