System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于图自编码器的单细胞RNA测序数据聚类方法及系统技术方案_技高网

一种基于图自编码器的单细胞RNA测序数据聚类方法及系统技术方案

技术编号:40200615 阅读:11 留言:0更新日期:2024-01-27 00:05
一种基于图自编码器的单细胞RNA测序数据聚类方法及系统,它属于深度学习和生物信息领域。本发明专利技术解决了现有聚类方法没有深入考虑细胞与细胞之间的关系,导致对单细胞RNA测序数据的聚类精度低的问题。本发明专利技术采用特征自编码器进行数据特征的提取并采用KNN算法构成图,作为后续图自编码器的输入,从图的角度出发考虑细胞间的关系,而不是传统的仅仅考虑一个个孤立的点;引入了基于GAT的图自编码器进行图重构效果的优化,自适应地计算每个图节点的邻居节点的权重,从而抽象出细胞之间的高阶关系。本发明专利技术可以应用于单细胞RNA测序数据聚类。

【技术实现步骤摘要】

本专利技术属于深度学习和生物信息领域,具体涉及一种基于图自编码器的单细胞rna测序数据聚类方法及系统。


技术介绍

1、rna-seq技术是一种新兴的致力于数据分析的高通量测序技术,其主要任务在于得到rna样本中的转录本表达量和剪接变异等信息的测量数据。单细胞rna测序(scrna-seq)是rna-seq技术中的一个分支,它的主要功能是对单细胞中的rna数据进行测试。通过这种技术,单细胞rna测序技术具有更高的分辨率和更加准确的细胞类型鉴定,可以检测到不同细胞之间的异质性和细胞状态的变化,从而更好地理解生物学过程。例如,单细胞rna-seq技术可以对阿尔兹海默症的患者大脑中如细胞神经元、少突胶质细胞、微胶质细胞等不同的细胞类型的基因表达谱进行高通量测序,分析其基因表达谱的变化,探究阿尔兹海默症的发病机制中的关键基因,为阿尔兹海默症的早期诊断和治疗提供新的思路和方法。

2、通过聚类算法可以很方便的使用图像的方式对单细胞rna测序数据进行分析,解释各个细胞类型及其亚型所占有的比例。目前的聚类方法主要是基于距离的k-means聚类方法,但是,对于一般的k-means算法可能需要采用随机化算法确定中心点,这种随机算法也许会导致聚类结果依赖于随机性,具有不稳定的特征,并且这种算法的收敛速度会比较慢。为了改善这一问题,又提出了一种改进k-means plus算法,通过查找方法来初始化中心点,可以更快地收敛和更稳定地产生结果。但这些方法都没有深入考虑细胞与细胞之间的关系,没有通过细胞图,特别是赋予关系密切的细胞间更大边权重的细胞图来进行聚类,这就导致无法真正揭示出细胞各个类型以及各个亚型的异质性,导致利用现有聚类方法对单细胞rna测序数据的聚类精度较低。


技术实现思路

1、本专利技术的目的是为解决现有聚类方法没有深入考虑细胞与细胞之间的关系,导致对单细胞rna测序数据的聚类精度低的问题,而提出了一种基于图自编码器的单细胞rna测序数据聚类方法及系统。

2、本专利技术为解决上述技术问题所采取的技术方案是:

3、一种基于图自编码器的单细胞rna测序数据聚类方法,所述方法具体包括以下步骤:

4、步骤一、对单细胞rna测序数据集进行过滤和排序,得到筛选后的单细胞rna测序数据;

5、并对筛选后的单细胞rna测序数据进行归一化操作,得到归一化后的单细胞rna测序数据;

6、步骤二、基于无监督的特征自编码器对归一化后的数据进行处理,得到特征自编码器输出的特征向量;

7、步骤三、对特征自编码器输出的特征向量进行规范化处理,得到规范化处理后的特征向量,并将规范化处理后的特征向量转化为图的邻接矩阵;

8、将邻接矩阵输入基于gat的图自编码器和自解码器中进行重构,得到重构后的邻接矩阵;

9、步骤四、根据重构后的邻接矩阵对各个节点进行初步聚类,得到初始聚类结果;再采用k-means聚类方法对初始聚类结果进行二次聚类,得到二次聚类结果;

10、对二次聚类后得到的各类细胞分别建立聚类自编码器,获得最终的细胞聚类结果。

11、进一步地,所述步骤一中,对单细胞rna测序数据集进行过滤和排序,得到筛选后的单细胞rna测序数据;具体为:

12、对单细胞rna测序数据集中的细胞和基因进行质量控制,得到过滤后剩余的细胞和基因;对于过滤后剩余的任一细胞,分别计算该细胞中剩余的每个基因的表达量占该细胞表达量的比例,对各基因对应的比例进行降序排列,筛选出排在前2000位的基因作为筛选后该细胞的rna测序数据;同理,对过滤后剩余的每个细胞分别进行处理,得到过滤后剩余的每个细胞的rna测序数据。

13、进一步地,所述对细胞进行质量控制是基于细胞的表达特征、基因表达量和基因覆盖度来实现的;

14、对基因进行质量控制是基于基因表达量、基因覆盖度和基因检测率来实现的。

15、进一步地,所述对筛选后的单细胞rna测序数据进行归一化操作采用的是对数变换的方式。

16、进一步地,所述特征自编码器的编码器包括两个全连接层,每个全连接层中均进行线性变换和非线性激活,且解码器的结构与编码器的结构相同;

17、输入数据x经过编码器后,通过编码器输出特征向量z;将特征向量z作为解码器的输入,通过解码器对输入数据x进行重构,得到重构结果。

18、进一步地,所述特征自编码器的训练过程为:

19、步骤二一、对类别已知的单细胞rna测序数据进行步骤一的处理,再将归一化后的数据分为若干个批次;

20、步骤二二、再将归一化后的数据转换为浮点型,将转换后的数据作为输入数据分批次输入到特征自编码器进行编码和解码,得到编码器的输出和解码器重构出的数据;

21、步骤二三、根据重构数据和输入数据计算损失、使用反向传播算法计算梯度、并使用adam优化器更新模型参数。

22、进一步地,所述对特征自编码器输出的特征向量进行规范化处理采用的是二值化的方式。

23、进一步地,所述将规范化处理后的特征向量转化为图的邻接矩阵,采用的是加权knn算法。

24、进一步地,所述将邻接矩阵输入基于gat的图自编码器和自解码器中进行重构,得到重构后的邻接矩阵;具体为:

25、步骤三一、使用dropout对邻接矩阵进行正则化处理,得到处理后的邻接矩阵;

26、步骤三二、构建包括输入层、第一gat层、第二gat层、第三gat层和输出层的图自编码器,步骤三一中处理后的邻接矩阵通过输入层输入到图自编码器后,再依次经过第一gat层、第二gat层和第三gat层;

27、其中,第一gat层的工作过程为:

28、根据输入的处理后邻接矩阵计算节点i和节点j之间的注意力权重aij:

29、aij=softmax(leakyrelu(at[whi|whj]))

30、其中,leakyrelu表示带有负斜率的relu激活函数,whi|whj代表将二者进行拼接,at表示把拼接后的高维特征映射到一个实数,softmax函数为归一化函数,hj表示节点j的特征向量,hi表示节点i的特征向量,w表示权重矩阵;

31、根据注意力权重aij与邻居节点j的特征向量进行加权求和,得到节点i的新特征向量:

32、

33、其中,h′i表示节点i的新特征向量,hj表示节点j的特征向量,ni表示节点i的邻居节点集合,σ表示激活函数;

34、再将节点i的新特征向量h′i作为第二gat层的输入,经过第二gat层的处理得到节点i的新特征向量h″i,再将新特征向量h″i作为第三gat层的输入,经过第三gat层的处理得到节点i的新特征向量h″′i;

35、新特征向量h″′i通过输出层传输到图自解码器;

36、步骤三三、图自解码器接受图自编码器输出的新特征向量后,对新特征向量进行dro本文档来自技高网...

【技术保护点】

1.一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述方法具体包括以下步骤:

2.根据权利要求1所述的一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述步骤一中,对单细胞RNA测序数据集进行过滤和排序,得到筛选后的单细胞RNA测序数据;具体为:

3.根据权利要求2所述的一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述对细胞进行质量控制是基于细胞的表达特征、基因表达量和基因覆盖度来实现的;

4.根据权利要求3所述的一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述对筛选后的单细胞RNA测序数据进行归一化操作采用的是对数变换的方式。

5.根据权利要求4所述的一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述特征自编码器的编码器包括两个全连接层,每个全连接层中均进行线性变换和非线性激活,且解码器的结构与编码器的结构相同;

6.根据权利要求5所述的一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述对特征自编码器输出的特征向量进行规范化处理采用的是二值化的方式。

7.根据权利要求6所述的一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述将规范化处理后的特征向量转化为图的邻接矩阵,采用的是加权KNN算法。

8.根据权利要求7所述的一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述将邻接矩阵输入基于GAT的图自编码器和自解码器中进行重构,得到重构后的邻接矩阵;具体为:

9.根据权利要求8所述的一种基于图自编码器的单细胞RNA测序数据聚类方法,其特征在于,所述步骤四的具体过程为:

10.一种基于图自编码器的单细胞RNA测序数据聚类系统,其特征在于,所述系统包括数据预处理模块、特征自编码器模块、特征处理模块、基于GAT的网络模块和聚类模块;

...

【技术特征摘要】

1.一种基于图自编码器的单细胞rna测序数据聚类方法,其特征在于,所述方法具体包括以下步骤:

2.根据权利要求1所述的一种基于图自编码器的单细胞rna测序数据聚类方法,其特征在于,所述步骤一中,对单细胞rna测序数据集进行过滤和排序,得到筛选后的单细胞rna测序数据;具体为:

3.根据权利要求2所述的一种基于图自编码器的单细胞rna测序数据聚类方法,其特征在于,所述对细胞进行质量控制是基于细胞的表达特征、基因表达量和基因覆盖度来实现的;

4.根据权利要求3所述的一种基于图自编码器的单细胞rna测序数据聚类方法,其特征在于,所述对筛选后的单细胞rna测序数据进行归一化操作采用的是对数变换的方式。

5.根据权利要求4所述的一种基于图自编码器的单细胞rna测序数据聚类方法,其特征在于,所述特征自编码器的编码器包括两个全连接层,每个全连接层中均进行线性变换和非线性激活,且解码器的结构与编码器...

【专利技术属性】
技术研发人员:徐丽薛同马鸣霄李振鹏任佳旭王莉雯
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1