当前位置: 首页 > 专利查询>武汉大学专利>正文

一种单细胞聚类方法、装置、设备及可读存储介质制造方法及图纸

技术编号:33041316 阅读:13 留言:0更新日期:2022-04-15 09:22
本发明专利技术提供一种单细胞聚类方法、装置、设备及可读存储介质。该方法包括:基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P;基于分布Q与目标分布P构造第一损失函数;对样本特征矩阵进行降维,得到降维后的样本特征矩阵;将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块,得到概率矩阵;基于目标分布P和概率矩阵构造第二损失函数;根据第一损失函数和第二损失函数得到新的概率矩阵;从新的概率矩阵中获取单细胞样本点的聚类结果。通过本发明专利技术,降维后的样本特征矩阵在低通滤波图卷积模块传输的过程中同一簇类的特征表示变得更光滑,使得从新的概率矩阵中获取单细胞样本点的聚类结果更好。本点的聚类结果更好。本点的聚类结果更好。

【技术实现步骤摘要】
一种单细胞聚类方法、装置、设备及可读存储介质


[0001]本专利技术涉及数据聚类
,尤其涉及一种单细胞聚类方法、装置、设备及可读存储介质。

技术介绍

[0002]单细胞RNA测序(scRNA

seq)技术是对每一个细胞的RNA进行测序,得到所有基因在该细胞的表达量。在scRNA

seq数据中,细胞的每一个基因的表达量都可视为该细胞的一个特征,而从scRNA

seq数据中挖掘生物信息的关键步骤是将生命状态、生物功能功能相似的细胞聚类成一个集群。
[0003]随着深度学习的发展,一些基于深度学习的聚类方法被提出来,但是目前的聚类方法缺少对细胞之间结构信息的挖掘,且面对大量、高维和/或携带大量噪声的scRNA

seq数据,聚类效果不佳。

技术实现思路

[0004]本专利技术的主要目的在于提供一种单细胞聚类方法、装置、设备及可读存储介质,旨在优化聚类方法,以得到更佳的聚类效果。
[0005]第一方面,本专利技术提供一种单细胞聚类方法,所述单细胞聚类方法包括:
[0006]基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P;
[0007]基于分布Q与目标分布P构造第一损失函数;
[0008]对样本特征矩阵进行降维,得到降维后的样本特征矩阵;
[0009]将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块,得到概率矩阵;
[0010]基于目标分布P和概率矩阵构造第二损失函数;
[0011]根据第一损失函数和第二损失函数得到新的概率矩阵;
[0012]从新的概率矩阵中获取单细胞样本点的聚类结果。
[0013]可选的,在所述基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P的步骤之前,还包括:
[0014]获取样本特征矩阵;
[0015]运用K最近邻分类算法对样本特征矩阵进行构图,得到连接矩阵;
[0016]将样本矩阵和连接矩阵传入初始图自编码器模块,得到重构的样本特征矩阵以及重构的连接矩阵;
[0017]根据样本特征矩阵、连接矩阵、重构的样本特征矩阵以及重构的连接矩阵对初始图自编码器模块进行训练,得到图自编码器模块;
[0018]将样本矩阵和连接矩阵传入图自编码器模块,通过K均值聚类得到簇中心;
[0019]计算单细胞样本点和簇中心的相似度。
[0020]可选的,所述根据样本特征矩阵、连接矩阵、重构的样本特征矩阵以及重构的连接矩阵对初始图自编码器模块进行训练,得到图自编码器模块的步骤,包括:
[0021]基于样本特征矩阵和重构的样本特征矩阵得到第三损失函数;
[0022]基于连接矩阵和重构的连接矩阵得到第四损失函数;
[0023]根据第三损失函数和第四损失函数对初始图自编码器模块进行训练,得到图自编码器模块。
[0024]可选的,所述基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P的步骤,包括:
[0025]基于单细胞样本点和簇中心的相似度得到分布Q,其中,Q=[q
ie
],q
ie
是单细胞样本点h
i
和簇中心u
e
的相似度;
[0026]基于分布Q得到目标分布P,其中,P=[p
ie
],f
e
=∑
i
q
ie
,f
e
是簇别e的频率,p
ie
是单细胞样本点h
i
和簇中心u
e
的目标相似度。
[0027]可选的,所述基于分布Q与目标分布P构造第一损失函数的步骤,包括:
[0028]构造第一损失函数L
clu
为分布Q与目标分布P的KL散度,其中,q
ie
是单细胞样本点h
i
和簇中心u
e
的相似度,p
ie
是单细胞样本点h
i
和簇中心u
e
的目标相似度。
[0029]可选的,所述对样本特征矩阵进行降维,得到降维后的样本特征矩阵的步骤,包括:
[0030]使用全连接神经网络将n*d维的样本特征矩阵降维成n*m维的样本特征矩阵,其中,Z
(0)
=ReLU(WX+b),ReLU为非线性激活函数,W为权重矩阵,b为偏置项,X为样本矩阵,Z
(0)
为降维后的样本特征矩阵。
[0031]可选的,所述将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块,得到概率矩阵的步骤,包括:
[0032]将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块进行传播,传播公式如下:
[0033][0034]其中,Z
(k)
是第k层的样本特征矩阵,α
k
、β
k
以及ω
k
是第k层超参数,Z
(0)
是降维后的样本特征矩阵,A是连接矩阵,是对样本特征矩阵进行构图后的度矩阵加上一个N阶单位矩阵,I
N
是N阶单位矩阵,W
1(k)
和W
2(k)
是第k层的可学习参数矩阵;
[0035]将传播中的最后一层输入全连接层,再经过softmax层得到概率矩阵Z,其中,Z=softmax(W
(K+1)
Z
(K+1)
+b
(K+1)
),Z
(K+1)
为传播中的最后一层,b
(K+1)
为传播中的最后一层的偏置项,W
(K+1)
为传播中的最后一层的可学习参数矩阵。
[0036]第二方面,本专利技术还提供一种单细胞聚类装置,所述单细胞聚类装置包括:
[0037]第一构造模块,用于基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P;
[0038]第二构造模块,用于基于分布Q与目标分布P构造第一损失函数;
[0039]降维模块,用于对样本特征矩阵进行降维,得到降维后的样本特征矩阵;
[0040]传输模块,用于将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块,得到概率矩阵;
[0041]第三构造模块,用于基于目标分布P和概率矩阵构造第二损失函数;
[0042]训练模块,用于根据第一损失函数和第二损失函数得到新的概率矩阵;
[0043]获取模块,用于从新的概率矩阵中获取单细胞样本点的聚类结果。
[0044]第三方面,本专利技术还提供一种单细胞聚类设备,所述单细胞聚类设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的单细胞聚类程序,其中所述单细胞聚类程序被所述处理器执行时,实现如上所述的单细胞聚类方法的步骤。
[0045]第四方面,本专利技术还提供一种可读存储介质,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单细胞聚类方法,其特征在于,所述单细胞聚类方法包括:基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P;基于分布Q与目标分布P构造第一损失函数;对样本特征矩阵进行降维,得到降维后的样本特征矩阵;将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块,得到概率矩阵;基于目标分布P和概率矩阵构造第二损失函数;根据第一损失函数和第二损失函数得到新的概率矩阵;从新的概率矩阵中获取单细胞样本点的聚类结果。2.如权利要求1所述的单细胞聚类方法,其特征在于,在所述基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P的步骤之前,还包括:获取样本特征矩阵;运用K最近邻分类算法对样本特征矩阵进行构图,得到连接矩阵;将样本矩阵和连接矩阵传入初始图自编码器模块,得到重构的样本特征矩阵以及重构的连接矩阵;根据样本特征矩阵、连接矩阵、重构的样本特征矩阵以及重构的连接矩阵对初始图自编码器模块进行训练,得到图自编码器模块;将样本矩阵和连接矩阵传入图自编码器模块,通过K均值聚类得到簇中心;计算单细胞样本点和簇中心的相似度。3.如权利要求2所述的单细胞聚类方法,其特征在于,所述根据样本特征矩阵、连接矩阵、重构的样本特征矩阵以及重构的连接矩阵对初始图自编码器模块进行训练,得到图自编码器模块的步骤,包括:基于样本特征矩阵和重构的样本特征矩阵得到第三损失函数;基于连接矩阵和重构的连接矩阵得到第四损失函数;根据第三损失函数和第四损失函数对初始图自编码器模块进行训练,得到图自编码器模块。4.如权利要求1所述的单细胞聚类方法,其特征在于,所述基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P的步骤,包括:基于单细胞样本点和簇中心的相似度得到分布Q,其中,Q=[q
ie
],q
ie
是单细胞样本点h
i
和簇中心u
e
的相似度;基于分布Q得到目标分布P,其中,P=[p
ie
],f
e
=∑
i
q
ie
,f
e
是簇别e的频率,p
ie
是单细胞样本点h
i
和簇中心u
e
的目标相似度。5.如权利要求1所述的单细胞聚类方法,其特征在于,所述基于分布Q与目标分布P构造第一损失函数的步骤,包括:构造第一损失函数L
clu
为分布Q与目标分布P的KL散度,其中,q
ie
是单细胞样本点h
i
和簇中心u
e
的相似度,p
ie
是单细胞样本点h
i
和簇中心u
e

【专利技术属性】
技术研发人员:杜博廖明辉罗甫林张乐飞
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1