【技术实现步骤摘要】
基于多距离谱嵌入融合的单细胞甲基化数据聚类方法
[0001]本专利技术属于生物信息数据
,更为具体地讲,涉及一种基于多距离谱嵌入融合的单细胞甲基化数据聚类方法。
技术介绍
[0002]目前,作为单细胞测序技术在表观遗传组学中应用的研究热点之一,单细胞甲基化数据由于其自身的稀疏性和随机测量等问题,其聚类分析一直比较困难。但是理解表观遗传组学在单细胞中的机制对于理解细胞分化和变异具有重要意义,因此需要对开发新的方法来实现对单细胞甲基化数据的聚类。
[0003]传统的单细胞甲基化数据聚类主要基于两种思路,一种是首先通过与细胞单个CpG位点(胞嘧啶
‑
磷酸
‑
鸟嘌呤位点,即DNA序列中胞嘧啶后紧连鸟嘌呤的位点)相关的信息来预测未被测得的位点甲基化状态值,然后基于预测的结果进行聚类分析,这种方式需要一定的先验知识并且聚类结果受预测性能的影响较大;另一种则是通过计算任意细胞对之间公共位点所描述的某一甲基化状态距离矩阵,然后对该矩阵实施层次聚类来获得细胞的距离结果,这种方式虽然不需要预先对 ...
【技术保护点】
【技术特征摘要】
1.一种基于多距离谱嵌入融合的单细胞甲基化数据聚类方法,其特征在于,包括以下步骤:S1:获取待聚类的N个细胞的单细胞甲基化数据,记细胞i对应的甲基化数据为X
′
i
,i=1,2,
…
,N;对每个单细胞的甲基化数据X
′
i
进行二值化预处理,得到二值化后的甲基化数据X
i
;S2:对于步骤S1得到的单细胞甲基化数据,计算任意两个单细胞甲基化数据X
i
和X
j
之间的余弦距离DM1(X
i
,X
j
)、海明距离DM2(X
i
,X
j
)和皮尔逊距离DM3(X
i
,X
j
),i,j=1,2,
…
,N,构成N阶的余弦距离矩阵DM1、海明距离矩阵DM2和皮尔逊距离矩阵DM3;S3:利用光谱嵌入方法,分别获取步骤S2获得的三个距离矩阵对应的低维谱嵌入表示矩阵,具体方法如下:首先分别根据余弦距离矩阵DM1、海明距离矩阵DM2和皮尔逊距离矩阵DM3生成每个距离矩阵对应的加权图G
p
,p=1,2,3,具体方法为:将所有细胞作为加权图G
p
的顶点,根据距离矩阵DM
p
获得每个细胞i的K个最近邻居集合φ
i
,K的值根据实际情况设置,判断细胞之间的相邻情况:如果细胞i和细胞j不互为最近邻居,即或则认为细胞i和细胞j不相邻,如果细胞i和细胞j互为最近邻居,即i∈φ
j
且j∈φ
i
,则认为细胞i和细胞j相邻;然后采用热内核函数为每条边分配权重计算公式如下:其中,e表示自然常数;根据加权图G
p
得到加权邻接矩阵W
p
;然后对3个加权邻接矩阵W
p
进行谱嵌入,生成3个基本距离矩阵DM
p
对应的低维谱嵌入表示矩阵:其中,y
pi
=(y
pi1
,y
pi2
,
…
,y
piR
)表示Y
p
中第i个细胞对应的嵌入向量,y
pir
表示嵌入向量y
pi
中的第r个特征值,r=1,2,
…
,R,R表示嵌入维度;S4:将步骤S3获得的3个低维谱嵌入表示矩阵Y
p
按列合并生成一个N
×
3R的特征矩阵FM=[Y
1 Y
2 Y3],然后将特征矩阵FM中的第...
【专利技术属性】
技术研发人员:凡时财,田奇,邹见效,徐红兵,
申请(专利权)人:电子科技大学深圳高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。