基于多距离谱嵌入融合的单细胞甲基化数据聚类方法技术

技术编号:32968981 阅读:27 留言:0更新日期:2022-04-09 11:30
本发明专利技术公开了一种基于多距离谱嵌入融合的单细胞甲基化数据聚类方法,获取待聚类的细胞的单细胞甲基化数据并进行二值化处理,根据得到的单细胞甲基化数据计算得到细胞之间的余弦距离矩阵、海明距离矩阵和皮尔逊距离矩阵,利用光谱嵌入方法根据三个距离矩阵获取细胞的三个低维谱嵌入表示矩阵,将三个低维谱嵌入表示矩阵按列合并得到特征矩阵,将特征矩阵中的行向量作为细胞的特征表示向量,两两计算细胞间特征表示向量之间的欧氏距离,得到甲基化距离矩阵,基于甲基化距离矩阵进行层次聚类,获取细胞聚类结果。本发明专利技术通过融合多个距离矩阵的低维谱嵌入成分,提升了单细胞甲基化数据聚类的准确性。数据聚类的准确性。数据聚类的准确性。

【技术实现步骤摘要】
基于多距离谱嵌入融合的单细胞甲基化数据聚类方法


[0001]本专利技术属于生物信息数据
,更为具体地讲,涉及一种基于多距离谱嵌入融合的单细胞甲基化数据聚类方法。

技术介绍

[0002]目前,作为单细胞测序技术在表观遗传组学中应用的研究热点之一,单细胞甲基化数据由于其自身的稀疏性和随机测量等问题,其聚类分析一直比较困难。但是理解表观遗传组学在单细胞中的机制对于理解细胞分化和变异具有重要意义,因此需要对开发新的方法来实现对单细胞甲基化数据的聚类。
[0003]传统的单细胞甲基化数据聚类主要基于两种思路,一种是首先通过与细胞单个CpG位点(胞嘧啶

磷酸

鸟嘌呤位点,即DNA序列中胞嘧啶后紧连鸟嘌呤的位点)相关的信息来预测未被测得的位点甲基化状态值,然后基于预测的结果进行聚类分析,这种方式需要一定的先验知识并且聚类结果受预测性能的影响较大;另一种则是通过计算任意细胞对之间公共位点所描述的某一甲基化状态距离矩阵,然后对该矩阵实施层次聚类来获得细胞的距离结果,这种方式虽然不需要预先对单位点的甲基化水平进本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多距离谱嵌入融合的单细胞甲基化数据聚类方法,其特征在于,包括以下步骤:S1:获取待聚类的N个细胞的单细胞甲基化数据,记细胞i对应的甲基化数据为X

i
,i=1,2,

,N;对每个单细胞的甲基化数据X

i
进行二值化预处理,得到二值化后的甲基化数据X
i
;S2:对于步骤S1得到的单细胞甲基化数据,计算任意两个单细胞甲基化数据X
i
和X
j
之间的余弦距离DM1(X
i
,X
j
)、海明距离DM2(X
i
,X
j
)和皮尔逊距离DM3(X
i
,X
j
),i,j=1,2,

,N,构成N阶的余弦距离矩阵DM1、海明距离矩阵DM2和皮尔逊距离矩阵DM3;S3:利用光谱嵌入方法,分别获取步骤S2获得的三个距离矩阵对应的低维谱嵌入表示矩阵,具体方法如下:首先分别根据余弦距离矩阵DM1、海明距离矩阵DM2和皮尔逊距离矩阵DM3生成每个距离矩阵对应的加权图G
p
,p=1,2,3,具体方法为:将所有细胞作为加权图G
p
的顶点,根据距离矩阵DM
p
获得每个细胞i的K个最近邻居集合φ
i
,K的值根据实际情况设置,判断细胞之间的相邻情况:如果细胞i和细胞j不互为最近邻居,即或则认为细胞i和细胞j不相邻,如果细胞i和细胞j互为最近邻居,即i∈φ
j
且j∈φ
i
,则认为细胞i和细胞j相邻;然后采用热内核函数为每条边分配权重计算公式如下:其中,e表示自然常数;根据加权图G
p
得到加权邻接矩阵W
p
;然后对3个加权邻接矩阵W
p
进行谱嵌入,生成3个基本距离矩阵DM
p
对应的低维谱嵌入表示矩阵:其中,y
pi
=(y
pi1
,y
pi2
,

,y
piR
)表示Y
p
中第i个细胞对应的嵌入向量,y
pir
表示嵌入向量y
pi
中的第r个特征值,r=1,2,

,R,R表示嵌入维度;S4:将步骤S3获得的3个低维谱嵌入表示矩阵Y
p
按列合并生成一个N
×
3R的特征矩阵FM=[Y
1 Y
2 Y3],然后将特征矩阵FM中的第...

【专利技术属性】
技术研发人员:凡时财田奇邹见效徐红兵
申请(专利权)人:电子科技大学深圳高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1