当前位置: 首页 > 专利查询>四川大学专利>正文

基于谱聚类的染色质拓扑关联结构域预测方法及电子装置制造方法及图纸

技术编号:33349226 阅读:47 留言:0更新日期:2022-05-08 09:51
本发明专利技术公开了一种基于谱聚类的染色质拓扑关联结构域预测方法及电子装置,使用Hi

【技术实现步骤摘要】
基于谱聚类的染色质拓扑关联结构域预测方法及电子装置


[0001]本专利技术涉及生物信息
,具体涉及一种基于谱聚类的染色质拓扑关联结构域预测方法及电子装置。

技术介绍

[0002]DNA的复制、基因调控和基因表达等生物学功能都依赖于染色质三维结构实现。研究表明,特定基因组区域和特定条件下染色体结构的变化与多种人类疾病高度相关,包括癌症、发育过程中肢体畸形和严重的脑部发育异常。因此,研究染色质三维结构对于解释基因的表达和调控等细胞过程,进而指导遗传病相关研究和基因治疗等医学问题方面具有重要价值。
[0003]拓扑关联结构域(Topologically Associated domain,TAD)作为染色质层次结构中的一种,于2012年被首次发现。该区域富集了绝缘子结合蛋白CTCF、管家基因、SINE逆转座子等,在基因调控中发挥关键作用。进一步的研究发现,在苍蝇、蠕虫、真菌和细菌中也检测到类似的结构域。因此,这些区域在细胞分裂中是稳定存在的,在不同细胞系中存在一定的进化保守性。TAD目前已被认为是染色体折叠的基本单位,并被认为是染色体组织中的一个重要二级结构。
[0004]然而,传统生物实验识别TAD区域存在耗时长、花费成本高、实验实施困难等问题。为更好地理解TAD在生物生长发育和遗传过程中发挥的功能,研究者需要可靠的预测模型指导生物实验定位染色质上的TAD区域。
[0005]根据预测模型所用数据的不同,可将该领域已有的计算方法分为两类:基于3C

based数据的预测方法与基于组蛋白修饰信号数据的预测方法。
[0006]基于3C

based数据的预测方法是最早定义和研究染色质拓扑关联结构域的方法,主要利用全基因组范围上的染色质读取段间的交互频次矩阵。依据各读取段的交互频次的差异,对各读取段进行分类,进而获取TAD区域。但本申请专利技术人在实施本专利技术的过程中,发现现有基于3C

based数据的染色体拓扑关联结构域计算方法存在一些不足之处:存在假阳性高、参数选择困难等问题。这类方法的实施可以划分为特征提取、模型构建和结果筛选三个阶段。当前特征提取阶段未能很好提取对应的特征向量来量化染色质读取段交互频次之间的差异。模型阶段由于区域划分的错误,导致结果假阳性过高。结果筛选阶段则会因为未能有效剔除假阳性区域,故而难以准确区分TAD区域和“gap”区域。
[0007]基于组蛋白修饰信号数据的方法是利用拓扑关联结构域边界处存在CTCF位点、组蛋白和一些基因调控元件富集或缺失的现象,通过构建计算模型预测拓扑关联结构域的边界。但这类方法存在特征选择困难的问题,难以准确提取有效的特征。

技术实现思路

[0008]针对上述问题,本专利技术的目的在于提供一种基于谱聚类的染色质拓扑关联结构域预测方法及电子装置,从位点(染色质读取段)上下游的角度聚焦位点的交互特征,并使用
余弦相似度量化位点交互模式的相似性,进而提高模型预测准确性。技术方案如下:
[0009]一种基于谱聚类的染色质拓扑关联结构域预测方法,包括如下步骤:
[0010]S1:获取人类常见细胞系的Hi

C数据,并进行数据预处理;
[0011]S2:对于Hi

C数据中的每个位点,分别提取上下游交互频次数据作为该位点的特征向量;
[0012]S3:根据提取的特征向量,使用余弦相似度计算位点与位点之间的相似性,构建对应的相似性矩阵;
[0013]S4:基于相似性矩阵完成相似性无向图的构建,再使用聚类算法对位点进行分类;
[0014]S5:从聚类结果中提取TAD区域并进行筛选,预测TAD区域。
[0015]进一步的,所述S1具体包括:
[0016]S11:获取Hi

C数据并对该数据进行规范化以消除位点之间距离带来的数据噪声;
[0017]S12:对输入的Hi

C频次矩阵进行ln(x+1)处理,以减小Hi

C交互频次数据的动态范围,并进行数据平滑,使交互数据更符合高斯分布;并对每个频次加1,以避免出现负无穷大的值。
[0018]更进一步的,所述步骤S2具体为:
[0019]S21:对于每个位点分别提取上下游2mb范围的染色质交互频次数据作为该位点的特征向量;对于没有足够的上/下游的位点,用上/下游的所有交互频次数据的平均值进行填充;
[0020]S22:将得到的特征向量拼接为特征矩阵。
[0021]更进一步的,所述步骤S3具体为:
[0022]S31:根据任意两位点的特征向量,计算位点之间的余弦相似性,越大的余弦值表明两个向量方向越接近;余弦相似性计算如下:
[0023][0024]其中,Cosine
ij
表示位点i和位点j的特征向量余弦值;F
i
和F
j
分别表示位点i和位点j的特征向量;
[0025]S32:通过对余弦值进行数值变换,将位点之间的相似性范围变为[0,1],得到相似性矩阵;相似性矩阵计算公式为:
[0026][0027]其中,S
ij
为相似性矩阵S中的元素。
[0028]更进一步的,所述步骤S4具体为:
[0029]S41:定义为无向图,其中顶点集V={v1,v2,

,v
n
}表示位点,边集E表示位点与位点之间的相似性;图中的邻接关系表示对称的相似性矩阵中的邻接关系;
[0030]S42:由于顶点的度指与该顶点相关联的边的条数,则定义顶点v
i
的度d(v
i
)为:
[0031][0032]其中,表示相似度矩阵,顶点v
i
和顶点v
j
之间的边的权重,也就是两个顶点之间相似性;
[0033]度矩阵为对角矩阵,定义为:
[0034][0035]S43:计算拉普拉斯矩阵,计算公式为:
[0036][0037]对拉普拉斯矩阵进行规范化:
[0038][0039]计算规范化的拉普拉斯矩阵中前k个特征值对应的特征向量u1,

,u
k
,将其组成矩阵U∈R
n
×
k
,U=[u1,

,u
k
];
[0040]S44:在矩阵U上使用k

means算法,将顶点聚集到C1,

,C
k
,k个簇中。
[0041]更进一步的,所述步骤S5具体为:
[0042]S51:定义TAD区域:TAD的最小尺寸为180kb,将矩阵对角线上同一簇的连续位点连接成段,将属于同一类别且大于180kb的片段预测为TAD,将小于180kb的片段定义为TAD边界;
[0043]S52本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,包括如下步骤:S1:获取人类常见细胞系的Hi

C数据,并进行数据预处理;S2:对于Hi

C数据中的每个位点,分别提取上下游交互频次数据作为该位点的特征向量;S3:根据提取的特征向量,使用余弦相似度计算位点与位点之间的相似性,构建对应的相似性矩阵;S4:基于相似性矩阵完成相似性无向图的构建,再使用聚类算法对位点进行分类;S5:从聚类结果中提取TAD区域并进行筛选,预测TAD区域。2.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述S1具体包括:S11:获取Hi

C数据并对该数据进行规范化以消除位点之间距离带来的数据噪声;S12:对输入的Hi

C频次矩阵进行ln(x+1)处理,以减小Hi

C交互频次数据的动态范围,并进行数据平滑,使交互数据更符合高斯分布;并对每个频次加1,以避免出现负无穷大的值。3.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S2具体为:S21:对于每个位点分别提取上下游2mb范围的染色质交互频次数据作为该位点的特征向量;对于没有足够的上/下游的位点,用上/下游的所有交互频次数据的平均值进行填充;S22:将得到的特征向量拼接为特征矩阵。4.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法,其特征在于,所述步骤S3具体为:S31:根据任意两位点的特征向量,计算位点之间的余弦相似性,越大的余弦值表明两个向量方向越接近;余弦相似性计算如下:其中,Cosine
ij
表示位点i和位点j的特征向量余弦值;F
i
和F
j
分别表示位点i和位点j的特征向量;S32:通过对余弦值进行数值变换,将位点之间的相似性范围变为[0,1],得到相似性矩阵S;相似性矩阵计算公式为:其中,S
ij
为相似...

【专利技术属性】
技术研发人员:朱敏龙春林张铭洋王心翌周怡
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1