基于谱聚类的染色质拓扑关联结构域预测方法及电子装置制造方法及图纸

技术编号：33349226 阅读：47 留言：0更新日期：2022-05-08 09:51

本发明专利技术公开了一种基于谱聚类的染色质拓扑关联结构域预测方法及电子装置，使用Hi

全部详细技术资料下载

【技术实现步骤摘要】
基于谱聚类的染色质拓扑关联结构域预测方法及电子装置

[0001]本专利技术涉及生物信息
，具体涉及一种基于谱聚类的染色质拓扑关联结构域预测方法及电子装置。

技术介绍

[0002]DNA的复制、基因调控和基因表达等生物学功能都依赖于染色质三维结构实现。研究表明，特定基因组区域和特定条件下染色体结构的变化与多种人类疾病高度相关，包括癌症、发育过程中肢体畸形和严重的脑部发育异常。因此，研究染色质三维结构对于解释基因的表达和调控等细胞过程，进而指导遗传病相关研究和基因治疗等医学问题方面具有重要价值。
[0003]拓扑关联结构域(Topologically Associated domain，TAD)作为染色质层次结构中的一种，于2012年被首次发现。该区域富集了绝缘子结合蛋白CTCF、管家基因、SINE逆转座子等，在基因调控中发挥关键作用。进一步的研究发现，在苍蝇、蠕虫、真菌和细菌中也检测到类似的结构域。因此，这些区域在细胞分裂中是稳定存在的，在不同细胞系中存在一定的进化保守性。TAD目前已被认为是染色体折叠的基本单位，并被认为是染色体组织中的一个重要二级结构。
[0004]然而，传统生物实验识别TAD区域存在耗时长、花费成本高、实验实施困难等问题。为更好地理解TAD在生物生长发育和遗传过程中发挥的功能，研究者需要可靠的预测模型指导生物实验定位染色质上的TAD区域。
[0005]根据预测模型所用数据的不同，可将该领域已有的计算方法分为两类：基于3C
‑
based数据的预测方法与...

【技术保护点】

【技术特征摘要】
1.一种基于谱聚类的染色质拓扑关联结构域预测方法，其特征在于，包括如下步骤：S1：获取人类常见细胞系的Hi
‑
C数据，并进行数据预处理；S2：对于Hi
‑
C数据中的每个位点，分别提取上下游交互频次数据作为该位点的特征向量；S3：根据提取的特征向量，使用余弦相似度计算位点与位点之间的相似性，构建对应的相似性矩阵；S4：基于相似性矩阵完成相似性无向图的构建，再使用聚类算法对位点进行分类；S5：从聚类结果中提取TAD区域并进行筛选，预测TAD区域。2.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法，其特征在于，所述S1具体包括：S11：获取Hi
‑
C数据并对该数据进行规范化以消除位点之间距离带来的数据噪声；S12:对输入的Hi
‑
C频次矩阵进行ln(x+1)处理，以减小Hi
‑
C交互频次数据的动态范围，并进行数据平滑，使交互数据更符合高斯分布；并对每个频次加1，以避免出现负无穷大的值。3.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法，其特征在于，所述步骤S2具体为：S21：对于每个位点分别提取上下游2mb范围的染色质交互频次数据作为该位点的特征向量；对于没有足够的上/下游的位点，用上/下游的所有交互频次数据的平均值进行填充；S22：将得到的特征向量拼接为特征矩阵。4.根据权利要求1所述的基于谱聚类的染色质拓扑关联结构域预测方法，其特征在于，所述步骤S3具体为：S31：根据任意两位点的特征向量，计算位点之间的余弦相似性，越大的余弦值表明两个向量方向越接近；余弦相似性计算如下：其中，Cosine
ij
表示位点i和位点j的特征向量余弦值；F
i
和F
j
分别表示位点i和位点j的特征向量；S32：通过对余弦值进行数值变换，将位点之间的相似性范围变为[0,1]，得到相似性矩阵S；相似性矩阵计算公式为：其中，S
ij
为相似...

【专利技术属性】
技术研发人员：朱敏，龙春林，张铭洋，王心翌，周怡，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人