【技术实现步骤摘要】
一种基于基因数据的染色质层次结构分析的可视化方法
[0001]本专利技术涉及信息可视化与可视分析领域,具体是一种基于基因数据的染色质层次结构分析的可视化方法。
技术介绍
[0002]DNA、RNA等生物大分子共同构成了生物体基因组。人类基因组DNA大小在3G左右,其DNA序列的线性展开长度可达2m左右,而存储DNA序列的细胞核,其直径仅有10um。这意味着,人类基因组DNA并不是以线性状态直接存在于细胞核,而是通过高度折叠,借助特定高级空间构象的染色质结构存在。
[0003]随着三维基因组学的发展,研究人员借助高通量染色体构象捕获技术(High
‑
through chromosome conformation capture,Hi
‑
C)获取的染色质交互频次数据,为染色质空间层次结构的分析与探索提供了研究基础。这些层次结构在不同的空间尺度上跨越Mb级到Kb级不等,包括:染色体疆域(Chromosome Territory,CT)、染色质区室(Chromatin Compartment A/B)、拓扑关联结构域(Topological Associated Domain,TAD)、染色质环(Chromatin Loop,CL)。深入挖掘人类三维基因组的空间结构特征,有助于辅助研究人员掌握人体基因表达与调控机制,进而揭示与疾病相关的特殊基因,最终为疾病预防、疾病诊疗以及生物医学领域提供新的方法和思路。
[0004]为理解染色质层次结构与基因表达的关联关系,有效的研究手段
【技术保护点】
【技术特征摘要】
1.一种基于基因数据的染色质层次结构分析的可视化方法,其特征在于,包括以下步骤:S1:数据采集获取基因数据和相关生物文献数据,包括:Hi
‑
C交互频次数据、富集信息注释数据和基因
‑
疾病关联数据;S2:数据处理和存储对步骤S1中采集的数据进行处理,针对原始的Hi
‑
C交互频次数据,通过Hic
‑
Pro数据处理软件将其转化为可视化的交互频次矩阵,该矩阵的行与列表示划分的染色体片段,行列交叉处的数据表示两条片段之间的交互频次;基于上述矩阵数据,复现TopDom和Cluster TAD算法,获得每条染色体上的TAD边界预测数据;复现miniMDS算法,获得染色质三维空间结构预测数据;最后,将结构化数据进行存储;S3:可视化映射通过视觉通道将步骤S2中处理后的数据进行可视化映射:设计Hi
‑
C交互频次数据可视化映射,用热力图表征染色质内部的交互情况,使用颜色对交互频次高低的数值进行可视化编码,构成Hi
‑
C热力视图可视化映射;设计蛋白质富集信息可视化映射,用折线图的折线类型和坐标轴数值表示染色体片段上的蛋白质种类及其富集信息,构成蛋白质富集视图可视化映射;设计染色质三维结构可视化映射,用三维坐标系散点图表示染色质结构投影在三维空间中的坐标位置,呈现整体和局部视角下的三维空间结构,构成染色质三维空间结构视图可视化映射;设计基因
‑
疾病关联网络可视化映射,对基因类型、疾病类型、关联程度进行可视化编码,表示基因
‑
疾病、疾病
‑
疾病的相互作用关系,构成基因
‑
疾病关联视图可视化映射;S4:可视化布局将步骤S3定义好的映射规则进行具体的可视化布局及绘制实现:对于Hi
‑
C热力视图,根据输入的染色体编号、染色体起始位置与结束位置、实验分辨率,计算热力图横纵坐标的区间范围并绑定至坐标轴数据项中;定义颜色映射条,将交互频次数据利用矩阵颜色进行表征;对于蛋白质富集视图,遍历数据列表利用折线将各位点的蛋白质含量绘制在折线图中;对于染色质三维空间结构视图,将位点信息映射到三维坐标系中,并利用不同颜色呈现染色质形态的整体与局部视角;对于基因
‑
疾病关联视图,采用关联网络布局,将基因类型、关联种类、关联程度利用颜色、形状、大小等视觉通道绘制在视图中。2.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S1中,数据采集具体为:S11:从公开数据库Gene Expression Omnibus下载人体细胞株GM12878的染色质内交互频次数据,包含多个实验分辨率下的不同数据;S12:从ENCODE数据库中下载人体细胞株GM12878的染色体序列数据,包含8种蛋白质的含量信息;
S13:从HMDD基因疾病关联数据库,选取两类关联数据:miRNA
‑
疾病关联数据和疾病
‑
疾病关联数据。3.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S3中,所述Hi
‑
C热力视图可视化映射具体为:染色体片段:使用热力图横轴和纵轴的区间位置坐标编码同一条染色体在不同实验分辨率划分的片段;染色体交互频次:用热力图纵横交叉处的方形矩阵编码不同位点片段的相互作用频次,用矩阵的填充颜色编码交互频次的高低情况,用颜色的渐变区间表征频次数据的变化范围,用颜色映射条表征颜色编码含义,同时将颜色渐变区间映射为数值区间。4.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S3中,...
【专利技术属性】
技术研发人员:朱敏,陈富秋,龙春林,周怡,王心翌,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。