当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于基因数据的染色质层次结构分析的可视化方法技术

技术编号:31982680 阅读:17 留言:0更新日期:2022-01-20 01:56
本发明专利技术公开了一种基于基因数据的染色质层次结构分析的可视化方法,从公开数据库采集Hi

【技术实现步骤摘要】
一种基于基因数据的染色质层次结构分析的可视化方法


[0001]本专利技术涉及信息可视化与可视分析领域,具体是一种基于基因数据的染色质层次结构分析的可视化方法。

技术介绍

[0002]DNA、RNA等生物大分子共同构成了生物体基因组。人类基因组DNA大小在3G左右,其DNA序列的线性展开长度可达2m左右,而存储DNA序列的细胞核,其直径仅有10um。这意味着,人类基因组DNA并不是以线性状态直接存在于细胞核,而是通过高度折叠,借助特定高级空间构象的染色质结构存在。
[0003]随着三维基因组学的发展,研究人员借助高通量染色体构象捕获技术(High

through chromosome conformation capture,Hi

C)获取的染色质交互频次数据,为染色质空间层次结构的分析与探索提供了研究基础。这些层次结构在不同的空间尺度上跨越Mb级到Kb级不等,包括:染色体疆域(Chromosome Territory,CT)、染色质区室(Chromatin Compartment A/B)、拓扑关联结构域(Topological Associated Domain,TAD)、染色质环(Chromatin Loop,CL)。深入挖掘人类三维基因组的空间结构特征,有助于辅助研究人员掌握人体基因表达与调控机制,进而揭示与疾病相关的特殊基因,最终为疾病预防、疾病诊疗以及生物医学领域提供新的方法和思路。
[0004]为理解染色质层次结构与基因表达的关联关系,有效的研究手段之一就是引入数据可视化与可视分析,帮助研究人员更好地推理染色质不同层次结构中数据的关联性。数据可视化方法引入人的智能,融合人在数据认知中的创造性与灵活性,确保数据挖掘的有效性。与此同时,数据可视化允许人类直接与数据交互,更深入地认识数据并快速得出结论,在减轻数据分析人员认知负担的同时,能建立对信息更直观的认识。不同于传统机器学习的数据挖掘技术,基于可视分析的数据刻画是最直观的,用户无需理解繁琐的数学公式或复杂的统计算法,从而降低了用户的学习成本,也提高了数据探索的可解释性和可信度。
[0005]三维基因组学对可视化手段的引入提高了专业人士对数据的分析能力。染色质三维空间结构方面,研究人员开发基于浏览器的交互式染色质可视化工具,在构建染色质三维空间模型的基础上,允许用户在三维空间模型上叠加基因注释、基因表达数据和基因组甲基化数据,但对于生物背景知识相对薄弱的用户,其操作难度较大,理解效果较差。
[0006]根据上述研究背景可以总结出目前针对染色质层次结构分析的研究仍有以下不足:
[0007]1)三维基因组数据体量大、结构多源,传统的数据处理和模型构建难以从关系复杂的实验数据集中提取关键特征,辅助研究人员对染色质各层级结构的深入探索。
[0008]2)采用可视化与可视分析方法的研究较少,已有的三维基因组可视分析平台分析功能和可视化视图较为单一,仅以染色质的某一层级结构作为研究对象,无法全面分析染色质各层次结构。
[0009]3)现有的三维基因组可视分析系统不曾考虑对用户使用的友好性,对于缺乏专业
知识背景的用户来说,分析效果不够直观,平台操作的复杂性、多样性会极大降低用户的使用效率和体验感,无法帮助用户最大化地理解数据背后的隐藏信息。

技术实现思路

[0010]本专利技术所要解决的技术问题是提供一种基于基因数据的染色质层次结构分析的可视化方法,为用户提供人类染色质特定空间结构层次的可视化视图,提高用户对基因数据的深入认知与理解。技术方案如下:
[0011]一种基于基因数据的染色质层次结构分析的可视化方法,包括以下步骤:
[0012]S1:数据采集
[0013]获取基因数据和相关生物文献数据,包括:Hi

C交互频次数据、富集信息注释数据和基因

疾病关联数据;
[0014]S2:数据处理和存储
[0015]对步骤S1中采集的数据进行处理,针对原始的Hi

C交互频次数据,通过Hic

Pro数据处理软件将其转化为可视化的交互频次矩阵,该矩阵的行与列表示划分的染色体片段,行列交叉处的数据表示两条片段之间的交互频次;基于上述矩阵数据,复现TopDom和Cluster TAD算法,获得每条染色体上的TAD边界预测数据;复现miniMDS算法,获得染色质三维空间结构预测数据;最后,将结构化数据进行存储;
[0016]S3:可视化映射
[0017]通过视觉通道将步骤S2中处理后的数据进行可视化映射:
[0018]设计Hi

C交互频次数据可视化映射,用热力图表征染色质内部的交互情况,使用颜色对交互频次高低的数值进行可视化编码,构成Hi

C热力视图可视化映射;
[0019]设计蛋白质富集信息可视化映射,用折线图的折线类型和坐标轴数值表示染色体片段上的蛋白质种类及其富集信息,构成蛋白质富集视图可视化映射;
[0020]设计染色质三维结构可视化映射,用三维坐标系散点图表示染色质结构投影在三维空间中的坐标位置,呈现整体和局部视角下的三维空间结构,构成染色质三维空间结构视图可视化映射;
[0021]设计基因

疾病关联网络可视化映射,对基因类型、疾病类型、关联程度进行可视化编码,表示基因

疾病、疾病

疾病的相互作用关系,构成基因

疾病关联视图可视化映射;
[0022]S4:可视化布局
[0023]将步骤S3定义好的映射规则进行具体的可视化布局及绘制实现:
[0024]对于Hi

C热力视图,根据输入的染色体编号、染色体起始位置与结束位置、实验分辨率,计算热力图横纵坐标的区间范围并绑定至坐标轴数据项中;定义颜色映射条,将交互频次数据利用矩阵颜色进行表征;
[0025]对于蛋白质富集视图,遍历数据列表利用折线将各位点的蛋白质含量绘制在折线图中;
[0026]对于染色质三维空间结构视图,将位点信息映射到三维坐标系中,并利用不同颜色呈现染色质形态的整体与局部视角;
[0027]对于基因

疾病关联视图,采用关联网络布局,将基因类型、疾病类型、关联种类、关联程度利用颜色、形状、大小等视觉通道绘制在视图中。
[0028]进一步的,在步骤S1中,数据采集具体为:
[0029]S11:从公开数据库Gene Expression Omnibus下载人体细胞株GM12878的染色质内交互频次数据,包含多个实验分辨率下的不同数据;
[0030]S12:从ENCODE数据库中下载人体细胞株GM12878的染色体序列数据,包含8种蛋白质的含量信息;
[0031]S13:从HMDD基因疾病关联数据库,选取两类关联数据:miRNA

...

【技术保护点】

【技术特征摘要】
1.一种基于基因数据的染色质层次结构分析的可视化方法,其特征在于,包括以下步骤:S1:数据采集获取基因数据和相关生物文献数据,包括:Hi

C交互频次数据、富集信息注释数据和基因

疾病关联数据;S2:数据处理和存储对步骤S1中采集的数据进行处理,针对原始的Hi

C交互频次数据,通过Hic

Pro数据处理软件将其转化为可视化的交互频次矩阵,该矩阵的行与列表示划分的染色体片段,行列交叉处的数据表示两条片段之间的交互频次;基于上述矩阵数据,复现TopDom和Cluster TAD算法,获得每条染色体上的TAD边界预测数据;复现miniMDS算法,获得染色质三维空间结构预测数据;最后,将结构化数据进行存储;S3:可视化映射通过视觉通道将步骤S2中处理后的数据进行可视化映射:设计Hi

C交互频次数据可视化映射,用热力图表征染色质内部的交互情况,使用颜色对交互频次高低的数值进行可视化编码,构成Hi

C热力视图可视化映射;设计蛋白质富集信息可视化映射,用折线图的折线类型和坐标轴数值表示染色体片段上的蛋白质种类及其富集信息,构成蛋白质富集视图可视化映射;设计染色质三维结构可视化映射,用三维坐标系散点图表示染色质结构投影在三维空间中的坐标位置,呈现整体和局部视角下的三维空间结构,构成染色质三维空间结构视图可视化映射;设计基因

疾病关联网络可视化映射,对基因类型、疾病类型、关联程度进行可视化编码,表示基因

疾病、疾病

疾病的相互作用关系,构成基因

疾病关联视图可视化映射;S4:可视化布局将步骤S3定义好的映射规则进行具体的可视化布局及绘制实现:对于Hi

C热力视图,根据输入的染色体编号、染色体起始位置与结束位置、实验分辨率,计算热力图横纵坐标的区间范围并绑定至坐标轴数据项中;定义颜色映射条,将交互频次数据利用矩阵颜色进行表征;对于蛋白质富集视图,遍历数据列表利用折线将各位点的蛋白质含量绘制在折线图中;对于染色质三维空间结构视图,将位点信息映射到三维坐标系中,并利用不同颜色呈现染色质形态的整体与局部视角;对于基因

疾病关联视图,采用关联网络布局,将基因类型、关联种类、关联程度利用颜色、形状、大小等视觉通道绘制在视图中。2.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S1中,数据采集具体为:S11:从公开数据库Gene Expression Omnibus下载人体细胞株GM12878的染色质内交互频次数据,包含多个实验分辨率下的不同数据;S12:从ENCODE数据库中下载人体细胞株GM12878的染色体序列数据,包含8种蛋白质的含量信息;
S13:从HMDD基因疾病关联数据库,选取两类关联数据:miRNA

疾病关联数据和疾病

疾病关联数据。3.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S3中,所述Hi

C热力视图可视化映射具体为:染色体片段:使用热力图横轴和纵轴的区间位置坐标编码同一条染色体在不同实验分辨率划分的片段;染色体交互频次:用热力图纵横交叉处的方形矩阵编码不同位点片段的相互作用频次,用矩阵的填充颜色编码交互频次的高低情况,用颜色的渐变区间表征频次数据的变化范围,用颜色映射条表征颜色编码含义,同时将颜色渐变区间映射为数值区间。4.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S3中,...

【专利技术属性】
技术研发人员:朱敏陈富秋龙春林周怡王心翌
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1