一种基于图论和贪婪算法挖掘组学数据的方法技术

技术编号:31374315 阅读:27 留言:0更新日期:2021-12-15 11:06
本发明专利技术公开了一种基于图论和贪婪算法挖掘组学数据的方法。所述方法包括步骤:利用统计学方法,计算组学对象差异性,对通路差异分布进行基因组尺度可视化;将组学对象转化为对应的基元反应,以反应物为起点,生成物为终点,构建由化合物组成的邻接矩阵,搭建代谢网络;以显著差异点为中心,运用贪婪算法进行网络精简,获得差异点之间的联通关系;对网络拓扑学结构进行解析。本发明专利技术整合了统计学和图论方法,实现了组学数据的有效降维和可视化,实现组学数据的准确挖掘。组学数据的准确挖掘。组学数据的准确挖掘。

【技术实现步骤摘要】
一种基于图论和贪婪算法挖掘组学数据的方法


[0001]本专利技术涉及组学数据挖掘
,特别是涉及一种基于图论和贪婪算法挖掘组学数据的方法。

技术介绍

[0002]随着科学研究的不断发展,当代科学越来越认识到整体或系统的重要性,有些问题不能简单成局部事件将其处理,因为当一个独立部分放在一个高级结构中时,他们之间会因产生动态的相互作用产生不同的表现。这就有了系统生物学的最新定义:不同于以往仅仅关心个别的基因和蛋白质的分子生物学,在于研究细胞信号传导和基因调控网路、生物系统组成之间相互关系的结构和系统功能。在生物学和医学研究的系统生物学方法随着高通量测序技术的应用,使人们收集到更多的分子水平相关信息,主要包括基因组学、转录组学、蛋白质组学和代谢组学等。
[0003]组学数据复杂多样,包括了参与代谢反应的反应物,产物,相应的酶,及该反应的可逆性等数据信息,构成了数据量巨大的复杂生物网络,而对于数据量巨大的组学模型和错综复杂的生物机理研究,需要借助可视化的系统,直观理解复杂代谢网络,从而观察其中隐含的生物学意义。如何有效整合多组学数据,从中抽本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于图论和贪婪算法挖掘组学数据的方法,其特征在于,包括步骤:S1.利用统计学方法,计算组学对象差异性,对通路差异分布进行基因组尺度可视化;S2.将组学对象转化为对应的基元反应,以反应物为起点,生成物为终点,构建由化合物组成的邻接矩阵,搭建代谢网络;S3.以显著差异点为中心,运用贪婪算法进行网络精简,获得差异点之间的联通关系;S4.对网络拓扑学结构进行解析。2.根据权利要求1所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述对通路差异分布进行基因组尺度可视化的方法如下:利用统计学差异性分析计算出组学对象数据中对应基因的差异性,将差异性数据归一化处理,以基因组尺度的代谢网络总图为底板,将归一化后的差异性数据与colormap相偶联,通过不同颜色的变化呈现组学所涉及代谢产物的通路分布和差异性。3.根据权利要求1所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述基因组尺度的代谢网络总图根据反应构成的代谢网络,提前规定每个基因、化合物的坐标,通过计算机进行绘制。4.根据权利要求2所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述将差异性数据归一化处理,是将差异性数据按下式映射至0~1,设定渐变颜色,将数据和颜色一一对应,构建图形绘制的colormap;式中,x为原始数据,x
min
为一组数据的最小值,x
max
为一组数据的最大值,所得结果X即为归一化后数据。5.根据权利要求2所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述邻接矩阵的搭建方法如下:通过KEGG数据库的API,获取组学数据包含的所有酶促反应,以
“→”
拆分反应,逐一拿出反应物和生成物,以反应中反应物为行,生成物为列,归一化的差异性数据为权重,建立邻接矩阵;利用计算机,对邻接矩阵进行绘图,通过图论的方式将所有关联化合物进行可视化联通,搭...

【专利技术属性】
技术研发人员:王敏夏梦雷王頔闫欣瑶夏艺铭郑宇申雁冰
申请(专利权)人:天津科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1