The present invention relates to an expression reconstruction method of gene regulatory network data platform based on gene expression data, according to the characteristics of cross platform access from the P gene by sequencing platform gene expression data, and pretreatment, and then extracted from each gene in a sample n gene expression, and mixed condition of partial correlation coefficient the independence of each tested gene expression amount of parent node set based on its application in the learning network framework, cross platform learning causal network structure to determine the V structure and maximum mark direction three, and from the reconstruction of a cross platform gene regulatory network, the invention solves the graph model of cross platform gene regulatory network the use of causal problems, can effectively use cross platform gene expression data for high dimensional reconstruction of gene regulatory network at the same time, to avoid data preprocessing The process leads to excessive smoothing of data and improves the accuracy and recall rate of cross platform gene regulatory network reconstruction.
【技术实现步骤摘要】
一种基于跨平台基因表达数据的基因调控网络重建方法
本专利技术涉及一种生物信息处理
,尤其是一种基于跨平台基因表达数据的基因调控网络重建方法。
技术介绍
基因调控网络是反映基因之间相互影响关系的复杂网络,它对研究生命现象的内在规律有非常重要的作用,利用基因表达数据发现基因调控关系是生物信息学中的一个挑战。随着基因微阵列技术的快速发展,目前已有出现多种基因测序平台,但是由于测序平台的不一,实验环境差异等问题,导致在不同测序平台下产生的基因表达数据往往存在无法直接比较、维度高等问题。典型的基因调控网络重建方法多适用于单平台的基因表达数据,应用于这样的跨平台基因表达数据表现并不理想。因此,整合利用不同测序平台产生的基因表达数据进行基因调控网络重建是目前的研究焦点之一。为了解决不同平台之间基因表达数据不能直接比较的问题,比较常用的方法是通过数据标准化的方法,把不同平台的基因表达数据按照一定的规则拉升或者压缩到统一个数据范围内,转换后可将不同平台的数据合并为一个基因表达数据矩阵,使得不同平台的样本数据可以整合到一起进行分析。常见的数据标准化方法包括Shabalin提出的 ...
【技术保护点】
一种基于跨平台基因表达数据的基因调控网络重建方法,其特征在于,包括以下步骤:S1)、从GEO基因表达数据库中获取来自p个测序平台基因表达数据,其中,每个测序平台包括多个基因样本,分别对p个测序平台基因表达数据进行预处理,删除每个测序平台中基因表达量缺失过多的基因样本,并将预处理后的p个测序平台基因表达数据合并得到基因样本量为m的基因样本集X={x1,x2,...xm},然后分别从基因样本集X={x1,x2,...xm}的每个基因样本中抽取n个基因表达量,从而得到基因调控网络样本集G={g11,g12,...g1n,g21,g22,...g2n,…gm1,gm2,...gmn ...
【技术特征摘要】
1.一种基于跨平台基因表达数据的基因调控网络重建方法,其特征在于,包括以下步骤:S1)、从GEO基因表达数据库中获取来自p个测序平台基因表达数据,其中,每个测序平台包括多个基因样本,分别对p个测序平台基因表达数据进行预处理,删除每个测序平台中基因表达量缺失过多的基因样本,并将预处理后的p个测序平台基因表达数据合并得到基因样本量为m的基因样本集X={x1,x2,...xm},然后分别从基因样本集X={x1,x2,...xm}的每个基因样本中抽取n个基因表达量,从而得到基因调控网络样本集G={g11,g12,...g1n,g21,g22,...g2n,…gm1,gm2,...gmn};S2)、初始化基因调控网络,用因果网络图表示基因调控网络,其中,一个基因表达量对应图中的一个节点,平台变量用一个对所有基因表达量都有影响的外生节点d表示,将基因调控网络初始化为空图;S3)、用混合型条件独立性测试检验基因表达量gi与其他各基因表达量gj之间的条件独立性,若条件独立性测试结果表明gi和gj没有被其他基因表达量d-分隔(有向分隔),则将gj加入到gi的父子节点集PC(gi)中,即PC(gi)={gj};S4)、重复步骤S3),得到基因调控网络中每个基因表达量节点的父子节点集PC(gi);S5)、根据各基因表达量的父子节点集PC(gi),若基因调控网络中的任意两个基因表达量gi和gj互相存在于对方的父子节点集中,则将gi和gj用无向边连接起来,得到基因调控网络图骨架;S6)、逐个检查网络图骨架中具有gi-gj-gk结构的任意三个基因表达量节点,根据混合型条件独立性测试的结果,确定是否存在v-结构,若混合型条件独立性测试的结果为gi⊥gk,则认为gi,gj,gk之间构成了一个v-结构,则将图中这两条无向边的方向标记为gi→gj←g...
【专利技术属性】
技术研发人员:蔡瑞初,林殷娴,郝志峰,温雯,谢峰,许柏炎,陈薇,陈炳丰,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。