一种用于时序生物组学大数据的穷尽分析方法技术

技术编号:35734641 阅读:26 留言:0更新日期:2022-11-26 18:36
本发明专利技术公开了一种用于时序生物组学大数据的穷尽分析方法。属于生物信息学和大数据领域。依据本发明专利技术中关于时序生物组学大数据分析步骤和实施方案,提出了具体分析方法,为生物学领域中时序组学大数据的走势分析、分段分析和互作分析研究提供参考。和互作分析研究提供参考。和互作分析研究提供参考。

【技术实现步骤摘要】
一种用于时序生物组学大数据的穷尽分析方法
一.专利

[0001]本专利技术属于生命科学领域的生物信息学和大数据研究领域,更具体地说,涉及一种用于针对多点的时间序列的各类生物组学数据的穷尽分析方法。
二.
技术介绍

[0002]随着高通量组学数据的井喷式发布,一类按照时间顺序记录下来的组学数据——时序组学大数据被越来越多的生命科学研究者所青睐。因为时序数据在时间上具有连续性,各类数据除时间外,均具有相同的背景环境。因此比较时,只需考虑单一的时间变量。它常被用于各种有一定时间跨度的生物学过程,如植物的持续生长,病毒对寄主的持续入侵,细胞的不断分裂等。通过对生物学过程的多点动态分析,获得待测对象在时间上的变化趋势和规律性。
[0003]目前开展时序组学大数据分析的主要集中于转录组数据的时序分析最为常见。其研究方法包括如短时间序列表达式挖掘器(STEM)、K

means聚类算法和Mfuzz算法等等。
[0004]然而,据我们所知,这些方法很少被用于转录组数据之外的其他数据,且它们都依靠于其内部参数设置获得可能的类型总数,并没有穷尽待研究特征数据的所有情况。这样无形中会丢失一些可能的显著重要的数据特征。
[0005]基于此,本专利技术致力于提出一种包括转录组,表观遗传学组或蛋白质组等可量化的数据在内的时序特征数据的分析方法;其研究对象可以是染色体中的一段、基因、蛋白或是非编码的RNA等。分析内容包括走势分析、分段分析和互作分析共3种,穷尽其可能的分析类型,并用统计学分析方法探究这些类型下显著差异变化的特征数据,为大数据背景下,各类时序数据的系统性分析,去伪存真,挖掘时间数据背后隐藏的动态规律。
三.
技术实现思路

[0006]1.专利技术要解决的问题
[0007]本专利技术要解决以下问题:第一,总体来看,提出一种用于时序生物组学大数据的穷尽分析方法,为时序的转录组、蛋白质组及表观遗传组特征数据分析提供一个全面系统的分析方案;第二,该分析方案遍历了研究对象在不同时间节点间的可能表现状况,从单一研究对象的全局的时间角度(走势分析),局部的时间角度(分段分析),和成对研究对象间的比较分析(互作分析),探究研究对象随着时间波动的变化规律,发现时间序列数据中的潜在特征和生物学奥秘。
[0008]借助本专利现提出的研究方法,有助于解决当前时序组学大数据分析方法少,现有方法多依赖于主观参数选择,和方法很少穷尽各类节点的数据特征等问题。
[0009]2.技术方案
[0010]本专利技术提出了一种用于时序生物组学大数据的穷尽分析方法,具体实施方案如下:
[0011](1)数据预处理
[0012]时序组学数据可能来源于公共数据库,如GEO数据库中的转录组或甲基化组数据,也可能来源于生物公司的直接鉴定结果,如蛋白质谱鉴定。可用本方法分析的组学数据的时间节点一般不少于3个,且不同时间节点对应的样本信息应保持一致或是相同。
[0013]获得时间序列组学数据后,对相应数据进行预处理如下:
[0014]①
删除特征数据可能存在80%以上缺失值的探针;
[0015]②
合并相同探针,按照其特征数据的均值或中位值合并;
[0016]③
对不同时间序列的探针数据进行标准化处理,使每一个样本具有的特征数据具有相似的数值分布;
[0017]④
根据研究对象的自身性质再进行针对性的处理,比如表观遗传组中的甲基化数据芯片,需要将数据转换成β值后再进行标准化;
[0018]⑤
除第一个时间点除于其本身外,其余后面各时间点,除于其前面的一个点的特征数值,再取自然对数或以10或2为底的对数,对其进行数据转化,其获得结果定义为α;
[0019]⑥
关于单一研究对象的波动走势,受到α自身的对应阈值决定,而该阈值可能为一个数值,如α=0;也可能为一对相反数,如α=
±
0.2;
[0020]⑦
对于α=0,我们认为α>0意味着:在待研究的两个节点间,该数据特征表现为上升;相反,α<0意味着该数据特征表现为下降;而α=0意味着该单一特征数据没有发生变化:而在待研究的两个节点间,该数据特征表现为α阈值为一对互为相反数,如α>0.5 表示数据特征相对上调,α<

0.5表示数据特征相对下调,而α∈[

0.5,0.5],表示数据特征相对没有变化。
[0021](2)穷尽分析方法使用
[0022]依据本专利提出的一种用于时序生物组学大数据的穷尽分析方法,以下为该方法考察的3 个方面的具体实施步骤:
[0023]①
实施特征数据的走势分析,度量所有单一研究对象在全局或局部时间角度下特征数据的“所有可能走势”:
[0024]其一,梳理所有的可能走势情况。相比于给定阈值,节点间比值可能存在3种情况,即大于,小于或是等于阈值的三种情况。因此其走势就存在上升、下降和不变三种情形。且两时间节点间存在一组这样三种可能性。
[0025]其二,统计所有的可能的走势情况。按照一组存在三种可能性计算,可以获得所有时间节点的走势总的可能性情况。即3指数次方,该指数为节点总数目减去1,而最终的走势总趋势需要减掉一个在任何时候没有变化的情况,该情况可能与时间事件没有任何关系。
[0026]其三,挑选“特征显著”的走势。根据分析需要,可以从走势的数量上和走势的特殊性上进行筛选。在走势数量上,可以选择走势多数情况,或是走势的5%的情况;在走势的特殊性上,可以选择一致上升、一致下降,或是先升后降、先降后升等情况进行生物学过程的分析。
[0027]②
开展特征数据的分段分析,度量所有单一研究对象在局部时间角度下特征数据的“所有可能走势或互作情况”。
[0028]其一,整理所有可能的时间分段,这里本方法只考虑单一分段情况,不考虑其中有两个或是两个以上的分段情况。因为,如果分段切割点数目超过两个,特征数据的可能性会变得更为复杂。而如果实际需要选择其中两段,可以将开始段作为时序数据的起始端。这样
有助于降维分析的复杂性;
[0029]其二,累计可能的分段总数,多时间节点的中间分段分析,其可能的总数受到两节点间时间段的数目影响。很显然,其总数应为二倍的时间段数,即时序时间节点的总数减去2可得。
[0030]其三,按照分段情况,可以考察感兴趣的时间段或是根据走势的单调性和特征性进行进一步分析。考察不同时间段下的数量差异或是“亚走势”差异。
[0031]③
实施特征数据的互作分析,度量成对或是两群研究对象间在全局或是局部时间角度下的特征数据的“互作情况”:
[0032]其一,首先考察互作分析的可能类型,其包括“拮抗”和“协同”两大类,而互作分析中拮抗关系群间的互作总数为走势分析的走势总数的一半。
[0033]其二,走势分析中可以只针对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于时序生物组学大数据的穷尽分析方法,其特征在于针对分析的特征数据包括转录组,表观遗传学组或蛋白质组等可量化的数据;其研究对象可以是染色体中的一段、基因或蛋白或是非编码的RNA等。组学大数据的时间序列节点数n满足n≧3时,特征数据穷尽分析方法具体包括单一研究对象全局时间角度的走势分析,局部的时间角度(分段分析),和成对研究对象间比较分析的互作分析,即走势分析、分段分析和互作分析共3种。一种用于时序生物组学大数据的穷尽分析方法,其特征在于特征数据分析前需要进行数据预处理。预处理的具体步骤为,标准化后除首个时间节点除于其本身外,将特征数据后一时间节点具体数值与前一时间节点相比,比值进行对数处理。对数处理方式由数据本身性质决定,可以选择自然对数,或以10或是2为底,其获得结果定义为α,而α的取值也可以根据特征数据的幅度进行定义,可以直接选择一个数值,如α=0;也可以为一对相反数,如α=
±
0.2。一种用于时序生物组学大数据的穷尽分析方法,其特征在于特征数据可能获得的变化总数目有一定规律性,应该满足一个指数方程。按照特征数据的处理方法,如n个节点的特征数据可能的变化类型总数目Z将满足下面公式1:Z(n)=3
n
‑1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式1由此可以获得,当时序数据的节点n=4时,特征数据的可能变化类型总数目为27种。2.一种用于时序生物组学大数据的穷尽分析方法,其特征在于特征数据的走势变化总数和类型具有确定性。其走势变化总数符合一定规律性,其与变化类型总数符合线性相关。对应特征数据的走势变化情况将符合下面公式2:T(n)=Z(n)
‑1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2由公式2可知,对于时序数据的节点n=4时,其可能走势变化总数目为26种。当n=4时,其各走势变化情况具体如图1B

N所示。3.一种用于时序生物组学大数据的穷尽分析方法,其...

【专利技术属性】
技术研发人员:张际峰杨士伟刘海涛汪承润李茂业蒋磊张国超刘芯茹孟静
申请(专利权)人:淮南师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1