检测生物分子的变化的方法和检测生物调控分子的变化的方法技术

技术编号:9935571 阅读:145 留言:0更新日期:2014-04-18 07:51
一种检测生物分子的变化的方法,该方法包括:(1)用生物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数值。

【技术实现步骤摘要】
检测生物分子的变化的方法和检测生物调控分子的变化的方法
本专利技术涉及生物医药领域,具体地,涉及一种检测生物分子的变化的方法和一种检测生物调控分子的变化的方法。
技术介绍
从DNA到蛋白质的过程称之为基因表达(geneexpression),对这个过程的调节即为基因表达调控(regulationofgeneexpressionorgenecontrol)。基因调控是现代分子生物学研究的中心课题之一。因为要了解动植物生长发育规律、形态结构特征及生物学功能,就必须搞清楚基因表达调控的时间和空间概念,掌握了基因调控机制,就等于掌握了一把揭示生物学奥秘的钥匙。测量细胞样本、组织样本等的全基因组表达值是功能性基因组学的首要问题。目前的测量技术包括生物芯片、RNA-seq等等,这些技术各有各的优点和缺点。虽然人们希望能够精确地测量出全基因组RNA表达值,但是由于每个技术的局限性,原始的测量值与真实值的误差和偏差不可避免。这就需要对这些原始的测量值做恰当的统计分析。生物芯片(biochip或bioarray)是根据生物分子间特异相互作用的原理,将生化分析过程集成于芯片表面,从而实现对DNA、RNA、多肽、蛋白质以及其他生物成分的高通量快速检测。狭义的生物芯片概念是指通过不同方法将生物分子(寡核苷酸、cDNA、genomicDNA、多肽、抗体、抗原等)固着于硅片、玻璃片(珠)、塑料片(珠)、凝胶、尼龙膜等固相递质上形成的生物分子点阵。生物芯片能够高通量、自动化地检测基因的差异,包括cDNA水平上的差异和蛋白水平的差异,因而能够作为研究基因调控的手段之一。但是,生物芯片中的数据往往只能检测那些丰度高的效应生物分子(如在合成、代谢过程中的酶),而对于生物调控分子,如转录因子和microRNA,由于其在细胞中丰度低等原因,它们在生物事件中所发生的变化难以在生物芯片的数据中直接反映出来,由此降低了生物芯片数据的利用价值。RNA-seq技术是近年来发展的一种新的全基因组RNA表达值的技术,它不需要预先设计探针,是与生物芯片互补的一种技术。比较两个或多个细胞样本时,如果通过某种技术获得了它们之间无偏的基因表达差异数值,如何找到导致这些差异的调控机制则是功能性基因组学的一个核心问题。目前直接测量调控过程难度很大,利用调控分子如转录因子或microRNA与DNA的结合强度信息,在广义的中心法则下准确地推断调控机制是一个非常有挑战的计算生物学和生物信息学问题。对人类健康、农业发展、环境保护和能源发展有重要意义。
技术实现思路
为了提高生物芯片数据的利用价值,进一步有效地挖掘生物芯片数据中的有用信息,本专利技术提供了一种检测生物分子的变化的方法和一种检测生物调控分子的变化的方法。根据本专利技术提供的检测生物分子的变化的方法,该方法包括:(1)用生物芯片或者高通量测序技术RNA-seq分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数,使用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数值。本专利技术还提供了一种检测生物调控分子的变化的方法,该方法包括:(1)根据如上所述的方法检测生物分子的变化,获得基因表达差异数值;(2)根据基因表达差异数值,将具有正表达差异值的差异基因和具有负表达差异值的差异基因分别作为分析对象,由差异基因的差异强度和生物调控分子与全体基因的结合强度来确定调控差异基因的生物调控分子的变化。通过上述技术方案,本专利技术能够有效地挖掘生物芯片和RNA-seq数据中的有用信息,确定调控差异基因的生物调控分子的变化,并给出量化指标。本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明图1是正规化前后的数据M值的核密度图;图2是本专利技术各个模块之间的关系示意图。具体实施方式以下对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。根据本专利技术提供的检测生物分子的变化的方法,该方法包括:(1)用生物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数,使用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数值。其中,处理数据和对照数据均来自生物芯片,处理数据和对照数据中的数值均对应于生物芯片中的探针的空间位置而排列;将处理数据和对照数据分别按空间位置的排布分隔为多个矩形子集;所述矩形子集的行数和列数分别大于5,且行数和列数的乘积大于100;相邻的子集可以存在0-99%的重叠;在处理数据的子集和对应的对照数据的子集之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校正处理数据的子集中的数值,将校正后的数值作为正规化后的数值。其中,所述生物芯片可以为cDNA芯片或蛋白芯片。其中,特别优选地,相邻的子集中存在30-70%的重叠,更优选存在40-60%的重叠,最优选存在50%的重叠。其中,优选地,所述子集的行数和列数分别大于5,且行数和列数的乘积大于100。例如,子集可以具有20-80行,20-80列;优选具有30-70行,30-70列;最优选具有60行,30列。其中,线性样条模型可以如式(1)所示:式(1)式(1)中,a、b0、bi(i=1,…,n)分别为参数,n为任意正整数,A、B分别为对照数据构成的列向量和处理数据构成的列向量,I(B>ci)为示性函数列向量,该示性函数列向量的元素值当B中相应元素大于ci时为1,当B中相应元素小于等于ci时为0,每个ci为全体处理数据测量值的一个分位数,而且ci随i的增大而增大;利用如下公式估计正规化之后的处理数据:式(2)式(2)中,分别为在式(1)中经过S估计得到的参数值。其中,的估计方法可以如下:首先,用该芯片子集上的所有数据,利用S估计方法估计A=a+b0*B中的参数a、b0,得到第二,令用满足B>c1的所有数据,利用S估计方法估计中的参数b1,得到第三,令用满足B>cw的所有数据,利用S估计方法估计中的参数bw,得到其中w=2,…,n。上述三步中S估计方法类似,为文献(Rousseeuw,P.J.,andYohai,V.J.(1984),“RobustRegressionbyMeansofS-Estimators,”inRobustandNonlinearTimeSeries,eds.J.Franke,W.Hardle,andD.Martin,LectureNotesinStatistics,26,Berlin:Springer-Verlag,pp.256–272.)中所述的S估计方法。上述方法中的S估计也可以用LTS(截断最小二乘)估计来替代,其中LTS估计的计算由文献(Li,L.M.(2005)"Analgorithmforcomputingexactlea本文档来自技高网
...
检测生物分子的变化的方法和检测生物调控分子的变化的方法

【技术保护点】
一种检测生物分子的变化的方法,该方法包括:(1)用生物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数值。

【技术特征摘要】
1.一种检测生物分子的变化的方法,该方法包括:(1)用生物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数值;其中,线性样条模型如式(1)所示:式(1)中,a、b0、bi(i=1,…,n)分别为参数,n为任意正整数,A、B分别为对照数据构成的列向量和处理数据构成的列向量,I(B>ci)为示性函数列向量,该示性函数列向量的元素值当B中相应元素大于ci时为1,当B中相应元素小于等于ci时为0,每个ci为全体处理数据测量值的一个分位数,而且ci随i的增大而增大;利用式(2)估计正规化之后的处理数据:式(2)中,分别为在式(1)中经过S估计或LTS估计得到的参数值。2.根据权利要求1所述的方法,其中,处理数据和对照数据均来自生物芯片,处理数据和对照数据中的数值均对应于生物芯片中的探针的空间位置而排列;将处理数据和对照数据分别按空间位置的排布分隔为多个矩形子集,相邻的矩形子集存在介于0-99%的重叠;在处理数据的矩形子集和对应的对照数据的矩形子集之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校正处理数据的矩形子集中的数值,将校正后的数值作为正规化后的数值。3.根据权利要求1或2所述的方法,其中,所述矩形子集的行数和列数分别大于5,且行数和列数的乘积大于100。4.根据权利要求1或2所述的方法,其中,计算M值的核密度曲线和众数,并使用M值的核密度曲线的众数的绝对值大小来评价正规化和/或生物分子变化的测量值的可信度,所述M值为正规化后的处理数据与对照数据的对数差;M值的核密度曲线的众数的绝对值越大,则指示正规化和/或生物分子变化的测量值的可信度越小;M值的核密度曲线的众数的绝对值越小,则指示正规化和/或生物分子变化的测量值的可信度越大。5.根据权利要求1所述的方法,其中,所述高通量测序为RNA-seq。6.一种检测生物调控分子的变化的方法,该方法包括:(1)根据权利要求1-5中任意一项所述的方法检测生物分子的变化,获得基因表达差异数值;(2)根据基因表达差异数值,将具有正表达差异值的差异基因和具有负表达差异值的差异基因分别作为分析对象,由差异基因的差异强度和生物调控分子与全体基因的结合强度来确定调控差异基因的生物调控分子的变化。7.根据权利要求6所述的方法,其中,所述生物调控分子为转录因子或m...

【专利技术属性】
技术研发人员:李雷王琳
申请(专利权)人:中国科学院数学与系统科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1