估计DNA芯片探针‑靶亲和性的方法和制造DNA芯片的方法技术

技术编号:16934805 阅读:75 留言:0更新日期:2018-01-03 05:11
一种估计第一DNA链或“探针”与第二DNA链或“靶”杂交形成长度为Lbp的杂交体的亲和性φ的方法,所述方法包括:‑在杂交体的一组M个分区的每一分区内,计数一组P个DNA链杂交体的每一杂交体存在于所述分区中的次数,所述杂交体长度为k,小于长度Lbp,或是“k‑杂交体”;‑对于长度为Lbp的杂交体中一组L个错配组合的每一错配组合,确定所述错配对是否存在于所述杂交体中;和根据以下关系式计算亲和性φ:

Estimation method for DNA chip probe target affinity and DNA chip manufacturing method

An estimate of the first DNA chain or \probe\ and \target\ or second DNA chain length form hybridization affinity with the hybrid method of Lbp, the method comprises the following steps: in each partition of the hybrid group M partition, the number of each hybrid counting a set of P DNA chain hybrids exist in the partition, the hybrid body length k, length less than Lbp, or \K hybrids\; for length for each one hybrid Lbp in combination with a set of L mismatch combinations, determine the mismatch in the presence of the hybrid; and according to the following formula to calculate the affinity:

【技术实现步骤摘要】
【国外来华专利技术】估计DNA芯片探针-靶亲和性的方法和制造DNA芯片的方法本专利技术涉及转录物组领域,尤其是DNA链之间的杂交研究。本专利技术特别用于设计杂交支持物的领域,尤其是DNA芯片。
DNA芯片测量转录物表达水平,这是根据简单DNA链与互补DNA链一起时自发重新形成双链的性质,即其与互补链杂交的性质。为了解生物样品中的转录物表达水平,DNA芯片包括含氮碱基的序列,称为“探针”,其设计成与一组感兴趣转录物或“靶”转录物特异杂交。为提高测量的稳健性,转录物由数个探针靶向,共同形成“探针组”。出于高速筛选的目的,DNA芯片因而包括靶向I个转录物的I个“探针组”,总共J个不同探针。出于测量目的,每一探针同样重复大量次数,重复的探针布置在孔中。寻求表达的靶转录物能产生数千个或数以万计的含氮碱基A、G、C、T,其首先通过扩增过程转化成含较小DNA片段的溶液,所述片段长度通常为25-200个含氮碱基,由荧光着色剂标记。如此获得的溶液随后沉积于DNA芯片孔中。每一孔对应于重复数次并针对转录物设计的探针,这因而引起一些这类片段与孔中探针的杂交。洗涤DNA芯片以仅保持孔中形成的杂交体后,每一孔荧光的测量随后通过高分辨率扫描仪实施,该量度代表孔中存在的杂交体数量。随后应用表述“探针荧光”或“探针强度”。为较好理解以下内容,必须引入下列定义。因此,术语“探针”指构成DNA芯片、更常指采用与探针杂交的任何装置的含氮碱基或“核苷酸”序列。术语“靶”指来自转录物的含氮碱基序列,能与其探针形成杂交体。表述“特异靶”涉及这样的靶,其对应于已鉴定的转录物的一部分、根据碱基序列和转录物中的定位针对其设计探针。术语“完美”或“相同”杂交体涉及由探针和靶形成的杂交体,其在含氮碱基方面彼此严格互补(杂交体更多地被称为“完美匹配”)。表述“错配”涉及探针与靶的杂交体,其中彼此面对的探针的碱基与靶的碱基不互补(更多地被称为“错配”)或是不面对任何碱基的靶的或探针的碱基(更多地被称为“缺口”)。这也称为探针与靶错配。术语“k-聚体”涉及k个核酸碱基的序列。含氮碱基序列的“长度”对应于其包含的含氮碱基数目。探针/靶杂交体的长度更通常对应于探针的长度。DNA芯片的一般原理似乎简单,因为其包括选择对应于互补转录物片段的DNA序列的探针,然而难以将其付诸实施以获得高质量DNA芯片。事实上,首先,可能认为选择与靶形成完美杂交体的探针是足够简单的。目前,完美杂交体可能太不稳定,从而无法耐受洗涤,这最终导致所测信号过弱,无法确定转录物表达水平。因此应注意,对于给定转录物,其产生探针的部分不等同,因而最好是选择能获得足够稳定以获得有意义的测量的探针/靶杂交体的转录物部分。此外,潜在显示一个或多个错配的探针与靶也可能稳定杂交。这种靶能够与特异靶不同,可源自生物样品中存在的另一转录物,该情况中获得错误检测或“假阳性”。这是寻求探针的原因,所述探针:-仅靶向转录物的单一确定部分,该部分独特且因而与在另一位置的转录物自身或生物样品内可能存在的另一转录物中所见不同,并展示出与显示错配的任何其它靶亲和性低。随后应用表述“特异探针”;和-展示出与特异靶的强亲和性,即与之形成稳定杂交体。这称为“探针与特异靶的强亲和性”,或者“亲和”或“敏感”探针。应记住转录物可包括数以万计的碱基,生物样品可包括许多转录物,而不能简单和有效检查样品组成,易理解长度小于100左右碱基的探针数需要设计并测试以仅保留特异和亲和探针。由于DNA芯片的实验设计困难甚至不可行,因而设计生物计算工具以评价探针的特异性和亲和性并因此协助DNA芯片设计。例如,Mei等(“Probeselectionforhigh-densityoligonucleotidearrays”,ProceedingsoftheNationalAcademyofScience,100(20):11237-11242,September2003)的文献描述定量探针质量的评分。该评分包括定量探针特异性的第一项与获自探针亲和性的第二项的乘积。第一项在全人类基因组上测定探针与不同于靶转录物的其它转录物之间的交叉反应风险。第二项就其部分而言,包括敏感性项,表示为直线I=K+S.ln([T])的斜率(coefficientdirecteur),其中I是给定探针的强度,S是敏感性,K是靶-探针亲和性以及[T]是靶浓度。作者显示此敏感性项能用基于探针核酸序列的杂交模型计算。根据此模型,因而从亲和性观点出发认为探针仅与碱基并列,其之间没有特定关联,且与其能杂交的靶之间也没有任何关联。此亲和性模型有时称为“任何-位置单体模型”,因此仅表示为每一碱基在每一位置存在/不存在的函数。然而,此亲和性模型被证明不令人满意,因为其不考虑探针与靶之间的错配,且仅寻求对探针与其特异靶的亲和性建模。因此,设计更复杂的亲和性模型以考虑非特异杂交或交叉反应。例如,Zhang等(“Amodelofmolecularinteractionsonshortoligonucleotidemicroarrays”,Naturebiotechnology,21(7):818-821,July2003)的文献描述统计模型,将所测强度表示为2个项之和,其分别与探针和其特异靶杂交以及探针和非特异靶组杂交相关。此文献中,反映第j个转录物的表达水平的DNA芯片第i个孔即第i个探针的强度因而根据以下关系式预测:其中是预测强度;Nj是靶的量,获自第j个转录物,通过DNA芯片上沉积的溶液内存在的第j个探针组测量;是靶的量,获自被DNA芯片上沉积的溶液内存在的探针组中的探针靶向的第j个转录物的不同转录物;ε(bk,bk+1)是分别存在于探针的k和k+1位的探针连续碱基(bk,bk+1)对或“二聚体”的释能(énergiedelibération),独立于探针中所述对的位置,当探针与其特异靶杂交并因而与此靶形成完美杂交体时所述对的释能;ωk是在探针与此靶杂交时,定量探针中(bk,bk+1)对的位置影响的因子;ε★(bk,bk+1)是(bk,bk+1)对的释能,独立于其在探针中的位置,当探针与获自另一转录物的靶杂交并因而能包括错配时所述对的释能;和是在探针与此靶杂交时,定量探针中(bk,bk+1)对的位置影响的因子;和B是标量。这些参数的值如下测定:在文献作者所测强度的基础上实施鉴定。第一项对应于特异靶的贡献,等于DNA芯片上杂交的特异片段的量以及反映探针与其特异靶之间亲和性的项(即具有分离探针与其特异靶所需能量的指数项)的商。根据模型,能量等于二聚体(bk,bk+1)各贡献之和,由依赖于二聚体位置的项确定权重。依照定义,此项因而只源于探针组中形成的完美杂交体。因而对于每一二聚体,仅有单一构型,即与其互补体的连接。第二项就其部分而言对应于非特异探针的比例。目前,不同于与特异靶杂交的探针,当考虑与其它转录物的靶杂交即交叉杂交时,可能确实有完美杂交(如果另一转录物产生与特异靶相同的靶)但首先是有一个或多个错配的杂交。因此,对于给定二聚体,有不少于24种不同的杂交构型。因此,第二项无法区分不同错配类型。此类模型有一定问题。首先,产生鉴定问题。应注意,事实上,必须鉴定作为彼此乘积的项。没有假定一定数量的额外约束,也未描本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201580074888.html" title="估计DNA芯片探针‑靶亲和性的方法和制造DNA芯片的方法原文来自X技术">估计DNA芯片探针‑靶亲和性的方法和制造DNA芯片的方法</a>

【技术保护点】
一种估计第一DNA链或“探针”与第二DNA链或“靶”杂交以形成长度为Lbp的杂交体的亲和性φ的方法,所述方法包括:‑在杂交体的一组M个分区的每一分区内,计数一组P个DNA链杂交体的每一杂交体存在于所述分区中的次数,所述DNA链杂交体长度为k,小于长度Lbp,或是“k‑杂交体”;‑对于长度为Lbp的杂交体中一组L个错配组合的每一错配组合,确定所述错配对是否存在于所述杂交体中;和‑根据以下关系式计算亲和性φ:

【技术特征摘要】
【国外来华专利技术】2014.12.01 FR 14617221.一种估计第一DNA链或“探针”与第二DNA链或“靶”杂交以形成长度为Lbp的杂交体的亲和性φ的方法,所述方法包括:-在杂交体的一组M个分区的每一分区内,计数一组P个DNA链杂交体的每一杂交体存在于所述分区中的次数,所述DNA链杂交体长度为k,小于长度Lbp,或是“k-杂交体”;-对于长度为Lbp的杂交体中一组L个错配组合的每一错配组合,确定所述错配对是否存在于所述杂交体中;和-根据以下关系式计算亲和性φ:该表达式中:是当一组P个k-杂交体中第p个k-杂交体存在于所述分区的第m个区域时,定量此第p个k-杂交体对亲和性φ的贡献的预定标量,且xm,p是此第p个k-杂交体在所述分区第m个区域中被计数的次数;和α是实数项。2.如权利要求1所述的方法,其中该表达式中是定量所述第l对错配对亲和性φ的贡献的预定标量,如果所述第l对错配存在于所述杂交体中,则否则yl=0,π是实数,有利地等于0。3.如权利要求2所述的方法,其包括:-对于一组N个学习对的每一对,各包括能共同形成长度为Lbp的杂交体的第一和第二DNA链,集合一定量的所述对的第一DNA链和一定量的所述对的第二DNA链,并测量代表此集合后形成的DNA链杂交体的量的强度In,所述校准对的杂交体包括至少一次的P个k-杂交体组的每一k-杂交体;和-最小化所测强度的向量与所测强度的向量I的预测向量之间的距离D来计算向量向量和向量所述计算通过根据以下关系式解答优化问题来进行:Mn=θn.(Xn.B+Yn.Δ)该表达式中:Θ=(θ1…θn…θN)T是的向量,其中θn是编码为第n个校准对而集合在一起的一定量的第一和/或第二DNA链的标量;Xn=(Xn,1…Xn,m…Xn,M)是的预定设计的行矩阵,其中Xn,m=(xn,m,1…xn,m,p…xn,m,P)是的行矩阵且xn,m,p是对于由第n个校准对的第一和第二DNA链形成的杂交体,第p个k-杂交体存在于所述分区的第m个区域中的次数;B=(B1…Bm…BM)T是的向量,其中Bm=(βm,1…βm,p…βm,P)T是的向量,并且βm,p是当P个k-杂交体组的第p个k-杂交体存在于所述分区的第m个区域时,定量此第p个k-杂交体对长度为Lbp的杂交体亲和性的贡献的标量;Yn=(yn,1…yn,l…yn,L)是的预定设计的行矩阵,其中如果所述第l对错配存在于第n个校准对的第一和第二DNA链形成的杂交体中,则yn,l=1;和Δ=(δ1…δl…δL)T是的向量,其中δl是定量所述第l对错配对长度为Lbp的杂交体亲和性的贡献的标量。4.如权利要求1-3中任一项所述的方法,其特征在于:k-杂交体具有的长度k为2至7;和所述分区的区域数M是2至25-k。5.如权利要求4所述的方法,其特征在于,所述区域数M是3至15。6.如权利要求4或5所述的方法,其特征在于,所述k-杂交体具有的长度k为3至5。7.如权利要求2-6中任一项所述的方法,其特征在于,所述解答优化问题通过根据以下关系式的额外约束来解决:其中I是不同RNA的数,α是预定的正标量,有利地等于I。8.如权利要求2-7中任一项所述的方法,其特征在于,所述优化...

【专利技术属性】
技术研发人员:J·贝克尔P·佩罗F·马莱
申请(专利权)人:生物梅里埃公司里昂公立收容所
类型:发明
国别省市:法国,FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1