一种用于长链分子的数学序列重建方法技术

技术编号:21202704 阅读:25 留言:0更新日期:2019-05-25 02:03
本发明专利技术涉及一种长链分子序列数学重建算法,尤指一种用于基因DNA序列测定、蛋白质氨基酸序列测定或其他长链结构化学物质检测的一种用于长链分子的数学序列重建方法,包括:1)提供至少两个DNA分子链,2)打断成碎片序列形成X个基因文库,3)对基因文库的基因片段进行测序获取文库片段信息,4)对文库片段进行碎片全排列拼接,获取可能性集合,5)求交集,6)判断交集中的元素数量筛选得到正确的基因序列图谱;本发明专利技术属于数学算法技术,可实现基因序列的测定重建,以及蛋白质、多糖或其他具有单一结构的聚合物的序列测定重建;从而可提高目前的基因测序中的准确性,且本发明专利技术并非概率推测,而是建立在严谨的数学算法上,测定结构准确度高。

A Mathematical Sequence Reconstruction Method for Long Chain Molecules

The invention relates to a mathematical reconstruction algorithm for long-chain molecular sequences, especially a mathematical sequence reconstruction method for long-chain molecules used for DNA sequencing, protein amino acid sequencing or other long-chain structural chemical substance detection. The method includes: 1) providing at least two DNA molecular chains, 2) breaking fragmented sequences to form X gene libraries, 3) base pairs of gene libraries. Sequencing the fragments to obtain the information of Library fragments, 4) arranging and splicing the fragments of Library fragments to obtain the possibility set, 5) finding the intersection, 6) judging the number of elements in the intersection and screening to obtain the correct gene sequence map; the present invention belongs to the mathematical algorithm technology, which can realize the determination and reconstruction of gene sequence, as well as the aggregation of proteins, polysaccharides or other single structures. Sequence determination and reconstruction can improve the accuracy of current gene sequencing, and the present invention is not based on probability speculation, but on rigorous mathematical algorithm, with high accuracy of structure determination.

【技术实现步骤摘要】
一种用于长链分子的数学序列重建方法
本专利技术涉及一种长链分子序列数学重建算法,尤指一种用于基因DNA序列测定、蛋白质氨基酸序列测定或其他长链结构化学物质检测的一种用于长链分子的数学序列重建方法。
技术介绍
在生物学和材料学中都涉及到序列的检测,即对某一链的各种基团排列进行测定,如蛋白质的序列测定,DNA的序列测定,多糖的序列测定等等,以DNA测序为例,来阐述序列测定中面对的瓶颈,在分子生物学研究中,DNA的序列分析是进一步研究和改造目的基因的基础。目前用于测序的技术主要有Sanger等(1977)专利技术的双脱氧链末端终止法和Maxam和Gilbert(1977)专利技术的化学降解法,这二种方法在原理上差异很大,但都是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,产生A,T,C,G四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得DNA序列;Sanger测序法属第一代测序技术,是测序技术发展的源头,此技术是通过核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见DNA碱基序列的一种方法;第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了;第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但在序列读长方面比起第一代测序技术则要短很多;不同公司第二代基因检测技术的共同特点是DNA待测文库的构建,即利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库,然后通过不同的技术将此文库中的不同序列片段进行检测,最后对此文库中的序列片段进行拼接;通过对DNA链的碎片化,实现由Sanger测序法的单链检测转化为多链检测,进而实现多通量,快速测序。然而测序技术在近两三年中又有新的里程碑,以PacBio公司的SMRT和OxfordNanoporeTechnologies纳米孔单分子测序技术,被称之为第三代测序技术,与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增;其中PacBioSMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体;基本原理是:DNA聚合酶和模板结合,4色荧光标记4种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型;同时这个DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBioSMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来,他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔,小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰;如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用;同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔,即ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X10-21L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息,SMRT技术的测序速度很快,每秒约10个dNTP;但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,其出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而需要通过多次测序来进行有效的纠错。
技术实现思路
为解决上述问题,本专利技术旨在公开一种长链分子序列数学重建算法,尤指一种用于基因DNA序列测定、蛋白质氨基酸序列测定或其他长链结构化学物质检测的一种用于长链分子的数学序列重建方法;通过本专利技术的数学测序方法,提高第二代基因测序中的准确性,且本专利技术建立在严谨的数学算法上准确度更高。为实现上述目的,本专利技术采用的技术方案是:一种用于长链分子的数学序列重建方法,其特征在于,所述的测序方法主要包括以下步骤:1)提供一个个体中至少两个待测DNA分子链,或者对某个体的DNA链用PCR仪进行增殖,设DNA分子数量为X,X为≥2的自然数;2)将所述X个DNA分子打断成碎片序列,形成X个基因文库;3)对X个基因文库的基因片段进行测序,获得X个基因文库的片段信息集合;4)将X个基因文库的碎片进行全排列拼接,获取可能性集合;5)对可能性集合求交集;6)判断交集中的元素数量,通过精确的元素数量等式,筛选得到正确的基因序列图谱。进一步地,当所述步骤5)的交集只有一个时,所得结果为所测试分子的序列结构;否则,重复所述步骤1)-5)进行测试和计算。进一步地,所述步骤3)中,设X个基因文库分别为基因文库A、基因文库B、…、基因文库X,基因文库A的片段信息为{A1,A2,A3,…,Am},基因文库B的片段信息为{B1,B2,B3,…,Bn},基因文库X的片段信息为{X1,X2,X3,…,Xn}。进一步地,所述步骤4)中,设可能性集合分别为集合A、集合B、…、集合X,步骤5)的交集为交集G,G=A∩B∩…∩X;当G中元素数量=0,则步骤6)结果判断为X个基因文库中存在错误测序;若G中元素数量=1,则步骤6)结果判断交集G为正确的基因序列图谱;若G中元素数量>1,则需要重复步骤1)-5)的测试和计算,直到G中元素数量=1时,得到正确的基因序列图谱。进一步地,所述步骤1)的DNA分子链还可以替换为单一蛋白质分子链、单一多糖链,以测定重建蛋白质、多糖序列。本专利技术的有益效果体现在:本专利技术属于数学算法技术,通过本专利技术的步骤方法可实现基因序列的测定重建,以及蛋白质、多糖或其他具有单一结构的聚合物的序列测定重建;采用本专利技术的步骤时,自动判断序列的正确性而进行重测,可提高目前的基因测序中的准确性,且本专利技术并非建立在基因库样本进行概率推测,而是建立在严谨的数学算法上,测定结构准确度高。附图说明图1是本专利技术的操作流程图。具体实施方式下面结合附图详细说明本专利技术的具体实施方式:一种用于长链分子的数学序列重建方法,所述的测序方法主要包括以下步骤:1)提供一个个体中至少两个待测DNA分子链,或者对某个体的DNA链本文档来自技高网
...

【技术保护点】
1.一种用于长链分子的数学序列重建方法,其特征在于,所述的测序方法主要包括以下步骤:1)提供一个个体中至少两个待测DNA分子链,或者对某个体的DNA链用PCR仪进行增殖,设DNA分子数量为X,X为≥2的自然数;2)将所述X个DNA分子打断成碎片序列,形成X个基因文库;3)对X个基因文库的基因片段进行测序,获得X个基因文库的片段信息集合;4)将X个基因文库的碎片进行全排列拼接,获取可能性集合;5)对可能性集合求交集;6)判断交集中的元素数量,通过精确的元素数量等式,筛选得到正确的基因序列图谱。

【技术特征摘要】
1.一种用于长链分子的数学序列重建方法,其特征在于,所述的测序方法主要包括以下步骤:1)提供一个个体中至少两个待测DNA分子链,或者对某个体的DNA链用PCR仪进行增殖,设DNA分子数量为X,X为≥2的自然数;2)将所述X个DNA分子打断成碎片序列,形成X个基因文库;3)对X个基因文库的基因片段进行测序,获得X个基因文库的片段信息集合;4)将X个基因文库的碎片进行全排列拼接,获取可能性集合;5)对可能性集合求交集;6)判断交集中的元素数量,通过精确的元素数量等式,筛选得到正确的基因序列图谱。2.根据权利要求1所述的一种用于长链分子的数学序列重建方法,其特征在于,当所述步骤5)的交集只有一个时,所得结果为所测试分子的序列结构;否则,重复所述步骤1)-5)进行测试和计算。3.根据权利要求1所述的一种用于长链分子的数学序列重建方法,其特征在于,所述步骤3)中,设X个基因文库分别为基因...

【专利技术属性】
技术研发人员:胡洪超舒绪刚
申请(专利权)人:仲恺农业工程学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1