基于DNA分子通行的纳米孔实时高通量测序系统及方法技术方案

技术编号:36947263 阅读:12 留言:0更新日期:2023-03-22 19:08
本发明专利技术公开了一种基于DNA分子通行的纳米孔实时高通量测序系统及方法,包括DNA编码模块、分子料斗装载DNA序列链模块、纳米孔测序模块和DNA解码模块;将用户需要的传输数据通过碱基配对存储在DNA序列中;将已编码得到的DNA序列与分子料斗链接,在纳米孔蛋白轨道上进行运输,装载DNA链的分子马达在轨道上传输;通过不同碱基对阻断电流的能力不同,从而完成实时测序;通过DNA解码模块消除分子料斗在纳米孔中蛋白质轨道上回跳而造成的冗余误码。本发明专利技术提供的系统解决了重复数据删除错误的LT实时纠错算法,来消除料斗回跳而产生的冗余信息;消除由料斗后退引起的冗余,从而可以降低这类误码带来的高昂通信成本,获得更大的信噪比,便于推广DNA分子通信的应用。便于推广DNA分子通信的应用。便于推广DNA分子通信的应用。

【技术实现步骤摘要】
基于DNA分子通行的纳米孔实时高通量测序系统及方法


[0001]本专利技术涉及DNA分子通信、DNA测序以及编译码等领域,涉及基于分子料斗的纳米孔测序方法及其插入、重复、删除等测序错误的纠错算法。

技术介绍

[0002]新冠病毒疫情在全世界传播的三年以来,快速病原检测、DNA/RNA高通量测序的需求呈指数级增长。同时,在信息爆炸时代,当前的存储技术因物理极限,无法长时间存储,存储性能的提升是以高能耗为代价的。由于DNA双螺旋结构高稳定性、高信息密度的特点,DNA存储能够实现高信息量、超长时间、超低能耗的存储方式,其性能超越当前硅基磁质的存储方式,并提供具备生物兼容性和环保的生物启发式计算通信存储方式的革命性思维。由于如今PCR等生物技术的快速发展,使我们能够以更具成本效益的方式大规模地操纵DNA分子,实现大规模DNA测序、DNA编辑的落地应用。在这些能够改变商业模式的应用中,实现高通量实时的DNA测序是其中关键的挑战。
[0003]目前,DNA分子测序的主要方法有三种:
[0004]第一代测序方法,主要是sanger测序,其主要采用双脱氧链终止法:采用DNA复制原理。其技术核心是双脱氧核苷三磷酸(ddNTP)的使用,由于缺少3
’‑
OH基团,不具有与另一个脱氧核糖核苷三磷酸(dNTP)连接形成磷酸二酯键的能力,这些双脱氧核苷三磷酸(ddNTP)可用来中止DNA链的延伸。此外,这些双脱氧核苷三磷酸(ddNTP)上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。此方法测序通量低,而且价格昂贵,不适用于大规模分子通信。
[0005]第二代测序方法,主要有illumina测序平台,其使用克隆单分子阵列技术。首先将目的DNA片段打断成100

200bp,随机连接到固相基质上,经过Bst聚合酶延伸和甲酸胺变性的桥聚合酶链式反应(PCR)循环,生成大量的DNA簇,之后的反应与Sanger法类似。illumina主要的缺点是测序长度短,100bp以上错误率就会大大提高,并且在做短序列的读取在做基因组装的时候,遇到大的重复片段就会很麻烦。
[0006]第三代测序技术是指单分子测序技术,在对DNA测序时,不需要经过聚合酶链式反应(PCR)扩增,实现了对每一条DNA分子的单独测序。其中最流行的第三代测序方法是纳米孔测序。其采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,四种核苷酸的空间构象不一样,因此当它们通过纳米孔时,所引起的电流变化不一样。由多个核苷酸组成的DNA或RNA链通过纳米孔时,检测通过纳米孔电流的强度变化,即可判断通过的核苷酸类型,从而进行实时测序。其主要优点是:单分子测序,测序读长长,超过150kb,测序速度快,可以对测序数据进行实时监控,并且其测序机器轻巧方便携带。第三代测序方法,用DNA分子通信系统架构,实现高通量实时的纠错次序方法。基于蛋白轨道的分子料斗机制能够实现DNA链在分子轨道上高速稳定移动,控制DNA链稳定穿过纳米孔,完成测序过程。实验常用的分子料斗包含驱动蛋白和动力蛋白,通过连续的硫醇二硫化物交换反应,化学反应产生的力和外部电场驱动力共
同驱动DNA链移动。装载着带有信息的DNA序列沿着纳米孔内部轨道,定向移动数百步,不会脱离管道。DNA链整体的运动方向由外部施加的电场强度决定,单个分子料斗沿化学棘轮控制的纳米孔中的轨道移动。然而,即使施加固定的电位,由于纳米孔内料斗构象不稳定性,会存在单一碱基位的回跳现象,从而重读已测序过的碱基序列,导致外部测量所得的离子电流存在相似的重复段,导致译码时产生冗余,解码出现错误的信息。目前处理分子料斗回跳产生的错误现有方法:(1)多次重读;(2)多重序列对比算法(MSA);(3)混合纠错;(4)CD

Hit软件聚类算法;多次重读方法是采用当分子料斗携带DNA序列移动到纳米孔结点,改变外加电势让分子料斗改变运动方向,再次进入纳米孔中的蛋白质轨道对离子电流读取,提高DNA序列读取次数,从而减少分子料斗回跳产生的误差,但是成本过高,测序时间过长,需要通过大量读取次数才能降低误码。多重序列对比算法(MSA)通过将测序得到的碱基序列相互比对,使相同残基位点位于同一列,以便发现不完全一样的序列之间相似成分,形成有尽可能多的列具有相同字符,但是没有办法处理及其相似的带有不同信息的碱基片段序列,该算法会误认为同一条碱基序列片段,从而造成新的误码。混合纠错法通过接收端收到长读取和短读取数据两个序列数据源,若检查的误码情况在接收端纠错能力范围以内,则进行自动纠错,若是超过了接收端的纠错能力,但是能检测出来,则反馈信道请求发射端重新发送,来进行减少错误,但是该方法需要足够的测序深度,成本过高。CD

Hit软件聚类算法:是一种在CD

Hit软件上运行的增量聚类方法,首先对输入的序列根据序列的长短进行排序,并从最长到最短的顺序处理它们。将最长的序列自动的分为第一类并作为第一类的代表序列,然后将剩下的序列与在其之前发现的代表性序列进行比较,根据序列相似性将其归为其中的一类或成为新的一个聚类的代表序列,如此遍历所有序列完成聚类过程。在默认方式中,序列仅和每一个聚类中的代表性序列(为这类中的最长序列)进行比较而不和这个类中的其他序列进行比对。在准确模式下,序列会和每个聚类中的所有序列进行比较然后决定是成为新的一类还是归为其中的一类中。但是其工作量大,且成本较高。

技术实现思路

[0007]有鉴于此,本专利技术的目的在于提供一种基于DNA分子通行的纳米孔实时高通量测序系统及方法,该方法利用去重算法减少第三代单分子测序技术中的冗余序列。
[0008]为达到上述目的,本专利技术提供如下技术方案:
[0009]本专利技术提供的基于DNA分子通行的纳米孔实时高通量测序系统,包括DNA编码模块、分子料斗装载DNA序列链模块、纳米孔测序模块和DNA解码模块;
[0010]所述DNA编码模块,用于将用户需要的传输数据通过碱基配对存储在DNA序列中;
[0011]所述分子料斗装载DNA序列链模块,用于将已编码得到的DNA序列与分子料斗链接,用于在纳米孔蛋白轨道上进行运输,装载DNA链的分子马达在轨道上传输;
[0012]所述纳米孔测序模块,通过不同碱基对阻断电流的能力不同,而导致产生的电流检测不同,从而完成实时测序;
[0013]所述DNA解码模块,用于消除分子料斗在纳米孔中蛋白质轨道上回跳而造成的冗余误码。
[0014]进一步,所述碱基配对采用沃森

克里克碱基配对。
[0015]进一步,所述DNA解码模块采用重复数据删除算法。
[0016]进一步,所述DNA编码模块采用采用LT码,所述LT码编码按照以下步骤进行:
[0017]首先源信息被分成k个长度为L的输入符号;度数d是从每个输出符号的度数分布中随机生成的;d个输入符号本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于DNA分子通行的纳米孔实时高通量测序系统,其特征在于:包括DNA编码模块、分子料斗装载DNA序列链模块、纳米孔测序模块和DNA解码模块;所述DNA编码模块,用于将用户需要的传输数据通过碱基配对存储在DNA序列中;所述分子料斗装载DNA序列链模块,用于将已编码得到的DNA序列与分子料斗链接,用于在纳米孔蛋白轨道上进行运输,装载DNA链的分子马达在轨道上传输;所述纳米孔测序模块,通过不同碱基对阻断电流的能力不同,而导致产生的电流检测不同,从而完成实时测序;所述DNA解码模块,用于消除分子料斗在纳米孔中蛋白质轨道上回跳而造成的冗余误码。2.如权利要求1所述的基于DNA分子通行的纳米孔实时高通量测序系统,其特征在于:所述碱基配对采用沃森

克里克碱基配对。3.如权利要求1所述的基于DNA分子通行的纳米孔实时高通量测序系统,其特征在于:所述DNA解码模块采用重复数据删除算法。4.如权利要求1所述的基于DNA分子通行的纳米孔实时高通量测序系统,其特征在于:所述DNA编码模块采用采用LT码,所述LT码编码按照以下步骤进行:首先源信息被分成k个长度为L的输入符号;度数d是从每个输出符号的度数分布中随机生成的;d个输入符号被统一选择并一起异或以输出编码符号;接收到的编码符号数n应满足n≥k;随后,将编码符号映射到DNA碱基中,遵循最后将相应的寡核苷酸序列输出。5.如权利要求1所述的基于DNA分子通行的纳米孔实时高通量测序系统,其特征在于:所述DNA解码模块中的重复数据删除算法按照以下步骤进行:第一步骤,数据初始化,输入所读取的寡核苷酸序列X
n
,n为寡核苷酸序列X
n
的碱基个数,定义最大限度回跳反步的次数为N,定义寡核苷酸序列X
n
中单个碱基为x
n
,定义因分子料斗发生回跳反步,而造成误码的碱基序列段为S
N+1
,S
N+1
∈X
n
,定义冗余为Y;第二步骤,若在读取DNA序列时,分子料斗发生了回跳反步,将已读取的寡核苷酸碱基x
n
赋值给碱基序列段S
N+1
(i)中进行纠错循环,若检测到纠错序列S
N+1
(i)中第i个碱基S
N+1
(i)与第i+2N个碱基S
N+1
(i+2N)相等,则将所读取寡核苷酸序列X
n
赋值到冗余Y中,并且...

【专利技术属性】
技术研发人员:孙玥王晴文程万里
申请(专利权)人:成都群智微纳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1