用于所存储的多核苷酸的取回的引物设计制造技术

技术编号:22174574 阅读:81 留言:0更新日期:2019-09-21 15:13
本公开描述了用于提高存储在多核苷酸序列数据存储系统中的数据的随机存取的准确性的技术。用于多核苷酸序列复制和扩增的引物可以对照多个准则进行评分,多个准则指示核苷酸序列用作引物的适合性。具有指示用作引物的特定适合性的得分的引物可以被添加到特定的一组引物中。来自一组引物的引物可以用于编码数字数据的多核苷酸序列的扩增和复制。另外,可以确定引物靶与编码数字数据的有效载荷之间的重叠量。最小化引物靶与有效载荷之间的重叠量可以提高多核苷酸复制和扩增的效率。可以随机化数字数据的位以最小化编码数字数据的有效载荷与引物靶之间的重叠量。

Primer design for retrieving stored polynucleotides

【技术实现步骤摘要】
【国外来华专利技术】用于所存储的多核苷酸的取回的引物设计
技术介绍
多核苷酸序列可以排列成有机分子的线性链,有机分子是含氮碱基,诸如在脱氧核糖核酸(DNA)的情况下的腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)以及在核糖核酸(RNA)的情况下的T、G、C和尿嘧啶(U)。多核苷酸序列可以是天然存在的或合成的。在一些情况下,多核苷酸序列中所包括的个体碱基可以与另一多核苷酸序列中的互补碱基配对以产生多核苷酸序列的双链排列。例如,在脱氧核糖核酸(DNA)的情况下,T和A是互补的,并且G和C是互补的。在核糖核酸(RNA)的情况下,T和U是互补的,并且G和C是互补的。两个多核苷酸序列中的互补核苷酸可以彼此对准以形成双链多核苷酸。多核苷酸序列的两个端(称为5'和3'端)在化学上是不同的。多核苷酸序列通常以左侧的5'核苷酸端开始表示。不同链之间的相互作用可以基于序列来预测:如果它们是互补的,则两条单链可以彼此结合并且形成双螺旋。双螺旋中的两条链具有相反的方向性(5'端附接到另一条链的3'端),因此这两个序列是彼此的“反向互补”。两条链不需要完全互补以彼此结合。多核苷酸序列复制可以利用通常称为“聚合酶”的酶,该酶附接到多核苷酸序列的一部分并且产生该多核苷酸序列的互补链。例如,聚合酶可以附接到与多核苷酸序列的端上的靶区域结合的引物,并且通过以下方式沿着核苷酸的链移动:标识链中的个体核苷酸,生成互补核苷酸,并且对序列中的下一核苷酸重复该过程。多核苷酸复制技术可以用于从单个多核苷酸序列产生数千个双链多核苷酸序列。在一些情况下,多核苷酸序列中所包括的核苷酸之间的相互作用可能导致线性链失去其结构并且变得排列成二级结构。例如,多核苷酸序列的部分可以折叠以产生环或发夹结构。多核苷酸序列的二级结构的形成可能干扰这些多核苷酸序列的复制。另外,在核苷酸序列的末端以外的位置处对针对引物的结合位点的复制可能导致在复制过程中产生的双链多核苷酸序列的错误。为了说明,在复制过程中产生的一些双链多核苷酸序列可能是不完整的和/或不对应于模板多核苷酸序列。
技术实现思路
提供本
技术实现思路
是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。本
技术实现思路
不旨在标识所要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求保护的技术方案的范围。可以将数字数据编码为一系列核苷酸,并且可以生成编码数字数据的一个或多个多核苷酸序列。包括与数字数据相对应的核苷酸排列的多核苷酸序列的部分在本文中可以称为“有效载荷(payload)”。除了包括有效载荷之外,多核苷酸序列还可以包括其他区域,这些其他区域包括可以用于编码其他信息的附加核苷酸排列。附加信息可以包括用于重新组装从多个多核苷酸序列解码的二进制数据的寻址信息。多核苷酸序列还可以包括可以用于其他目的的碱基排列。例如,多核苷酸序列可以包括包括与多核苷酸序列复制技术相关地使用的核苷酸的区域。在一些情况下,在多核苷酸复制技术期间引物可以与之结合的多核苷酸序列的区域在本文中可以称为“引物靶”。引物是可以与引物靶结合的核苷酸的序列,并且聚合酶可以利用引物作为起始点来复制靶序列的核苷酸。引物和对应的引物靶具有互补的核苷酸序列。可以使用多个准则来评估引物,这些准则可以指示用作要用于作为多核苷酸复制的一部分来合成互补多核苷酸序列的起始序列的适合性。评估准则可以对应于二级结构形成、G/C含量、解链温度、A/T区域的长度、G/C区域的长度、引物二聚体形成、引物的核苷酸序列与可能存在的其他核苷酸序列的相似性、或其组合。例如,可以对照评估准则评估引物的多个特性。在一些情况下,可以根据评估准则对引物的个体核苷酸进行评分。个体核苷酸的得分可以被汇总并且与阈值进行比较。在引物的汇总得分低于阈值得分的情况下,可以将引物添加到可以用于生成可以被复制的多核苷酸序列的一组引物。可以生成包括有效载荷和至少一个引物靶的多核苷酸序列,至少一个引物靶对应于来自适合用于多核苷酸复制的一组引物的引物。可以标识与有效载荷相关联的引物,使得引物靶中的核苷酸序列与有效载荷的核苷酸序列的一个或多个部分之间的重叠量最小化。另外,在一些情况下,引物靶的序列与有效载荷组的序列之间的重叠量可以最小化。重叠量可以通过比较引物靶中所包括的核苷酸序列与有效载荷中的各种核苷酸区域来确定。在各种实现中,重叠量可以指示引物靶序列与有效载荷序列之间的序列一致性量。在引物靶的核苷酸序列与有效载荷的至少一个区域的核苷酸序列之间的重叠量大于阈值量的情况下,可以执行一个或多个补救动作。为了说明,可以将另一引物与有效载荷相关联,并且可以在与新引物相对应的新引物靶的核苷酸序列与有效载荷的区域的核苷酸之间进行附加的比较,以确定任何重叠区域。在另一实现中,由有效载荷编码的二元数据可以被随机化,并且新的核苷酸序列可以针对有效载荷被生成并且与引物进行比较以确定引物靶的核苷酸序列与有效载荷的新核苷酸序列的区域之间的重叠量小于阈值重叠量。附图说明参考附图阐述具体实施方式。在附图中,附图标记的(多个)最左边的数字标识首次出现附图标记的图。在不同图中使用相同的附图标记表示相似或相同的项。图1示出了产生用于编码数字数据的多核苷酸序列的示例过程的示意图。(SEQIDNO:1-4)图2示出了产生用于取回由多核苷酸序列编码的数字数据的一组引物的示例过程的示意图。图3示出了包括根据多个引物评估准则的针对引物中所包括的核苷酸的示例评分的表格。图4示出了产生具有编码数字数据的有效载荷的多核苷酸序列的示例过程的流程图,该数字数据包括与多核苷酸序列的一个或多个引物靶区域的最小重叠量。图5示出了使用一组引物和多个信息有效载荷组装多核苷酸序列的示例过程的示意图。(SEQIDNO:1-6)图6示出了产生用于存储数据的多核苷酸序列的示例计算设备的框图。具体实施方式本公开描述了用以提高由多核苷酸编码的数据的随机访问准确性和提高多核苷酸数据存储系统中的多核苷酸序列复制和扩增(amplification)的效率和特异性的技术。由计算设备产生的大部分数据存储在包括各种磁存储介质、光存储介质和/或固态存储介质的传统数据存储系统上。传统数据存储系统的容量未跟上计算设备产生数据的速率。诸如DNA的多核苷酸序列可以用于以超过传统存储系统容量的规模来存储非常大量的数据。包括在多核苷酸序列中的核苷酸排列(例如,CTGAAGT......)可以对应于对数据编码的位排列(例如,11010001......)。数据可以包括音频数据、视频数据、图像数据、文本数据、软件、其组合等。多核苷酸序列可以存储在一个或多个容器中,一个或多个容器也可以包含诸如液体的培养基。在特定实现中,多核苷酸序列可以存储在诸如水的液体中。每个容器可以存储编码数字数据的多核苷酸序列。响应于接收到取回特定数字数据的请求,可以标识编码所请求的数据的一个或多个多核苷酸序列。可以从包括与所请求的数据相对应的多核苷酸序列的容器中获取样品。可以对多核苷酸序列进行解码以产生可以由计算设备处理的数字数据。对由多核苷酸序列存储的数据的取回可以使用复制对所请求的数据进行编码的多核苷酸序列的过程来实现。例如,聚合酶链式反应(PCR)可以用于复制存储所请求的数据的多核苷酸序列。多核苷酸序列复制可以利用通常称为本文档来自技高网
...

【技术保护点】
1.一种系统,包括:处理单元;与所述处理单元通信的存储器,所述存储器存储计算机可读指令,所述计算机可读指令在由所述处理单元执行时执行包括以下的操作:获取与引物序列互补的引物靶序列;将所述引物靶序列与有效载荷序列进行比较,所述有效载荷序列编码数字数据;确定所述引物靶序列的区域与所述有效载荷序列的区域具有大于阈值相似性的相似性;生成替代有效载荷序列,所述替代有效载荷序列编码相同的所述数字数据;以及确定所述引物靶序列与所述替代有效载荷序列具有小于阈值相似性量的相似性量。

【技术特征摘要】
【国外来华专利技术】2017.02.08 US 15/427,3441.一种系统,包括:处理单元;与所述处理单元通信的存储器,所述存储器存储计算机可读指令,所述计算机可读指令在由所述处理单元执行时执行包括以下的操作:获取与引物序列互补的引物靶序列;将所述引物靶序列与有效载荷序列进行比较,所述有效载荷序列编码数字数据;确定所述引物靶序列的区域与所述有效载荷序列的区域具有大于阈值相似性的相似性;生成替代有效载荷序列,所述替代有效载荷序列编码相同的所述数字数据;以及确定所述引物靶序列与所述替代有效载荷序列具有小于阈值相似性量的相似性量。2.根据权利要求1所述的系统,其中确定所述引物靶序列的所述区域与所述有效载荷序列的所述区域重叠超过阈值量包括:通过比较所述引物靶序列的所述区域的核苷酸和所述有效载荷序列的所述区域的核苷酸,来确定所述引物靶序列的所述区域与所述有效载荷序列的所述区域之间的相似性度量。3.根据权利要求1或2所述的系统,其中:所述数字数据包括编码信息的数字序列;并且所述操作还包括:生成不同的数字序列以产生经修改的数字数据,所述经修改的数字数据编码相同的所述信息;以及确定与所述经修改的数字数据相对应的不同的核苷酸序列。4.根据权利要求3所述的系统,其中生成所述不同的数字序列以产生所述经修改的数字数据包括:使用伪随机数生成算法来生成位串;将所述位串存储在所述存储器的数据结构中;以及在所述位串与所述不同的数字序列之间执行异或运算。5.根据权利要求1至3中的任一项所述的系统,其中:所述操作还包括:生成表示第一多核苷酸序列的第一数据,所述第一多核苷酸序列包括所述有效载荷序列和所述引物靶序列;在确定所述引物靶序列的所述区域与所述有效载荷序列的所述区域具有大于所述阈值相似性的相似性之后,生成表示第二多核苷酸序列的第二数据,所述第二多核苷酸序列包括所述替代有效载荷序列和所述引物靶序列;并且表示所述引物靶序列的数据被附加到所述第一多核苷酸序列和所述第二多核苷酸序列中的至少一个多核苷酸序列的3'端或5'端。6.根据权利要求1至3或5中的任一项所述的系统,其中:所述替代有效载荷序列被编码,使得所述替代有效载荷序列的个体核苷酸不同于所述替代有效载荷序列中与所述个体核苷酸相邻的相应核苷酸;并且所述引物靶序列包括相同的至少两个相邻核苷酸。7.一种方法,包括:生成针对引物靶序列的第一数据;生成针对有效载荷序列的第二数据,所述有效载荷序列编码数字数据;以及确定所述引物靶序列与所述有效载荷序列的至少一个子区域之间的序列一致性量,所述子区域具有与所述引物靶序列相同的长度。8.根据权利要求7所述的方法,其中确定所述引物靶序列与所述有效载荷序列之间的所述序列一致性量包括:分析与所述引物靶序列和所述有效载荷序列至少部分地互补的引物的热力学特性。9.根据权利要求7或8所述的方法,还包括:确定所述引物靶序列与所述有效载荷序列之间的所述序列一致性量等于或大于阈值序列一致性量;生成针对与所述引物靶序列不同的替代引物靶序列的第三数据;确定所述替代引物靶序列与所述有效载荷序列之间的序列一致性量;确定所述替代引物靶序列与所述有效载荷序列之间的所述序列一致性量小于所...

【专利技术属性】
技术研发人员:陈圆觉L·H·塞兹S·耶卡尼恩S·D·安格K·施特劳斯
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1