合成基因设计的计算方法技术

技术编号：6547489 阅读：320 留言：0更新日期：2012-04-11 18:40

本发明专利技术是针对用于设计对感兴趣的多肽进行编码的合成的核苷酸序列的方法。这些方法涉及将序列的数据库组织为N-长度的寡聚体序列的集合并且汇编了针对每个N-长度序列的概率得分的列表。使用这些概率得分将一个或多个更高得分的序列替换进入该亲本核苷酸序列之中以生成优化的序列。通过去除无意的可读框或不令人希望的短DNA元件之一或两者、和/或取代寡聚体序列以达到特定的G：C含量可以进一步优化所感兴趣的核苷酸序列。这些方法可以在任何生物中、特别是植物中用于优化异源基因的表达。该方法生成了合成序列，其组成类似于目标数据库的组成。例如，这些合成的序列可以用于在生物中、特别是在植物或植物细胞中调节杀虫活性或除草剂耐受性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于诸如植物等异源生物体中表达的合成基因的设计方法，包括计算机实现的方法，也包括用于执行本专利技术方法的计算机系统。
技术介绍
如植物细胞的异源宿主中的外源基因表达已很难，并经常无法获得产品的可检测的表达(Fischhoff 等(1987)生物 / 技术 5 :807_813 ；Vaeck 等(1987)自然 328 :33_37)。对贫乏表达的解释包括加工位点的偶然存在，导致在转基因宿主细胞中非功能mRNA转录物；相较于原始宿主在植物中不同的密码子使用；以及在基因序列的GC含量和由此产生的初级RNA转录物中的不同。沿着双螺旋结构的双碱基组成DNA结构。众所周知，不同生物体的总DNA具有四种核苷酸腺嘌呤(A)、胸苷(T)、鸟苷(G)以及胞苷(C)的不同分布。在 DNA螺旋结构中，腺嘌呤和胸苷通过氢键结合形成一个“碱基对”(“AT碱基对”)。同样，鸟苷仅和胞苷形成碱基对(“GC碱基对”)。这种AT碱基对与GC碱基对的比例通常被称为“GC含量”，其为由GC碱基对(相对于AT碱基对)构成的总碱基对的百分比。同样，“AT 含量”是指AT碱基对构成的碱基对的百分比。GC含量不仅在不同生物体中不同，而且在基因组的DNA不同区域中不同，甚至在例如植物基因的一个基因的不同区域中不同。植物内含子有大约70% AT (30% GC)含量，而外显子有大约50% AT (50% GC)含量(Wiebauer等 (1988)Mol. Cell Biol. 8 :2042_2051)。由于在植物中表达苏云金芽孢杆菌(Bt)杀虫剂蛋白的困难性，各种在...

【技术保护点】
一种优化核苷酸序列的方法，包括ａ）提供一个感兴趣的核苷酸序列；ｂ）提供多个核苷酸序列的目标数据库；ｃ）汇编给定长度Ｎ的所有可能的Ｎ－长度核苷酸序列（ＮＬＳ）的列表，其中Ｎ小于在该数据库中最短的核苷酸序列的长度，并且其中对于每个ＮＬＳ而言Ｎ是常数；ｄ）对于在步骤（ｂ）中提供的数据库，为在步骤（ｃ）中所鉴定的每个ＮＬＳ计算概率得分以生成ＮＬＳ统计表；ｅ）将该感兴趣的核苷酸序列的每个Ｎ长度的区域（ＮＬＲ）鉴定为相应的一个ＮＬＳ集合，该ＮＬＳ集合不改变该感兴趣的核苷酸序列编码的氨基酸序列，其中不改变由该感兴趣的核苷酸序列编码的氨基酸序列的ＮＬＳ被认为是沉默的ＮＬＳ（ＳＮＬＳ）；并且，ｆ）用ＳＮＬＳ来取代在该感兴趣的核苷酸序列中的一个或多个ＮＬＲ以生成优化的序列。

【技术特征摘要】
【国外来华专利技术】2007.10.09 US 60/978,729一种优化核苷酸序列的方法，包括a)提供一个感兴趣的核苷酸序列；b)提供多个核苷酸序列的目标数据库；c)汇编给定长度N的所有可能的N-长度核苷酸序列(NLS)的列表，其中N小于在该数据库中最短的核苷酸序列的长度，并且其中对于每个NLS而言N是常数；d)对于在步骤(b)中提供的数据库，为在步骤(c)中所鉴定的每个NLS计算概率得分以生成NLS统计表；e)将该感兴趣的核苷酸序列的每个N长度的区域(NLR)鉴定为相应的一个NLS集合，该NLS集合不改变该感兴趣的核苷酸序列编码的氨基酸序列，其中不改变由该感兴趣的核苷酸序列编码的氨基酸序列的NLS被认为是沉默的NLS(SNLS)；并且，f)用SNLS来取代在该感兴趣的核苷酸序列中的一个或多个NLR以生成优化的序列。2.如权利要求1所述的方法，其中所述方法进一步包括g)对在步骤(f)中生成的优化序列进行扫描以鉴定任何假可读框(0RF)；h)用破坏该假0RF的相应的SNLS来取代该优化序列中的一个或多个NLR；并且，i)任选地重复步骤(g)和(h)直至将所有假0RF从该序列中去除。3.如权利要求2所述的方法，其中所述方法进一步包括 j)对于该优化序列设定目标G:C含量；k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR，该相应的SNLS使得G:C 含量更接近于该目标G:C含量；并且，1)任选地重复步骤(g)和(h)直至达到目标G:C含量。4.如权利要求1所述的方法，其中所述方法进一步包括g)对在步骤(f)中生成的优化序列进行扫描以鉴定任何不令人希望的短DNA元件；h)用一个相应的SNLS来取代该优化序列中的一个或多个NLR，该相应的SNLS去除了所述不令人希望的短DNA元件；并且，i)任选地重复步骤(g)和(h)直至从该序列中去除所有不令人希望的DNA元件。5.如权利要求4所述的方法，其中所述方法进一步包括 j)对于该优化序列设定目标G:C含量；k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR，该相应的SNLS使得G:C 含量更接近于该目标G:C含量；并且，1)任选地重复步骤(g)和(h)直至达到该目标G:C含量。6.如权利要求2所述的方法，其中所述方法进一步包括j)对在步骤(f)中生成的优化序列进行扫描以鉴定任何不令人希望的短DNA元件； k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR，该相应的SNLS去除了该不令人希望的短DNA元件；并且，1)任选地重复步骤(g)和(h)直至从该序列中去除所有不令人希望的DNA元件。7.如权利要求1所述的方法，其中所述方法进一步包括g)对于该优化序列设定一个目标G:C含量；h)用相应的SNLS来取代该优化序列中的一个或多个NLR，该相应的SNLS使得G:C含量更接近于该目标G:C含量；并且，i)任选地重复步骤(g)和(h)直至达到所述目标G:C含量。8.如权利要求6所述的方法，其中所述方法进一步包括 m)对于该优化序列设定一个目标G:C含量；η)用一个相应的SNLS来取代该优化序列中的一个或多个NLR，该相应的SNLS使得G:C 含量更接近于该目标G:C含量；并且，ο)任选地重复步骤(g)和(h)直至达到该目标G:C含量。9.一种优化核苷酸序列的方法，包括a)提供感兴趣的核苷酸序列；b)提供多个核苷酸序列的目标数据库；c)汇编对于给定长度N的所有可能的N-长度核苷酸序列(NLS)的列表，其中N小于在该数据库中最短的核苷酸序列的长度，并且其中对于每个NLS而言N是常数；d)相对于在步骤(b)中提供的数据库，为在步骤(c)中所鉴定的每个NLS计算概率得分以生成NLS统计表；e)将该整个感兴趣的核苷酸序列翻译成氨基酸序列；f)将该氨基酸序列分成多个邻接的肽片段；g)建立对每个片段进行编码的所有核苷酸序列的集合，以便对每个片段生成一个简并序列的集合；h)用在步骤(d)中汇编的NLS统计表对每个简并核苷酸序...

【专利技术属性】
技术研发人员：D·J·汤姆索，
申请(专利权)人：阿森尼克斯公司，
类型：发明
国别省市：US

全部详细技术资料下载我是这个专利的主人