合成基因设计的计算方法技术

技术编号:6547489 阅读:320 留言:0更新日期:2012-04-11 18:40
本发明专利技术是针对用于设计对感兴趣的多肽进行编码的合成的核苷酸序列的方法。这些方法涉及将序列的数据库组织为N-长度的寡聚体序列的集合并且汇编了针对每个N-长度序列的概率得分的列表。使用这些概率得分将一个或多个更高得分的序列替换进入该亲本核苷酸序列之中以生成优化的序列。通过去除无意的可读框或不令人希望的短DNA元件之一或两者、和/或取代寡聚体序列以达到特定的G:C含量可以进一步优化所感兴趣的核苷酸序列。这些方法可以在任何生物中、特别是植物中用于优化异源基因的表达。该方法生成了合成序列,其组成类似于目标数据库的组成。例如,这些合成的序列可以用于在生物中、特别是在植物或植物细胞中调节杀虫活性或除草剂耐受性。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于诸如植物等异源生物体中表达的合成基因的设计方法,包括计算 机实现的方法,也包括用于执行本专利技术方法的计算机系统。
技术介绍
如植物细胞的异源宿主中的外源基因表达已很难,并经常无法获得产品的可检测 的表达(Fischhoff 等(1987)生物 / 技术 5 :807_813 ;Vaeck 等(1987)自然 328 :33_37)。 对贫乏表达的解释包括加工位点的偶然存在,导致在转基因宿主细胞中非功能mRNA转录 物;相较于原始宿主在植物中不同的密码子使用;以及在基因序列的GC含量和由此产生的 初级RNA转录物中的不同。沿着双螺旋结构的双碱基组成DNA结构。众所周知,不同生物 体的总DNA具有四种核苷酸腺嘌呤(A)、胸苷(T)、鸟苷(G)以及胞苷(C)的不同分布。在 DNA螺旋结构中,腺嘌呤和胸苷通过氢键结合形成一个“碱基对”(“AT碱基对”)。同样, 鸟苷仅和胞苷形成碱基对(“GC碱基对”)。这种AT碱基对与GC碱基对的比例通常被称 为“GC含量”,其为由GC碱基对(相对于AT碱基对)构成的总碱基对的百分比。同样,“AT 含量”是指AT碱基对构成的碱基对的百分比。GC含量不仅在不同生物体中不同,而且在基 因组的DNA不同区域中不同,甚至在例如植物基因的一个基因的不同区域中不同。植物内 含子有大约70% AT (30% GC)含量,而外显子有大约50% AT (50% GC)含量(Wiebauer等 (1988)Mol. Cell Biol. 8 :2042_2051)。由于在植物中表达苏云金芽孢杆菌(Bt)杀虫剂蛋白的困难性,各种在转录植物 中较高水平表达的合成基因已被设计。Adang等(美国专利号5380831,6015891)描述了设 计合成Bt杀虫蛋白以在植物中具有增强的表达,通过修饰基因以包含高水平表达的植物 基因优选的密码子进行所述设计。根据在被高水平表达的植物基因中所用的密码子使用分 布频率来选择密码子使用。Adang等(美国专利号5567600)进一步描述了类似的方法,其 中修饰包括减少在植物多腺苷酸化信号之间区域中的密码子位置II和III中具有GC的密码 子数量。备选地,修饰可导致较少地发生序列AATGAA (SEQ ID NO :1)。Fischhoff等(美国专利号5500365)揭示了修饰的Bt基因,其移除了植物多腺苷 酸化序列以及ATTTA(SEQ ID NO 2)序列。Koziel等(美国专利号6320100)揭示了为在 植物中优化表达而选择的合成Bt杀虫蛋白,其使用的密码子在玉米中最频繁地编码每一 氨基酸,并具有60%的GC含量。专利技术概述提供了产生编码感兴趣的多肽的合成核苷酸序列的方法。这些方法如下产生优化的合成基因序列计算在DNA序列数据库中的连续短核苷酸区段的发生概率,并且然后使 用这些概率通过用高概率序列代替在候选转基因中的低概率核苷酸序列来产生合成序列。 这优选不改变编码蛋白质的氨基酸序列来完成。重要地是,此统计方法能够产生转基因,其 经优化在目标生物体表达而不需要在目标生物体中的加工位点或其他表达决定因素的特 定知识。这些方法包括⑴序列数据库的开发;(2)选择一连续核苷酸长度(“N长度”) 作为优化(“N长度寡核苷酸”)的基础;(3)组织序列数据库作为N长度寡聚物序列集合; (4)选择一输入序列;(5)为输入序列开发沉默NLSs ( “SNLS”)集合;以及(6)在SNLS的 选择中优化以生成一被优化的基因序列。这些方法可以备选地或另外包括移除不期望的可读框,和/或修饰感兴趣的核苷 酸序列以移除不期望的短的共有核苷酸序列,和/或所得优化基因获得期望的GC含量,而 不考虑密码子使用。本专利技术的方法可用于产生在生物体、特别是植物和细菌中理想表达的核苷酸序列 以提供杀虫或除草剂耐抗性活性。这些生物体被期望用于农业目的。本专利技术的方法可用于 产生具有杀虫或除草剂抗性活性的改变的或改进的蛋白质,或者用于检测在产品或生物体 中杀虫或除草剂抗性蛋白质或氨基酸的存在。 附图说明图1所示为NLRs,NLS以及delta表之间关系的图示。此图中的A,B,C,D以及E 代表了在长度为5(N = 5)的核苷酸区域中的假定位置。此图示出可为该NLR生成的NLSs 的子集。因此,对于所有长度为5的NLRs,有4’个可能的NLSs (在位置A处为A,T,G,或 C ;在位置B处为A,T,G,或C ;等等)。图2所示为NLSs的确定的图例。专利技术详述合成基因设计的先前方法通常分为两类。第一类使用诸如多聚腺苷酸化信号的加 工信号的特定知识来设计在目标生物体具有更高表达概率的转基因(例如FischhofT等)。 此策略仅被应用于这种加工信号的特定实验性知识是可用的情况下。另外,被表达基因的 加工决定因素的不完整的知识会导致转基因的不当修饰,导致目标生物体中较少或没有表 达。第二类方法完全依赖于密码子偏倚和/或GC含量修正以改进转基因表达(例如Koziel 等,Adang等),而不管高级DNA序列决定因素(如ATTTA,AATGAA)的重要作用的充分证据。本专利技术描述了设计编码感兴趣的多肽的合成核苷酸序列的方法。所述方法包括 (1)组织一序列数据库作为N长度寡聚物序列集(“NLSs”)的集合;(2)通过确定和编译 所有可能NLSs群体间的每一 NLS的被观察到的概率生成一 NLS统计表;(3)为感兴趣的序 列产生NLRs集合;(4)确定没有破坏可读框的NLSs ( “沉默NLSs”,或者“SNLS” )的集合; 以及(5)优化在SLNS集合之间的选择以生成被优化的核苷酸序列。在本专利技术的另一方面,分析和调整感兴趣的核苷酸序列以移除下面两者或其中之 一 (1)非期望的可读框或者(2)非期望的短DNA元件。“非期望的0RF”是不同于亲本序 列且通过用本专利技术的方法修饰序列而来的0RF。“非期望的短DNA元件”包括引入目标生物 体非理想表达结构的DNA序列。短DNA元件的示例在本文别处讨论。这些方法可用于优化任何生物体、特别是植物中的异源基因的表达。此方法生成 合成基因,其组成与目标数据库的相似。这些合成基因可被用于,例如在生物体、尤其是在 植物或植物细胞中调节杀虫活性或除草剂抗性。定义为了清楚地理解本专利技术,给出如下定义“合成”的意思是不在自然界发生。为了本专利技术的目的,合成序列不意在包含通过 自然发生突变而生成或通过化学或生物机制如位点定向诱变诱导的突变而来的序列。在一 些实施方案中,合成核苷酸序列是或是指在它整个或绝大部分编码区域被化学地合成。化 学合成核苷酸序列的方法在本领域中已知(参见,例如Ausubel等,编著。分子生物中的 现代协议(2000)第8. 2B章节,卷1,John Wiley & Sons,纽约;Xiong等(2004)氨基酸研 究,32 :e98 ;Ovchinnikov 等(1984)基因 31 :65_78 ;Khudyakov 等(1993)氨基酸研究,21 2747-2754)。合成序列包括核苷酸序列,其在至少大约1 %,至少大约5 %,至少大约10 %,至少 大约15%,至少大约20%,至少大约25%,至少大约30%,至少大约35%,至少大约本文档来自技高网...

【技术保护点】
一种优化核苷酸序列的方法,包括a)提供一个感兴趣的核苷酸序列;b)提供多个核苷酸序列的目标数据库;c)汇编给定长度N的所有可能的N-长度核苷酸序列(NLS)的列表,其中N小于在该数据库中最短的核苷酸序列的长度,并且其中对于每个NLS而言N是常数;d)对于在步骤(b)中提供的数据库,为在步骤(c)中所鉴定的每个NLS计算概率得分以生成NLS统计表;e)将该感兴趣的核苷酸序列的每个N长度的区域(NLR)鉴定为相应的一个NLS集合,该NLS集合不改变该感兴趣的核苷酸序列编码的氨基酸序列,其中不改变由该感兴趣的核苷酸序列编码的氨基酸序列的NLS被认为是沉默的NLS(SNLS);并且,f)用SNLS来取代在该感兴趣的核苷酸序列中的一个或多个NLR以生成优化的序列。

【技术特征摘要】
【国外来华专利技术】2007.10.09 US 60/978,729一种优化核苷酸序列的方法,包括a)提供一个感兴趣的核苷酸序列;b)提供多个核苷酸序列的目标数据库;c)汇编给定长度N的所有可能的N-长度核苷酸序列(NLS)的列表,其中N小于在该数据库中最短的核苷酸序列的长度,并且其中对于每个NLS而言N是常数;d)对于在步骤(b)中提供的数据库,为在步骤(c)中所鉴定的每个NLS计算概率得分以生成NLS统计表;e)将该感兴趣的核苷酸序列的每个N长度的区域(NLR)鉴定为相应的一个NLS集合,该NLS集合不改变该感兴趣的核苷酸序列编码的氨基酸序列,其中不改变由该感兴趣的核苷酸序列编码的氨基酸序列的NLS被认为是沉默的NLS(SNLS);并且,f)用SNLS来取代在该感兴趣的核苷酸序列中的一个或多个NLR以生成优化的序列。2.如权利要求1所述的方法,其中所述方法进一步包括g)对在步骤(f)中生成的优化序列进行扫描以鉴定任何假可读框(0RF);h)用破坏该假0RF的相应的SNLS来取代该优化序列中的一个或多个NLR;并且,i)任选地重复步骤(g)和(h)直至将所有假0RF从该序列中去除。3.如权利要求2所述的方法,其中所述方法进一步包括 j)对于该优化序列设定目标G:C含量;k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C 含量更接近于该目标G:C含量;并且,1)任选地重复步骤(g)和(h)直至达到目标G:C含量。4.如权利要求1所述的方法,其中所述方法进一步包括g)对在步骤(f)中生成的优化序列进行扫描以鉴定任何不令人希望的短DNA元件;h)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS去除了 所述不令人希望的短DNA元件;并且,i)任选地重复步骤(g)和(h)直至从该序列中去除所有不令人希望的DNA元件。5.如权利要求4所述的方法,其中所述方法进一步包括 j)对于该优化序列设定目标G:C含量;k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C 含量更接近于该目标G:C含量;并且,1)任选地重复步骤(g)和(h)直至达到该目标G:C含量。6.如权利要求2所述的方法,其中所述方法进一步包括j)对在步骤(f)中生成的优化序列进行扫描以鉴定任何不令人希望的短DNA元件; k)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS去除了 该不令人希望的短DNA元件;并且,1)任选地重复步骤(g)和(h)直至从该序列中去除所有不令人希望的DNA元件。7.如权利要求1所述的方法,其中所述方法进一步包括g)对于该优化序列设定一个目标G:C含量;h)用相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C含 量更接近于该目标G:C含量;并且,i)任选地重复步骤(g)和(h)直至达到所述目标G:C含量。8.如权利要求6所述的方法,其中所述方法进一步包括 m)对于该优化序列设定一个目标G:C含量;η)用一个相应的SNLS来取代该优化序列中的一个或多个NLR,该相应的SNLS使得G:C 含量更接近于该目标G:C含量;并且,ο)任选地重复步骤(g)和(h)直至达到该目标G:C含量。9.一种优化核苷酸序列的方法,包括a)提供感兴趣的核苷酸序列;b)提供多个核苷酸序列的目标数据库;c)汇编对于给定长度N的所有可能的N-长度核苷酸序列(NLS)的列表,其中N小于在 该数据库中最短的核苷酸序列的长度,并且其中对于每个NLS而言N是常数;d)相对于在步骤(b)中提供的数据库,为在步骤(c)中所鉴定的每个NLS计算概率得 分以生成NLS统计表;e)将该整个感兴趣的核苷酸序列翻译成氨基酸序列;f)将该氨基酸序列分成多个邻接的肽片段;g)建立对每个片段进行编码的所有核苷酸序列的集合,以便对每个片段生成一个简并 序列的集合;h)用在步骤(d)中汇编的NLS统计表对每个简并核苷酸序...

【专利技术属性】
技术研发人员:D·J·汤姆索
申请(专利权)人:阿森尼克斯公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1