一种蛋白质表达体系的密码子优化方法及蛋白质表达体系技术

技术编号:33131269 阅读:15 留言:0更新日期:2022-04-17 00:48
本发明专利技术公开了一种蛋白质表达体系的密码子优化方法及蛋白质表达体系,该密码子优化方法基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白,对编码所述核糖体蛋白的DNA序列的密码子进行统计,获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率,选择相对频率最高的密码子,并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。本发明专利技术的密码子优化方法能在使用较少计算资源的情况下,快速获得一个不含特定位点,且相较于优化前具有较高蛋白表达效率的DNA序列。蛋白表达效率的DNA序列。蛋白表达效率的DNA序列。

【技术实现步骤摘要】
一种蛋白质表达体系的密码子优化方法及蛋白质表达体系


[0001]本专利技术属于生物合成
,尤其涉及一种蛋白质表达体系的密码子优化方法及蛋白质表达体系。

技术介绍

[0002]密码子优化即通过改变待表达目标蛋白质的DNA编码序列,以达到提高目标蛋白质在表达体系内的表达量和/或表达活性的操作。
[0003]密码子优化过程需要考虑的因素主要有:DNA及其转录出的mRNA的理化性质、蛋白质表达体系的密码子偏好性、目标蛋白质的二维和三维结构等。目前常见的蛋白质表达体系的密码子优化方法考虑的主要参数包括:宿主细胞中基因的密码子偏好性、宿主细胞二联密码子偏好性、宿主细胞tRNA拷贝数、GC含量和mRNA二级结构等。
[0004]理论上,由于同义密码子的存在,用于表达同一个目标蛋白的DNA序列种类非常多,并且该DNA序列种类数会随着蛋白质氨基酸序列长度的增加而呈几何级数增长。举例来说,假设待表达目标蛋白的氨基酸序列为a1a2...a
n
,第m位氨基酸残基(m为自然数,且1≤m≤n)对应的同义密码子的数量为x
m
,则该蛋白氨基酸序列对应的DNA编码序列的种类数为:
[0005]举例来说,对于下列一段长度为40个氨基酸残基的多肽:
[0006]DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVV,
[0007]根据下列20种天然氨基酸列表和对应于每一种氨基酸的密码子表,
[0008]20种天然氨基酸列表
[0009][0010][0011]密码子表
[0012][0013]各种氨基酸残基的同义密码子的数量如下表所示:
[0014][0015][0016]因此,如果蛋白质表达体系为真核细胞,则可能对应的DNA序列的个数为:
[0017]2*4*2*2*6*2*2*2*2*2*2*4*2*2*2*2*6*4*2*2*4*2*2*4*4*2*2*2*4*2*3*3*4*6*1*4*4*4*4*4=273,593,677,362,757,632。
[0018]对于包括更多氨基酸残基的蛋白来说,该值会指数级增长。因此,如果使用这种暴力枚举法来进行密码子优化求解,由于同义DNA序列的数量过多,在求解时将占用过多计算资源和时间。这种方法一般是直接针对编码目标蛋白的DNA序列进行优化的,最终选用哪种DNA序列进行蛋白表达还需要采用不同的DNA序列进行海量的表达实验,以从中选择表达效率较高且稳定的DNA序列,工作量巨大。另外,这种方法也未考虑到影响蛋白表达效率的其他不利因素。

技术实现思路

[0019]本专利技术的目的是克服现有密码子优化方法的上述缺点,寻找一种优化对象有别于目标蛋白的DNA编码序列,优化方法有别于暴力枚举法的密码子优化算法,以提高优化效率及优化后的目标蛋白表达效率。
[0020]核糖体是由核糖体RNA和核糖体蛋白质构成的一种特殊细胞器,在从mRNA翻译到蛋白质的过程中起到了关键性作用。经研究发现,核糖体蛋白的表达量对生物体的正常功能十分重要。鉴于核糖体蛋白在生物体内的重要性,编码核糖体蛋白的DNA受到较大的选择压力,促使其向高稳定性和高表达效率的方向演化。由此推断,基于目标生物的核糖体蛋白的编码DNA序列的密码子偏好性规律来优化目标蛋白的编码DNA序列将会大大提高目标蛋白在目标生物体内、外的表达量和/或表达活性。
[0021]在实际的蛋白质表达过程中,无论是基于有细胞还是无细胞表达体系,均需要先制备出用于编码目标蛋白质的DNA。为避免目标DNA片段被限制性内切酶降解,在保持密码子的同义性和相对较高的表达效率的前提下,需要避免相应的限制性内切酶的酶切位点。此外,鉴于特定序列可能对蛋白表达有特殊的负面影响,有时也可能需要去掉除酶切位点外的基于该特定序列的其他特定位点。
[0022]密码子优化过程中去除DNA序列中的限制性内切酶的酶切位点的问题可以看作一个约束优化问题。问题中的强制性约束为同义密码子以及需要避免的位点,优化目标为序列中的同义密码子在表达核糖体蛋白中的相对频率较高。
[0023]为实现以上专利技术目的,第一方面,本专利技术提供一种蛋白质表达体系的密码子优化方法,基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白,对编码所述核糖体蛋白的DNA序列的密码子进行统计,获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率,选择相对频率最高的密码子,并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。
[0024]进一步地,所述相对频率为由统计数据经归一化处理后得到,所述统计数据包括每种氨基酸残基的同义密码子中各密码子的使用次数,同义密码子中各密码子的相对频率为自身使用次数与同义密码子中各密码子的使用次数之和的比值。
[0025]进一步地,剔除相对频率不超过0.05的密码子。
[0026]进一步地,还识别编码目标蛋白的DNA序列中是否存在限制目标蛋白表达的特定位点,若存在,则对该特定位点的核苷酸序列进行优化。
[0027]进一步地,所述特定位点为限制性内切酶的酶切位点。
[0028]进一步地,对编码目标蛋白的DNA序列的优化过程如下:输入待优化的基于目标蛋白的序列R0,如R0为DNA序列,则将其翻译成氨基酸序列;在所述氨基酸序列的每个氨基酸残基对应的同义密码子中,选择与所述核糖体蛋白的氨基酸序列中同种氨基酸残基的同义密码子中相对频率最高的密码子相同的密码子组成优化DNA序列R1。
[0029]进一步地,对所述编码目标蛋白的DNA序列进行分段优化。
[0030]进一步地,所述分段的长度为m个碱基,6≤m≤300,且为3的整数倍。
[0031]进一步地,还输入需要避免的特定位点的集合A,将所述优化DNA序列R1划分成n个分段,识别各分段中是否存在从属于所述集合A的特定位点,如存在,则对该特定位点进行优化;将各段优化后序列拼合形成优化DNA序列R2。
[0032]第二方面,本专利技术提供一种蛋白质表达体系,包括细胞提取物和编码目标蛋白的DNA序列,所述编码目标蛋白的DNA序列由如第一方面任一技术方案所述的蛋白质表达体系的密码子优化方法进行优化后得到。
[0033]进一步地,所述细胞提取物的来源物种为大肠杆菌、枯草芽孢杆菌、酿酒酵母、毕氏酵母和克鲁维酵母中的一种。
[0034]进一步地,所述克鲁维酵母为乳酸克鲁维酵母、马克斯克鲁维酵母、多布克鲁维酵母、海泥克鲁维酵母、非发酵克鲁维酵母、威克海姆克鲁维酵母、耐热克鲁维酵母、脆壁克鲁维酵母、湖北克鲁维酵母、多孢克鲁维酵母、暹罗克鲁维酵母和亚罗克鲁维酵母中的一种。
[0035]相对于现有技术,本专利技术的有益效果是:
[0036]1.优化方法的构思源于用于表达目标蛋白的细胞提取物的来源物种的核糖体蛋白的编码DNA序列的密码子偏好性,将该密码子偏好性进行定量统计后移植于目标蛋白的编码DNA序列的密码子优化,一定程度上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质表达体系的密码子优化方法,其特征在于,基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白,对编码所述核糖体蛋白的DNA序列的密码子进行统计,获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率,选择相对频率最高的密码子,并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。2.如权利要求1所述的蛋白质表达体系的密码子优化方法,其特征在于,所述相对频率为由统计数据经归一化处理后得到,所述统计数据包括每种氨基酸残基的同义密码子中各密码子的使用次数,同义密码子中各密码子的相对频率为自身使用次数与同义密码子中各密码子的使用次数之和的比值。3.如权利要求2所述的蛋白质表达体系的密码子优化方法,其特征在于,剔除相对频率不超过0.05的密码子。4.如权利要求1所述的蛋白质表达体系的密码子优化方法,其特征在于,还识别编码目标蛋白的DNA序列中是否存在限制目标蛋白表达的特定位点,若存在,则对该特定位点的核苷酸序列进行优化。5.如权利要求4所述的蛋白质表达体系的密码子优化方法,其特征在于,所述特定位点为限制性内切酶的酶切位点。6.如权利要求1所述的蛋白质表达体系的密码子优化方法,其特征在于,对编码目标蛋白的DNA序列的优化过程如下:输入待优化的基于目标蛋白的序列R0,如R0为DNA序列,则将其翻译成氨基酸序列;在所述氨基酸序列的每个氨基酸残基对应的同义密码子中,选择与所述核糖体蛋白的氨基...

【专利技术属性】
技术研发人员:郭敏熊亮周伟峰徐丽琼徐秀珍唐磊曹平生于雪
申请(专利权)人:康码上海生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1