基于深度学习模型进行密码子序列设计的方法和装置制造方法及图纸

技术编号:37678814 阅读:34 留言:0更新日期:2023-05-26 04:45
本发明专利技术提供一种基于深度学习模型进行密码子序列设计的方法和装置,其中方法包括:获取外源目标氨基酸序列和生成多个随机数种子,并将目标氨基酸序列转化为数学向量;将不同的随机数种子拼接在转化为数学向量的目标氨基酸序列的起始端,获得多条不同随机数起始的目标氨基酸序列;将多条目标氨基酸序列输入密码子序列生成器,输出多条优化密码子序列;将多条优化密码子序列输入蛋白表达丰度预测器,输出每一条优化密码子序列所属基因簇对应的蛋白表达丰度排名。能够考虑物种的密码子使用偏好的上下文搭配设计目的外源基因的密码子序列,并且能够在生物信息学层面实现目的外源基因蛋白表达水平的预测。因蛋白表达水平的预测。因蛋白表达水平的预测。

【技术实现步骤摘要】
基于深度学习模型进行密码子序列设计的方法和装置


[0001]本专利技术涉及合成生物学中的基因设计
,尤其涉及一种基于深度学习模型进行密码子序列设计的方法和装置。

技术介绍

[0002]在合成生物学研究领域,基因表达载体的设计和优化是不可或缺的,而开放阅读框的设计属于基因表达载体设计优化中的重要步骤。密码子(Codon)是指mRNA(messenger RNA)序列的开放阅读框中相邻的三个核苷酸所形成的序列组合,其一共存在43(64)种形式。这64种密码子所组成的开放阅读框最终决定了蛋白质的序列。然而,蛋白质序列仅由20种常见的氨基酸组成,这表示64种密码子相对于20种氨基酸是冗余的。其中,除了甲硫氨酸和色氨酸外的18种氨基酸都由2至6种密码子编码,这种现象被称为密码子的简并性。因此,一条氨基酸序列所对应的密码子序列并不是唯一的。例如,一条长为100个氨基酸的蛋白质,其对应的密码子序列可以存在大约5
×
10
47
种组合形式。
[0003]Sharp和Li于1987年在大肠杆菌基因组中发现了密码子选本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习模型进行密码子序列设计的方法,其特征在于,包括以下步骤:S1、获取指定物种的蛋白质组全定量谱;S2、根据蛋白质组全定量谱中每一个基因的蛋白表达丰度,对蛋白质组全定量谱中的所有基因进行聚类分析,获得K个基因簇;根据基因的蛋白表达丰度,对K个基因簇进行降序排列,从排名第一位的基因簇开始,选取一个或两个以上基因簇构建高表达基因集合;S3、将高表达基因集合中的生物序列文本转化为数学向量,将蛋白质组全定量谱中的生物序列文本转化为数学向量;S4、根据转化为数学向量的高表达基因集合,将氨基酸序列输入Transformer深度学习模型,输出该氨基酸序列对应的密码子序列,训练获得密码子序列生成器;根据转化为数学向量的蛋白质组全定量谱,将密码子序列输入Transformer深度学习模型,输出该密码子序列所属基因簇对应的蛋白表达丰度排名,训练获得蛋白表达丰度预测器;S5、获取外源目标氨基酸序列和生成多个随机数种子,并将目标氨基酸序列转化为数学向量;将不同的随机数种子拼接在转化为数学向量的目标氨基酸序列的起始端,获得多条不同随机数起始的目标氨基酸序列;将多条目标氨基酸序列输入密码子序列生成器,输出多条优化密码子序列;将多条优化密码子序列输入蛋白表达丰度预测器,输出每一条优化密码子序列所属基因簇对应的蛋白表达丰度排名。2.根据权利要求1所述的基于深度学习模型进行密码子序列设计的方法,其特征在于,S1包括:S11、进行定量蛋白质组搜库流程,根据指定物种的蛋白质序列注释数据库对蛋白质组测序结果进行定量分析,获得一个以上样本的蛋白质定量结果;S12、根据一个以上样本的蛋白质定量结果,计算每一个基因在所有样本中的蛋白表达丰度的几何均值;剔除蛋白表达丰度几何均值低于预设阈值的基因,获得蛋白质组全定量谱。3.根据权利要求2所述的基于深度学习模型进行密码子序列设计的方法,其特征在于,预设阈值为1;基因在所有样本中的蛋白表达丰度的几何均值为:式中,PSM
i
为基因在样本i中的蛋白表达丰度;n为蛋白质定量样本总数;GEO(PSM)为基因在所有样本中的蛋白表达丰度的几何均值。4.根据权利要求1所述的基于深度学习模型进行密码子序列设计的方法,其特征在于,采用K

Means聚类方法对全蛋白质定量谱中的所有基因进行聚类分析;根据基因的蛋白表达丰度,对K个基因簇进行降序排列,包括:根据基因的蛋白表达丰度,计算每一个基因簇的蛋白表达丰度的算术均值;
式中,PSM
j
为基因j的蛋白表达丰度;m为一个基因簇中所有基因的蛋白质定量样本总数;Mean为一个基因簇中所有基因的蛋白表达丰度的算术均值。根据每一个基因簇的蛋白表达丰度的算术均值,对K个基因簇进行降序排列。5.根据权利要求1所述的基于深度学习模型进行密码子序列设计的方法,其特征在于,S3中,根据预先设计的生物序列单元与数字的对应规则,将高表达基因集合中的生物序列文本转化为数学向量,将蛋白质组全定量谱中的生物序...

【专利技术属性】
技术研发人员:肖奕博屈玉娇吴博文李国强
申请(专利权)人:珠海元育生物科技有限公司北京元育生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1