【技术实现步骤摘要】
用于序列设计的系统和方法
[0001]本公开总体上涉及用于序列设计的系统和方法。更具体地,本公开涉及可以提供改进的特征、效率或用途的用于序列设计的系统和方法。
技术介绍
[0002]信使核糖核酸(mRNA)疫苗因其快速和可大量生产以及非传染性和非整合特性而成为一种有前景的方法。然而,设计mRNA序列以实现高稳定性和蛋白质生产仍然是具有挑战性的问题。最近,发现更高的二级结构折叠稳定性和最佳密码子使用协同增加蛋白质表达。因此,设计问题可以表述为在呈指数级的大量编码相同蛋白质的同义序列中找到二级结构稳定性和密码子最优性均良好的mRNA序列。
[0003]每个氨基酸可以由具有3个相邻mRNA核苷酸的密码子翻译。例如,起始密码子AUG 翻译成甲硫氨酸,这是任何蛋白质序列中的第一个氨基酸。但是由于遗传密码中的冗余(43=64个三联密码子,对应21个氨基酸),大多数氨基酸可能是从多个密码子翻译而来的。这一事实使得mRNA设计的搜索空间随着蛋白质长度呈指数增长。例如,SARS
‑
CoV
‑
2(导致COVID
‑
19大流行的病毒)的刺突蛋白包含有1,273个氨基酸(加上终止密码子,它是 mRNA的一部分,但不是蛋白质的一部分)。大约有2.4
×
10
632
个mRNA候选。因此,mRNA 设计问题旨在利用遗传密码中的冗余来找到比自然界中的野生型更稳定和高效的mRNA序列。
[0004]因此,需要能够提供改进的特征、效率或用途的用于序
【技术保护点】
【技术特征摘要】
1.一种用于序列设计的计算机实现的方法,包括:接收包括多个源序列单元的源序列;为多个源序列单元中的每个构建单元确定性有限自动机(DFA),每个单元DFA包括多个节点,多个节点包括开始节点和结束节点,每个DFA在开始节点和结束节点之间具有一个或多个路径,每个路径包括多条边,每条边耦接在两个相邻节点之间;将多个源序列单元的至少单元DFA连接成单个DFA,表示翻译成源序列的候选靶序列;将单个DFA与上下文无关文法(CFG)相交作为相交CFG;定义相交CFG中的每个非终止符和开始符号;定义相交CFG中的一个或多个规则;以及在相交CFG中搜索具有使目标函数最小化的序列结构的期望靶序列。2.根据权利要求1所述的计算机实现的方法,其中,所述CFG是随机CFG(SCFG)。3.根据权利要求1所述的计算机实现方法,其中所述源序列是包括多个氨基酸的蛋白质序列,所述候选靶序列是翻译成所述蛋白质序列的信使核糖核酸(mRNA)序列,每个mRNA序列包含多个密码子。4.根据权利要求3所述的计算机实现的方法,其中,所述目标函数包括靶序列的最小自由能(MFE)和附加正则化项,所述附加正则化项是遍历所述靶序列的全路径的总成本。5.根据权利要求4所述的计算机实现的方法,其中所述总成本是所述靶序列上所有密码子的组合边成本的总和,每个组合边成本与所述靶序列上的密码子相关联。6.根据权利要求5所述的计算机实现方法,其中所述密码子的组合边成本通过以下方式获得:对于与所述密码子相关的氨基酸,获得翻译成氨基酸的所有密码子的频率;将密码子的频率与所有密码子中最高频率的相对比值作为密码子的密码子适应指数(CAI);以及通过对CAI执行对数操作来获得密码子的组合边成本。7.根据权利要求1所述的计算机实施方法,其中在相交CFG中搜索具有使目标函数最小化的序列结构的期望靶序列,包括:初始化第一哈希表以存储单个DFA中两个节点之间每个状态的最佳分数,并初始化第二哈希表以存储每个状态的最佳反向指针;为每个相邻节点对的状态初始化单例;当在相交CFG中搜索到当前节点时,当两个节点之间的节点数差大于预定值时,对当前节点之前的两个节点之间的每个状态进行一个或多个配对规则以进行状态更新;对当前节点之前的两个节点之间的每个状态进行一个或多个分叉规则以进行状态和反向指针更新;保留预定数量的状态并删除其余状态;以及在相交CFG中搜索到单个DFA中的最后节点之后至少回溯期望靶序列。8.根据权利要求7所述的计算机实现的方法,其中在所述相交CFG中搜索到所述单个DFA中的最后节点之后至少回溯期望靶序列进一步包括:以排序顺序回溯多个顶部靶序列。
9.一种用于序列设计的计算机实现的方法,包括:接收包括多个源序列单元的源序列;为每个源序列单元构建单元确定...
【专利技术属性】
技术研发人员:张贺,张亮,李子煜,刘凯波,刘博翔,大卫H马修斯,黄亮,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。