用于序列设计的系统和方法技术方案

技术编号:34765464 阅读:15 留言:0更新日期:2022-08-31 19:14
提供一种用于序列设计的系统和方法。本公开呈现线性时间近似(线性设计)的实施例,将设计减少到随机上下文无关文法(SCFG)和确定性有限自动机(DFA)之间的相交。线性设计的实施例可以使用大大减少的时间和非常有限的损失来实施mRNA序列设计。提出了多种方法,例如,基于k

【技术实现步骤摘要】
用于序列设计的系统和方法


[0001]本公开总体上涉及用于序列设计的系统和方法。更具体地,本公开涉及可以提供改进的特征、效率或用途的用于序列设计的系统和方法。

技术介绍

[0002]信使核糖核酸(mRNA)疫苗因其快速和可大量生产以及非传染性和非整合特性而成为一种有前景的方法。然而,设计mRNA序列以实现高稳定性和蛋白质生产仍然是具有挑战性的问题。最近,发现更高的二级结构折叠稳定性和最佳密码子使用协同增加蛋白质表达。因此,设计问题可以表述为在呈指数级的大量编码相同蛋白质的同义序列中找到二级结构稳定性和密码子最优性均良好的mRNA序列。
[0003]每个氨基酸可以由具有3个相邻mRNA核苷酸的密码子翻译。例如,起始密码子AUG 翻译成甲硫氨酸,这是任何蛋白质序列中的第一个氨基酸。但是由于遗传密码中的冗余(43=64个三联密码子,对应21个氨基酸),大多数氨基酸可能是从多个密码子翻译而来的。这一事实使得mRNA设计的搜索空间随着蛋白质长度呈指数增长。例如,SARS

CoV

2(导致COVID

19大流行的病毒)的刺突蛋白包含有1,273个氨基酸(加上终止密码子,它是 mRNA的一部分,但不是蛋白质的一部分)。大约有2.4
×
10
632
个mRNA候选。因此,mRNA 设计问题旨在利用遗传密码中的冗余来找到比自然界中的野生型更稳定和高效的mRNA序列。
[0004]因此,需要能够提供改进的特征、效率或用途的用于序列设计的系统和方法以应对挑战。

技术实现思路

[0005]一方面,提供一种用于序列设计的计算机实现的方法,包括:
[0006]接收包括多个源序列单元的源序列;
[0007]为多个源序列单元中的每个构建单元确定性有限自动机(DFA),每个单元DFA包括多个节点,多个节点包括开始节点和结束节点,每个DFA在开始节点和结束节点之间具有一个或多个路径,每个路径包括多条边,每条边耦接在两个相邻节点之间;
[0008]将多个源序列单元的至少单元DFA连接成单个DFA,表示翻译成源序列的候选靶序列;
[0009]将单个DFA与上下文无关文法(CFG)相交作为相交CFG;
[0010]定义相交CFG中的每个非终止符和开始符号;
[0011]定义相交CFG中的一个或多个规则;以及
[0012]在相交CFG中搜索具有使目标函数最小化的序列结构的期望靶序列。
[0013]另一方面,还提供一种用于序列设计的计算机实现的方法,包括:
[0014]接收包括多个源序列单元的源序列;
[0015]为每个源序列单元构建单元确定性有限自动机(DFA),每个单元DFA包括多个节点,多个节点包括开始节点和结束节点,每个DFA在开始节点和结束节点之间有一个或多个
路径,每条路径代表靶序列单元并且包括多条边,每条边耦接在两个相邻节点之间,每条路径与遍历所述路径的组合边成本相关联;
[0016]将多个源序列单元的至少单元DFA连接成单个DFA,表示翻译成源序列的候选靶序列,每个靶序列包括多个源序列单元;
[0017]将单个DFA与上下文无关文法(CFG)相交作为相交CFG;
[0018]在相交CFG中搜索候选靶序列中的期望靶序列,期望靶序列具有最小化目标函数的序列结构。
[0019]另一方面,还提供一种包括一个或多个指令序列的非暂时性计算机可读介质,当由至少一个处理器执行时,一个或多个指令序列导致如上所述的方面的方法的步骤被执行。
[0020]根据本公开,提供具有改进的特征和效率的用于序列设计的系统和方法。
附图说明
[0021]将参考本公开的实施例,其示例可以在附图中示出。这些附图旨在说明性而非限制性的。尽管在这些实施例的上下文中一般地描述了本公开,但应当理解,其并非旨在将本公开的范围限制于这些特定实施例。附图中的项目可能不是按比例的。
[0022]图1描绘了根据本公开的实施例的表示4种不同类型的氨基酸及其密码子的示例性确定性有限自动机(DFA)。
[0023]图2描绘了根据本公开的实施例的蛋白质序列“甲硫氨酸亮氨酸”的单个DFA。
[0024]图3描绘了根据本公开的实施例的用于为源和靶序列搜索空间建立DFA表示的过程。
[0025]图4描绘了根据本公开的实施例的相交文法的最佳推导之一,示出了经过SCFG和DFA 的路径。
[0026]图5描绘了根据本公开的实施例的通过Nussinov

Jacobson文法对序列CCAAAGG的最佳推导。
[0027]图6描绘了根据本公开的实施例的CFG与DFA相交的过程。
[0028]图7描绘了根据本公开的实施例的用于mRNA设计的自下而上动态方法的过程。
[0029]图8描绘了根据本公开的实施例的用于mRNA设计的自下而上动态方法的伪代码。
[0030]图9描绘了根据本公开的实施例的自下而上动态方法中的更新函数的示例性伪代码。
[0031]图10描绘了根据本公开的实施例的自下而上动态方法中的回溯函数的示例性伪代码。
[0032]图11描绘了根据本公开的实施例的使用从左到右动态方法进行mRNA设计的过程。
[0033]图12给出了根据本公开的实施例的基于从左到右动态编程和波束修剪的Nussinov模型的简化线性设计算法的伪代码。
[0034]图13描绘了根据本公开的实施例的从左到右动态方法中的回溯函数的示例性伪代码。
[0035]图14描绘了根据本公开的实施例的用于从左到右动态方法中的波束修剪函数的示例性伪代码。
[0036]图15描绘了根据本公开的实施例的“丝氨酸”的DFA图,其中密码子适应指数(CAI) 作为在最后边处不同的边权重。
[0037]图16描绘了根据本公开的实施例的“丝氨酸”的DFA图,其中CAI作为在最后边之前不同的边权重。
[0038]图17描绘了根据本公开的实施例的为DFA中的边移动边权重差的过程。
[0039]图18描绘了根据本公开的实施例的CDSfold和线性设计之间的运行时间比较。
[0040]图19A描绘了根据本公开的实施例的波束尺寸b=1,000的线性设计与精确搜索相比的自由能隙。
[0041]图19B描绘了根据本公开的实施例的线性设计自由能隙随mRNA序列长度线性变化的百分比。
[0042]图19C描绘了根据本公开的实施例的线性设计自由能隙随波束尺寸变化的百分比。
[0043]图20描绘了根据本公开的实施例的对SARS

CoV

2刺突蛋白的野生型mRNA序列、随机序列和设计序列之间的二维比较(MFE和CAI)。
[0044]图21描绘了根据本公开的实施例的翻译成SARS

CoV
...

【技术保护点】

【技术特征摘要】
1.一种用于序列设计的计算机实现的方法,包括:接收包括多个源序列单元的源序列;为多个源序列单元中的每个构建单元确定性有限自动机(DFA),每个单元DFA包括多个节点,多个节点包括开始节点和结束节点,每个DFA在开始节点和结束节点之间具有一个或多个路径,每个路径包括多条边,每条边耦接在两个相邻节点之间;将多个源序列单元的至少单元DFA连接成单个DFA,表示翻译成源序列的候选靶序列;将单个DFA与上下文无关文法(CFG)相交作为相交CFG;定义相交CFG中的每个非终止符和开始符号;定义相交CFG中的一个或多个规则;以及在相交CFG中搜索具有使目标函数最小化的序列结构的期望靶序列。2.根据权利要求1所述的计算机实现的方法,其中,所述CFG是随机CFG(SCFG)。3.根据权利要求1所述的计算机实现方法,其中所述源序列是包括多个氨基酸的蛋白质序列,所述候选靶序列是翻译成所述蛋白质序列的信使核糖核酸(mRNA)序列,每个mRNA序列包含多个密码子。4.根据权利要求3所述的计算机实现的方法,其中,所述目标函数包括靶序列的最小自由能(MFE)和附加正则化项,所述附加正则化项是遍历所述靶序列的全路径的总成本。5.根据权利要求4所述的计算机实现的方法,其中所述总成本是所述靶序列上所有密码子的组合边成本的总和,每个组合边成本与所述靶序列上的密码子相关联。6.根据权利要求5所述的计算机实现方法,其中所述密码子的组合边成本通过以下方式获得:对于与所述密码子相关的氨基酸,获得翻译成氨基酸的所有密码子的频率;将密码子的频率与所有密码子中最高频率的相对比值作为密码子的密码子适应指数(CAI);以及通过对CAI执行对数操作来获得密码子的组合边成本。7.根据权利要求1所述的计算机实施方法,其中在相交CFG中搜索具有使目标函数最小化的序列结构的期望靶序列,包括:初始化第一哈希表以存储单个DFA中两个节点之间每个状态的最佳分数,并初始化第二哈希表以存储每个状态的最佳反向指针;为每个相邻节点对的状态初始化单例;当在相交CFG中搜索到当前节点时,当两个节点之间的节点数差大于预定值时,对当前节点之前的两个节点之间的每个状态进行一个或多个配对规则以进行状态更新;对当前节点之前的两个节点之间的每个状态进行一个或多个分叉规则以进行状态和反向指针更新;保留预定数量的状态并删除其余状态;以及在相交CFG中搜索到单个DFA中的最后节点之后至少回溯期望靶序列。8.根据权利要求7所述的计算机实现的方法,其中在所述相交CFG中搜索到所述单个DFA中的最后节点之后至少回溯期望靶序列进一步包括:以排序顺序回溯多个顶部靶序列。
9.一种用于序列设计的计算机实现的方法,包括:接收包括多个源序列单元的源序列;为每个源序列单元构建单元确定...

【专利技术属性】
技术研发人员:张贺张亮李子煜刘凯波刘博翔大卫H马修斯黄亮
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1