System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 结合剂的计算机生成制造技术_技高网

结合剂的计算机生成制造技术

技术编号:41249269 阅读:2 留言:0更新日期:2024-05-09 23:58
在一些实施例中,披露了用于提供一种或多种相关生物聚合物序列以符合参考结构的方法和相应的系统。该参考结构包含靶复合物和一种或多种相关生物聚合物序列。这些生物聚合物序列可通过该方法获得,该方法包括使用神经网络嵌入图表示。该图表示是根据该参考结构特征化的且包含该生物聚合物的拓扑结构,其中以单体为节点,以单体之间的相互作用为边缘。在某些实施例中,该方法还包括使用图神经网络或等变神经网络处理该图表示,该图神经网络或等变神经网络利用学习的参数函数迭代地更新节点和边缘嵌入。该方法还可以包括使用解码器将嵌入的图表示转换为能量景观。该方法还可以包括从该能量景观获得一种或多种生物聚合物序列。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、生物聚合物是生命的基本结构单元,既可以作为干预靶标,也可以作为效应器(例如抗体、抗体药物缀合物、融合蛋白和适体等治疗剂)。活性调节的常见前提是一种或多种生物聚合物通过结合形成复合物的能力。现存的计算机建模技术通常不适合生成结合物序列。

2、因此,需要用于计算机生成结合剂(例如生物聚合物)的系统和方法。


技术实现思路

1、生物聚合物(蛋白质、核酸、碳水化合物等)的骨架结构代表生物聚合物序列(例如氨基酸序列、核苷酸序列、碳水化合物序列)的物理形状。生物聚合物序列可以表示为单体序列,并且它们的骨架结构代表这些序列的三维构象(例如,当折叠时、当与其他生物聚合物复合时)。多个骨架结构可以相互连接(例如抗体和抗原)。现有的基于骨架结构确定序列的方法依赖于基于物理的模型和搜索算法,这通常是麻烦、缓慢且低效的。

2、在一些实施例中,披露了用于提供一种或多种相关生物聚合物序列以符合参考结构的方法和相应的系统。参考结构包含靶复合物。在实施例中,参考结构可以包括一种或多种参考生物聚合物序列。一种或多种相关生物聚合物序列可通过本文披露的方法获得,包括使用神经网络嵌入图表示。该图表示是根据该参考结构特征化的且包含生物聚合物的拓扑结构,其中以单体为节点,以单体之间的相互作用为边缘。在实施例中,图表示可为根据参考结构特征化的且包含参考生物聚合物(例如一种或多种参考生物聚合物和/或一种或多种参考生物聚合物序列)的拓扑结构,其中以单体为节点,以单体之间的相互作用为边缘。方法还包括使用图神经网络或等变神经网络处理图表示,该图神经网络或等变神经网络利用学习的参数函数迭代地更新节点和边缘嵌入。方法还包括使用解码器将嵌入的图表示转换为条件生成模型。方法还包括从条件生成模型获得一种或多种相关生物聚合物序列。

3、在一些实施例中,参考结构的靶复合物是从作为模板的实验确定的结构(例如,晶体结构,如x射线晶体结构或nmr结构或冷冻-em结构)复制的骨架结构。在一些实施例中,参考结构的靶复合物使用结构建模在计算机中创建新的骨架结构。在一些实施例中,使用已知/实验确定的骨架结构和建模的骨架结构(例如,计算机生成的骨架结构)的混合方法,例如设计生物聚合物序列的骨架结构的一部分,但保留实验所获得部分的一部分完整。

4、生物聚合物可包括蛋白质、非蛋白质生物聚合物(例如核酸(适体))和碳水化合物聚合物,以及前述的组合,以及非天然存在的生物聚合物——例如,d-蛋白质、锁核酸、肽核酸等。另外,生物聚合物可以是支链生物聚合物或线性生物聚合物。生物聚合物可包含经典单体、非经典单体、以及经典单体和非经典单体两者的组合。

5、在一些实施例中,条件生成模型是能量景观或基于能量的模型。条件生成模型被训练为例如通过对数据的联合或条件分布进行建模来生成类似于数据分布的样本。参数模型被训练为通常通过对数据的联合或条件分布进行建模来生成类似于数据分布的样本。因此,条件生成模型是被训练为估计如何从输入数据有条件地生成样本的生成模型。在这种情况下,输入数据是蛋白质复合物的骨架结构,例如省略了蛋白质中的氨基酸的一些或全部r基团的骨架结构。可以以这种条件方式训练的生成模型的实例包括位点无关模型(site-independent model)、potts模型、变分自编码器(vae)、生成对抗网络(gan)、自回归似然模型。

6、在一些实施例中,能量景观是表示该靶复合物和该一种或多种相关生物聚合物序列的条件随机场。

7、在一些实施例中,从该能量景观获得该一种或多种相关生物聚合物序列采用最大似然法。

8、在一些实施例中,从该能量景观获得该一种或多种相关生物聚合物序列采用能量最小化过程。在一些实施例中,能量最小化过程采用蒙特卡洛(monte carlo)模拟、退火、整数线性规划、或基于连续松弛的优化。

9、在一些实施例中,解码器是生成模型或条件生成模型,其选自以下各项中的一项:

10、a)位点无关模型,该模型预测每个位置处的每个可能单体的边际概率,

11、b)单体间成对偶联的条件随机场层或potts模型,

12、c)采用高阶相互作用和/或神经网络参数化的基于能量的模型,

13、d)自回归分解语言模型,

14、e)可能被构造为变分自编码器的连续潜变量模型建模,

15、f)离散潜变量模型,或者

16、g)隐式生成模型。

17、以上列举的是用于生成作为一系列决策的序列(例如,在我们的案例中的单词序列或生物序列)的生成模型的实例,其中每个决策都依赖于先前的决策来建模。在自然语言的情况下,这些模型可以在给定所有之前的单词的情况下预测文档中的每个单词(例如,生成式预训练transformer 3(gpt3)是用于自然语言生成的一个实例)。在本披露中,上述模型将结构中每个位置处的每种单体类型预测为以先前或之前的决策为条件的一系列决策。可以将这种“之前”的概念一般化为使得之前或先前的条目并不像自然语言处理情况那样严格按照从左到右的西方阅读顺序。相反,自回归模型只是将对象中的项预测为按某种预定顺序的一系列决策。

18、在一些实施例中,解码器被构造为条件随机场。在一些实施例中,条件随机场由第一项和第二项参数化,该第一项表示该参考结构中的每个位置处的单体偏差,并且该第二项表示该结构中的单体之间的相互依赖性。在一些说明性实施例中,一种或多种相关生物聚合物序列是蛋白质,并且条件随机场

19、由表征,

20、其中si是指在位置i处的单体同一性,x是指参考结构的整个骨架结构,hi[si;x]是指给定si的情况下由网络输出的在位置i处的单体类型x的偏差项,并且jij[si,sj;x]是指在位置si处的单体类型i与在位置sj处的单体类型j之间的偶联项。这可以类似地应用于非蛋白质生物聚合物。

21、在一些实施例中,靶复合物包含一种或多种参考生物聚合物序列。在一些实施例中,靶复合物包含生物聚合物,即,拓扑结构被包括在图表示中的生物聚合物。

22、在一些实施例中,靶复合物包含非生物聚合物的至少一个分子。

23、在一些实施例中,参考结构是两种或更多种参考生物聚合物的复合物。在一些实施例中,从能量景观获得该一种或多种生物聚合物序列还包括获得与将包含两种或更多种生物聚合物序列的靶复合物进行结合有关的一种或多种生物聚合物序列。

24、在一些实施例中,单体的拓扑结构包括作为通过径向基函数、角度嵌入和至少一种分类离散化而得到的向量值的键长、键角、二面角、标量长度和角度中的一个或多个(例如,1、2、3、4、5、6或全部7项)的表示。

25、在一些实施例中,拓扑结构基于k最近邻,其中k约为:10、15、20、25、30、35、40、45、50或以上。

26、在一些实施例中,拓扑结构基于的单体质心距离约为:5、6、7、8、9、10、11、12、本文档来自技高网...

【技术保护点】

1.一种方法,其包括提供一种或多种相关生物聚合物序列以符合参考结构,该参考结构包含靶复合物,这些相关生物聚合物序列可通过包括以下各项的方法获得:

2.如权利要求1所述的方法,其中该能量景观是序列的条件生成模型。

3.如权利要求1所述的方法,其中该能量景观是表示该靶复合物和该一种或多种相关生物聚合物序列的条件随机场。

4.如前述权利要求中任一项所述的方法,其中从该能量景观获得该一种或多种生物聚合物序列采用最大似然法。

5.如前述权利要求中任一项所述的方法,其中从该能量景观获得该一种或多种生物聚合物序列采用能量最小化过程。

6.如权利要求5所述的方法,其中该能量最小化过程采用蒙特卡洛模拟、模拟退火、整数线性规划、遗传过程、变分推断或基于连续松弛的优化。

7.如前述权利要求中任一项所述的方法,其中该解码器是生成模型或条件生成模型,其选自以下各项中的至少一项:

8.如前述权利要求中任一项所述的方法,其中该解码器被构造为条件随机场。

9.如权利要求8所述的方法,其中该条件随机场由第一项和第二项参数化,该第一项表示该参考结构中的每个位置处的单体偏差,并且该第二项表示该结构中的单体之间的相互依赖性。

10.如权利要求9所述的方法,其中该一种或多种相关生物聚合物序列是蛋白质,并且该条件随机场由表征,其中si是指在位置i处的单体同一性,X是指该参考结构的整个骨架结构,hi[si;X]是指给定si的情况下由该网络输出的在位置i处的单体类型X的偏差项,并且Jij[si,sj;X]是指在位置si处的单体类型i与在位置sj处的单体类型j之间的偶联项。

11.如前述权利要求中任一项所述的方法,其中该靶复合物包含该生物聚合物。

12.如前述权利要求中任一项所述的方法,其中该靶复合物包含非生物聚合物的分子。

13.如前述权利要求中任一项所述的方法,其中该靶复合物是包含两种或更多种参考生物聚合物序列的复合物。

14.如权利要求13所述的方法,其中从该能量景观获得该一种或多种相关生物聚合物序列还包括获得与将包含该两种或更多种参考生物聚合物序列的靶复合物进行结合有关的一种或多种相关生物聚合物序列。

15.如前述权利要求中任一项所述的方法,其中单体的该拓扑结构包括作为通过径向基函数、角度嵌入和至少一种分类离散化而得到的向量值的键长、键角、二面角、标量长度和角度中的一个或多个的表示。

16.如前述权利要求中任一项所述的方法,其中该拓扑结构基于k最近邻,其中k约为:10、15、20、25、30、35、40、45、50或以上。

17.如前述权利要求中任一项所述的方法,其中该拓扑结构基于的单体质心距离约为:5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20埃或更多。

18.如权利要求17所述的方法,其中该生物聚合物是蛋白质,该单体质心是该蛋白质中氨基酸的α-碳。

19.如前述权利要求中任一项所述的方法,其中这些边缘包括以下各项中的一项或多项:单体之间的一级序列距离、该参考结构中的单体对是在相同的聚合物中还是在不同的聚合物中、单体之间的原子间距离、第一单体i处的原子和第二单体j处的原子的相对取向,例如,该第二单体j处的原子当规范化转换到基于该第一单体i的参考系中时的相对位置、该第一单体i处和该第二单体j处的原子之间的原始笛卡尔位移。

20.如前述权利要求中任一项所述的方法,其中该方法用于提供该一种或多种相关生物聚合物序列的全链设计以符合该参考结构,该参考结构包括由天然存在的序列形成的结构、由计算机生成的序列形成的结构和与序列不相关联的计算机生成的结构中的至少一种。

21.如前述权利要求中任一项所述的方法,其中该方法用于提供该一种或多种相关生物聚合物序列的界面单体的设计以符合该参考结构。

22.如前述权利要求中任一项所述的方法,其中该方法用于提供该一种或多种相关生物聚合物序列的表面单体的设计以符合该参考结构。

23.如前述权利要求中任一项所述的方法,其中该方法用于使用一组有限的单体来提供该一种或多种相关生物聚合物序列以符合该参考结构。

24.如前述权利要求中任一项所述的方法,其中该参考结构包含该生物聚合物的骨架。

25.如权利要求24所述的方法,其中该骨架省略了该生物聚合物的一些或全部侧链。

26.如前述权利要求中任一项所述的方法,其还包括:

27.如前述权利要求中任一项所述的方法,其中该一种或多种相关生物聚合物序列是多肽。

...

【技术特征摘要】
【国外来华专利技术】

1.一种方法,其包括提供一种或多种相关生物聚合物序列以符合参考结构,该参考结构包含靶复合物,这些相关生物聚合物序列可通过包括以下各项的方法获得:

2.如权利要求1所述的方法,其中该能量景观是序列的条件生成模型。

3.如权利要求1所述的方法,其中该能量景观是表示该靶复合物和该一种或多种相关生物聚合物序列的条件随机场。

4.如前述权利要求中任一项所述的方法,其中从该能量景观获得该一种或多种生物聚合物序列采用最大似然法。

5.如前述权利要求中任一项所述的方法,其中从该能量景观获得该一种或多种生物聚合物序列采用能量最小化过程。

6.如权利要求5所述的方法,其中该能量最小化过程采用蒙特卡洛模拟、模拟退火、整数线性规划、遗传过程、变分推断或基于连续松弛的优化。

7.如前述权利要求中任一项所述的方法,其中该解码器是生成模型或条件生成模型,其选自以下各项中的至少一项:

8.如前述权利要求中任一项所述的方法,其中该解码器被构造为条件随机场。

9.如权利要求8所述的方法,其中该条件随机场由第一项和第二项参数化,该第一项表示该参考结构中的每个位置处的单体偏差,并且该第二项表示该结构中的单体之间的相互依赖性。

10.如权利要求9所述的方法,其中该一种或多种相关生物聚合物序列是蛋白质,并且该条件随机场由表征,其中si是指在位置i处的单体同一性,x是指该参考结构的整个骨架结构,hi[si;x]是指给定si的情况下由该网络输出的在位置i处的单体类型x的偏差项,并且jij[si,sj;x]是指在位置si处的单体类型i与在位置sj处的单体类型j之间的偶联项。

11.如前述权利要求中任一项所述的方法,其中该靶复合物包含该生物聚合物。

12.如前述权利要求中任一项所述的方法,其中该靶复合物包含非生物聚合物的分子。

13.如前述权利要求中任一项所述的方法,其中该靶复合物是包含两种或更多种参考生物聚合物序列的复合物。

14.如权利要求13所述的方法,其中从该能量景观获得该一种或多种相关生物聚合物序列还包括获得与将包含该两种或更多种参考生物聚合物序列的靶复合物进行结合有关的一种或多种相关生物聚合物序列。

15.如前述权利要求中任一项所述的方法,其中单体的该拓扑结构包括作为通过径向基函数、角度嵌入和至少一种分类离散化而得到的向量值的键长、键角、二面角、标量长度和角度中的一个或多个的表示。

16.如前述权利要求中任一项所述的方法,其中该拓扑结构基于k最近邻,其中k约为:10、15、20、25、30、35、40、45、50或以上。

17.如前述权利要求中任一项所述的方法,其中该拓扑结构基于的单体质心距离约为:5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20埃或更多。

18.如权利要求17所述的方法,其中该生物聚合物是蛋白质,该单体质心是该蛋白质中氨基酸的α-碳。

19.如前述权利要求中任一项所述的方法,其中这些边缘包括以下各项中的一项或多项:单体之间的一级序列距离、该参考结构中的单体对是在相同的聚合物中还是在不同的聚合物中、单体之间的原子间距离、第一单体i处的原子和第二单体j处的原子的相对取向,例如,该第二单体j处的原子当规范化转换到基于该第一单体i的参考系中时的相对位置、该第一单体i处和该第二单体j处的原子之间的原始笛卡尔位移。

20.如前述权利要求中任一项所述的方法,其中该方法用于提供该一种或多种相关生物聚合物序列的全链设计以符合该参考结构,该参考结构包括由天然存在的序列形成的结构、由计算机生成的序列形成的结构和与序列不相关联的计算机生成的结构中的至少一...

【专利技术属性】
技术研发人员:J·英格拉汉姆
申请(专利权)人:旗舰开拓创新六世公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1