基于深度学习模型的抗体可开发性预测方法和装置制造方法及图纸

技术编号：40550982 阅读：6 留言：0更新日期：2024-03-05 19:10

本发明专利技术公开了一种基于深度学习模型的抗体可开发性预测方法和装置，所述方法包括：获取待预测抗体的序列文件，在所述序列文件中识别并提取CDR区和轻重链序列；将所述轻重链序列输入预先训练的预测模型，以得到所述预测模型输出的预测结果，所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图；其中，所述预测模型是基于预先构建的深度学习网络，利用抗体样本的序列文件进行训练得到的，所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层，以及用于对特征编码后的代表序列进行特征提取卷积神经网络。解决了现有技术中抗体可开发性评估计算量较大，评估效率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能及抗体性能预测，具体涉及一种基于深度学习模型的抗体可开发性预测方法和装置。

技术介绍

1、抗体在重大疾病的预防、诊断与治疗中起着至关重要的作用，为了提高利用抗体进行药物开发的成功率，需要对抗体的可开发性进行评估。具体地，可开发性评估是从海量的候选抗体中找出具有理想药效、安全性和药代动力学特性，并且具有理想的理化特性、满足生产、制剂工艺各项技术要求的先导抗体的过程。

2、抗体的稳定性很大程度上取决于是否容易聚集，而这又主要取决于抗体的疏水相互作用及静电相互作用，据此，在预测抗体稳定性时，已有技术多采用计算抗体可开发性指数的方式。具体地，根据全长抗体的结构计算抗体的净电荷，根据决定簇互补区的空间结构计算抗体的空间聚集属性；然后用这净电荷和空间聚集属性定义可开发性指数。基于该可开发性指数，通过回归模型可定量预测抗体的聚集倾向与稳定性。但利用空间结构预测抗体稳定性的方法，需要基于抗体晶体结构或同源建模形成的理论结构进行计算，其消耗计算资源、速度慢、准确率受理论预测模型精度的影响大，难以对候选抗体进行高通量评估。

3、因此，如何全面、准确、快速地对海量候选抗体进行可开发性评估，是抗体药物开发领域亟待解决的问题。

技术实现思路

1、为此，本专利技术实施例提供一种基于深度学习模型的抗体可开发性预测方法和装置，以解决现有技术中抗体可开发性评估计算量较大，评估效率较低的技术问题，以期实现全面、准确、快速地对海量候选抗体进行可开发性评估。

2、

3、本专利技术提供了一种基于深度学习模型的抗体可开发性预测方法，所述方法包括：

4、获取待预测抗体的序列文件；

5、在所述序列文件中识别并提取cdr区和轻重链序列；

6、将所述轻重链序列输入预先训练的预测模型，以得到所述预测模型输出的预测结果，所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图；

7、其中，所述预测模型是基于预先构建的深度学习网络，利用抗体样本的序列文件进行训练得到的，所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层，以及用于对特征编码后的代表序列进行特征提取卷积神经网络。

8、在一些实施例中，所述嵌入编码层包括：

9、双向长短时记忆网络，所述双向长短时记忆网络用于对输入的待预测抗体的序列文件进行蛋白序列编码；

10、残差网络，所述残差网络用于通过逐层堆叠残差块对编码后的蛋白序列进行特征提取，以降低蛋白序列的维度；

11、多层自注意力网络，所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取。

12、在一些实施例中，利用所述双向长短时记忆网络进行蛋白序列编码的过程，具体包括：

13、将蛋白序列输入双向长短时记忆网络的嵌入层，通过该嵌入层将每个氨基酸的向量表示映射到一个固定长度的向量；

14、双向长短时记忆网络的两个子网络lstm分别从左到右和从右到左读取输入的蛋白序列，在编码过程中获取到前后的上下文信息，以得到蛋白序列特征；

15、其中，在每个时间步骤中，子网络lstm将当前时间步的输入向量和前一时间步的隐状态作为输入，计算当前时间步的隐状态，所述隐状态包括细胞状态和隐藏状态，所述细胞状态用于保留长期记忆，所述隐藏状态用于传递信息。

16、在一些实施例中，所述残差网络具体包括至少一个残差块，每个残差块均包括主路径和跳跃路径；

17、其中，所述主路径用于提取输入蛋白序列的特征信息，所述跳跃路径用于提供绕过主路径的旁路路径。

18、在一些实施例中，残差网络通过逐层堆叠残差块对编码后的蛋白序列进行特征提取的过程，具体包括：

19、输入蛋白序列，将输入的蛋白序列经过卷积和池化操作，通过主路径进行特征提取，并生成中间特征映射；

20、利用跳跃路径将输入的蛋白序列与主路径输出的中间特征映射相加，形成残差；

21、将形成的残差通过激活函数进行非线性变换，并进入下一个残差块，直至循环至最后一个残差块；

22、将最后一个残差块输出的数据进行全局池化，得到最终的特征向量。

23、在一些实施例中，所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取的过程，具体包括：

24、以残差网络输出的特征向量为输入序列传递给自注意力层；

25、通过计算注意力权重，在输入序列中建立每个位置与其他位置之间的相关性，以得到注意力权重；

26、将得到的注意力权重与输入序列的表示进行加权求和，以得到输出特征向量。

27、在一些实施例中，所述卷积神经网络的网络结构包括：

28、输入层，所述输入层用于接收蛋白序列；

29、卷积层，通过卷积核在蛋白序列上进行滑动，以提取局部相关特征，每个卷积核的滑动过程是通过在蛋白序列上进行一系列的乘积和求和操作实现的；对于每个卷积核的输出，通过激活函数引入非线性；

30、池化层，所述池化层用于通过池化操作减少特征图的维度，并保留目标特征；

31、全连接层，池化层的输出被连接到一个或多个全连接层中，全连接层将卷积层的输出映射到输出层，生成最终的预测结果。

32、本专利技术还提供了一种基于深度学习模型的抗体可开发性预测装置，所述装置包括：

33、数据获取单元，用于获取待预测抗体的序列文件；

34、序列提取单元，用于在所述序列文件中识别并提取cdr区和轻重链序列；

35、结果生成单元，用于将所述轻重链序列输入预先训练的预测模型，以得到所述预测模型输出的预测结果，所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图；

36、其中，所述预测模型是基于预先构建的深度学习网络，利用抗体样本的序列文件进行训练得到的，所述深度学习网络的网络结构包括用于对所述待预测抗体的蛋白序列进行特征编码的嵌入编码层，以及用于对特征编码后的代表序列进行特征提取卷积神经网络。

37、本专利技术还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述方法的步骤。

38、本专利技术还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

39、本专利技术所提供的基于深度学习模型的抗体可开发性预测方法和装置，通过获取待预测抗体的序列文件，在所述序列文件中识别并提取cdr区和轻重链序列；将所述轻重链序列输入预先训练的预测模型，以得到所述预测模型输出的预测结果，所述预测结果至少包括所述待预测抗体的目标性质的预测数值及相应的分布图；其中，所述预测模型是基于预本文档来自技高网...

【技术保护点】

1.一种基于深度学习模型的抗体可开发性预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于深度学习模型的抗体可开发性预测方法，其特征在于，所述嵌入编码层包括：

3.根据权利要求2所述的基于深度学习模型的抗体可开发性预测方法，其特征在于，利用所述双向长短时记忆网络进行蛋白序列编码的过程，具体包括：

4.根据权利要求2所述的基于深度学习模型的抗体可开发性预测方法，其特征在于，所述残差网络具体包括至少一个残差块，每个残差块均包括主路径和跳跃路径；

5.根据权利要求4所述的基于深度学习模型的抗体可开发性预测方法，其特征在于，残差网络通过逐层堆叠残差块对编码后的蛋白序列进行特征提取的过程，具体包括：

6.根据权利要求2所述的基于深度学习模型的抗体可开发性预测方法，其特征在于，所述多层自注意力网络用于对蛋白序列中不同位置之间的相关性进行表示学习和逐层的特征提取的过程，具体包括：

7.根据权利要求1所述的基于深度学习模型的抗体可开发性预测方法，其特征在于，所述卷积神经网络的网络结构包括：

8.一种

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于深度学习模型的抗体可开发性预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于深度学习模型的抗体可开发性预测方法，其特征在于，所述嵌入编码层包括：

3.根据权利要求2所述的基于深度学习模型的抗体可开发性预测方法，其特征在于，利用所述双向长短时记忆网络进行蛋白序列编码的过程，具体包括：

6.根据权利要求2所述的基于...

【专利技术属性】
技术研发人员：司马鹏，
申请(专利权)人：苏州创腾软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人