活性预测模型训练及活性预测相关产品制造技术

技术编号：40673893 阅读：5 留言：0更新日期：2024-03-18 19:11

本发明专利技术提供一种多肽与受体结合活性预测模型训练及活性预测相关产品。该模型训练方法的一具体实施方式包括：首先确定训练样本特征集，其中，训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值，训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征。然后，基于训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。即，通过多肽和受体结合活性预测的多模态预测模型，进行全方面的信息融合，可提高多肽与受体活性预测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术的实施例涉及多肽设计，具体涉及活性预测模型训练及活性预测相关产品，特别是多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、多肽具有抗病毒、抗菌、抗癌症等特性，且可穿过血脑屏障，为药物研发中的热点。在多肽设计领域，利用机器学习方法预测多肽和受体之间结合的活性，可以加快多肽设计的速度，并大大降低多肽设计的各种成本。

技术实现思路

1、本专利技术的实施例提出了活性预测模型训练及活性预测相关产品。

2、第一方面，本专利技术的实施例提供了一种多肽与受体结合活性预测模型训练方法，该方法包括：确定训练样本特征集，其中，训练样本特征对应有样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值，训练样本特征包括多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，其中，多肽序列和受体序列对特征为基于样本多肽氨基酸序列和样本受体氨基酸序列进行特征表示得到的特征，多肽分子指纹特征为基于样本多肽氨基酸序列对应的摩根分子指纹信息得到的特征，多肽描述符特征为基于样本多肽氨基酸序列对应的至少一个多肽描述符得到的特征；基于所述训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型。

3、在一些可选的实施方式中，所述初始多肽与受体结合活性预测模型包括：序列特征对双向编码器、分子指纹

4、所述基于所述训练样本特征集中的训练样本特征以及相应标注活性值，对初始多肽与受体结合活性预测模型进行训练，得到训练后的多肽与受体结合活性预测模型，包括：

5、对于所述训练样本特征集中的训练样本特征，执行以下模型参数调整操作：将该训练样本特征中的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征分别输入所述序列对特征双向编码器、所述分子指纹特征提取模型和所述描述符特征提取模型，得到第一特征向量、第二特征向量和第三特征向量；基于所述第一特征向量、第二特征向量和第三特征向量，确定联合特征向量；将所述联合特征向量输入所述活性值确定模型，得到实际预测活性值；基于所述实际活性预测值与该训练样本特征对应的标注样本活性值之间的差异调整所述初始多肽与受体结合活性预测模型的模型参数；

6、将所述模型参数调整后的所述初始多肽与受体结合活性预测模型确定为所述训练后的多肽与受体结合活性预测模型。

7、在一些可选的实施方式中，所述确定训练样本特征集，包括：

8、获取训练样本数据集，其中，训练样本数据包括样本多肽氨基酸序列、样本受体氨基酸序列以及用于表征样本多肽和样本受体之间结合活性程度的标注活性值；

9、对于所述训练样本数据集中每个训练样本数据，执行以下词元序列拼接操作：分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列；按照预设拼接方式拼接与该训练样本数据对应的多肽词元序列和受体词元序列，得到拼接词元序列；

10、对于所述训练样本数据集中每个训练样本数据，执行以下序列对特征嵌入表示操作：按照预设拼接方式拼接与该训练样本数据对应的多肽词元序列和受体词元序列，得到拼接词元序列；对于所述拼接词元序列中的每个词元进行嵌入特征表示得到相应词元的嵌入特征表示，词元的嵌入特征表示包括以下至少一项：词元嵌入特征、词元类型嵌入特征和词元位置嵌入特征，其中，词元类型用于表征词元属于多肽词元序列的多肽词元类别或者属于受体词元序列的受体词元类别；将所述拼接词元序列每个词元的嵌入特征表示按照该词元在所述拼接词元序列中的顺序进行拼接，得到与该训练样本数据对应的多肽序列和受体序列对特征；

11、对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作：将该训练样本数据中的样本多肽氨基酸序列依次转换为smiles表达式和摩根分子指纹信息，以及基于所述摩根分子指纹信息确定与该训练样本数据对应的多肽分子指纹特征；

12、对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作：基于该训练样本数据中的样本多肽氨基酸序列，计算预设多肽描述符集合中每个多肽描述符，以及基于计算得到的各多肽描述符确定与该训练样本数据对应的多肽描述符特征；

13、基于所述训练样本数据集中每个训练样本数据对应的多肽序列和受体序列对特征、多肽分子指纹特征和多肽描述符特征，确定所述训练样本特征集。

14、在一些可选的实施方式中，所述分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列，包括：

15、确定该训练样本数据中的样本多肽氨基酸序列中的修饰基团序列；

16、将该训练样本数据中的样本多肽氨基酸序列中的每个修饰基团序列切分为相应修饰基团词元，将该训练数据中的样本多肽氨基酸序列中除修饰基团序列外的其它部分进行词元切分，得到与该训练样本数据对应的多肽词元序列；

17、将该训练样本数据中的样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的受体词元序列。

18、在一些可选的实施方式中，在对于所述训练样本数据集中每个训练样本数据，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列之后，所述方法还包括：

19、在所述训练样本数据集中随机选取第一预设比例的训练样本数据作为第一被替换训练样本数据子集；

20、将每个所述第一被替换训练样本数据对应的样本受体词元序列中随机位置范围内的受体词元替换为预设替换用词元。

21、在一些可选的实施方式中，在对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作之后，所述方法还包括：

22、在所述训练样本数据集中随机选取第二预设比例的训练样本数据作为第二被替换训练样本数据子集；以及

23、将每个所述第二被替换训练样本数据对应的多肽分子指纹特征替换为预设替换用多肽分子指纹特征。

24、在一些可选的实施方式中，在对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作之后，所述方法还包括：

25、在所述训练数据集中随机选取第三预设比例的训练样本数据作为第三被替换训练样本数据子集；以及

26、将每个所述第三被替换训练样本数据对应的多肽描述符特征替换为预设替换用多肽描述符特征。

27、在一些可选的实施方式中，所述至少一个多肽描述符包括以下至少一项：氨基酸组成aac、二肽组成dic、k-间隔氨基酸基团对的组成cksaagp、伪氨基酸组成paac和理化性质phyc。

28、在一些可选本文档来自技高网...

【技术保护点】

1.一种多肽与受体结合活性预测模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述初始多肽与受体结合活性预测模型包括：序列特征对双向编码器、分子指纹特征提取模型、描述符特征提取模型和活性值确定模型；以及

3.根据权利要求1所述的方法，其中，所述确定训练样本特征集，包括：

4.根据权利要求3所述的方法，其中，所述分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列，包括：

5.根据权利要求3所述的方法，其中，在对于所述训练样本数据集中每个训练样本数据，分别将该训练样本数据中的样本多肽氨基酸序列和样本受体氨基酸序列进行词元切分，得到与该训练样本数据对应的多肽词元序列和受体词元序列之后，所述方法还包括：

6.根据权利要求3所述的方法，其中，在对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作之后，所述方法还包括：

7.根据权利要求3所述的方法，其中，在对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征

8.根据权利要求1所述的方法，其中，所述至少一个多肽描述符包括以下至少一项：氨基酸组成AAC、二肽组成DiC、k-间隔氨基酸基团对的组成CKSAAGP、伪氨基酸组成PAAC和理化性质PHYC。

9.根据权利要求2所述的方法，其中，所述序列特征双向编码器为Transformer模型中的编码器，所述分子指纹特征提取模型为第一卷积神经网络，所述多肽描述符特征提取模型为第二卷积神经网络，所述活性值确定模型为全连接网络。

10.一种多肽与受体结合活性预测方法，包括：

11.一种多肽与受体结合活性预测模型训练装置，包括：

12.一种多肽与受体结合活性预测装置，包括：

13.一种电子设备，包括：

14.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被一个或多个处理器执行时实现如权利要求1-9和/或权利要求10中任一所述的方法。

15.一种计算机程序产品，其特征在于，计算机程序产品包括指令，所述指令被处理器执行时实现如权利要求1-9和/或权利要求10中任一项所述的方法。

...

【技术特征摘要】

1.一种多肽与受体结合活性预测模型训练方法，包括：

3.根据权利要求1所述的方法，其中，所述确定训练样本特征集，包括：

6.根据权利要求3所述的方法，其中，在对于所述训练样本数据集中每个训练样本数据，执行以下分子指纹特征提取操作之后，所述方法还包括：

7.根据权利要求3所述的方法，其中，在对于所述训练样本数据集中每个训练样本数据，执行以下描述符特征提取操作之...

【专利技术属性】
技术研发人员：赵化建，宋更申，蔡利锋，
申请(专利权)人：北京悦康科创医药科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人