System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及生物医药,具体涉及一种多肽与受体结合活性预测模型的训练方法、装置及设备。
技术介绍
1、多肽具有抗病毒、抗菌、抗癌症等特性,且可穿过血脑屏障,为药物研发中的热点。在多肽设计领域,准确预测多肽和受体之间结合的活性,可以加快多肽设计的速度,并大大降低多肽设计的各种成本。但是,目前用来预测多肽和受体之间结合的活性的方案,其预测准确度低。
技术实现思路
1、有鉴于此,本专利技术提供了一种多肽与受体结合活性预测模型的训练方法、装置及设备,以解决多肽和受体之间结合的活性的预测准确度低的问题。
2、第一方面,本专利技术提供了一种多肽与受体结合活性预测模型的训练方法,方法包括:
3、获取多对第一样本多肽序列和第一样本受体序列;
4、针对每一对第一样本多肽序列和第一样本受体序列,分别获取对应的第一序列信息对、第一结构信息对和第一活性标注值;
5、将第一样本多肽序列和第一样本受体序列对应的第一序列信息对和第一结构信息对,输入至第一活性预测模型,得到第一预测结果,并利用第一活性标注值和第一预测结果对第一活性预测模型的参数进行调整得到第二活性预测模型;
6、获取多对第二样本多肽序列和第二样本受体序列,以及对应的第二活性标注值,对第二活性预测模型进行训练得到第三活性预测模型。
7、在一种可选的实施方式中,第一样本多肽序列包括多类多肽序列;第二样本多肽序列所属的种类与第一样本多肽序列所属的种类不同,或者第二样本多肽序列所属的
8、和/或,
9、第一样本受体序列包括多类受体序列;第二样本受体序列所属的种类与第一样本受体序列所属的种类不同,或者第二样本受体序列所属的种类与第一样本受体序列所属种类的中一个相同。
10、在一种可选的实施方式中,获取多对第二样本多肽序列和第二样本受体序列,以及对应的第二活性标注值,对第二活性预测模型进行训练得到第三活性预测模型,包括:
11、针对每一对第二样本多肽序列和第二样本受体序列,分别获取对应的第二序列信息对、第二结构信息对和第二活性标注值;
12、将第二样本多肽序列和第二样本受体序列对应的第二序列信息对和第二结构信息对,输入至第二活性预测模型,得到第二预测结果,并利用第二活性标注值和第二预测结果对第二活性预测模型的参数进行调整得到第三活性预测模型。
13、在一种可选的实施方式中,针对每一对第一样本多肽序列和第一样本受体序列,获取对应的第一序列信息对,包括:
14、针对每一对第一样本多肽序列和第一样本受体序列,若第一样本多肽序列包括修饰基团,将修饰基团切分为修饰基团词元,并替换为预设字符,对第一样本多肽序列中的除修饰基团以外的其它部分进行词元切分;
15、将对第一样本多肽序列进行切分得到的词元和预设字符替换为对应的第一预设数值,得到第一样本多肽序列信息;
16、对第一样本受体序列进行词元切分,并将切换得到的词元替换为对应的第二预设数值,得到第一样本受体序列信息;
17、将第一样本多肽序列信息和第一样本受体序列信息拼接,得到第一序列信息对。
18、在一种可选的实施方式中,针对每一对第一样本多肽序列和第一样本受体序列,获取对应的第一结构信息对,包括:
19、针对每一对第一样本多肽序列和第一样本受体序列,利用人工智能模型获取第一样本多肽序列的结构图、第一样本受体序列的结构图;
20、基于第一样本多肽序列的结构图和第一样本受体序列的结构图,得到第一结构信息对。
21、在一种可选的实施方式中,第一活性预测模型包括序列特征提取模块、结构特征提取模块和组合模块;
22、将第一样本多肽序列和第一样本受体序列对应的第一序列信息对和第一结构信息对,输入至第一活性预测模型,得到第一预测结果,包括:
23、利用序列特征提取模块对第一序列信息对进行特征提取,得到序列对特征;
24、利用结构特征提取模块对第一结构信息对进行特征提取,得到结构对特征;
25、利用组合模块,根据序列对特征和结构对特征,输出第一预测结果。
26、在一种可选的实施方式中,将第一样本多肽序列和第一样本受体序列对应的第一序列信息对和第一结构信息对,输入至第一活性预测模型,得到第一预测结果,包括:
27、将多对第一序列信息对和第一结构信息对划分为k个不重叠的子集;
28、将其中一个子集作为测试集、其它的k-1个子集作为训练集,将训练集中的第一样本多肽序列和第一样本受体序列对应的第一序列信息对和第一结构信息对,输入至第一活性预测模型,得到第一预测结果;测试集中的第一样本多肽序列和第一样本受体序列对应的第一序列信息对和第一结构信息对,用于对第一活性预测模型进行评估;
29、更换作为测试集的子集、其它的k-1个子集作为训练集,直至训练k次,并得到k个模型评估值。
30、第二方面,本专利技术提供了一种多肽与受体结合活性预测模型的训练装置,装置包括:
31、样本获取模块,用于获取多对第一样本多肽序列和第一样本受体序列;
32、样本信息获取模块,用于针对每一对第一样本多肽序列和第一样本受体序列,分别获取对应的第一序列信息对、第一结构信息对和第一活性标注值;
33、预训练模块,用于将第一样本多肽序列和第一样本受体序列对应的第一序列信息对和第一结构信息对,输入至第一活性预测模型,得到第一预测结果,并利用第一活性标注值和第一预测结果对第一活性预测模型的参数进行调整得到第二活性预测模型;
34、调整训练模块,用于获取多对第二样本多肽序列和第二样本受体序列,以及对应的第二活性标注值,对第二活性预测模型进行训练得到第三活性预测模型。
35、第三方面,本专利技术提供了一种计算机设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面或其对应的任一实施方式的多肽与受体结合活性预测模型的训练方法的步骤。
36、第四方面,本专利技术提供了一种计算机可读存储介质,该计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面或其对应的任一实施方式的多肽与受体结合活性预测模型的训练方法的步骤。
37、本实施例提供的多肽与受体结合活性预测模型的训练方法、装置及设备,在模型训练时先基于大量的多肽序列和受体序列样本对对建立的活性预测模型进行初步训练,然后利用新的、具有针对性的、少量多肽序列和受体序列对样本,对活性预测模型进行微调训练,提升了训练出的活性预测模型的预测准确性。另外,活性预测模型训练时和实际预测时并非使用单一的序列特征进行预测,还融合了序列和结构特征进行预测,进一步提高了活性预测模型的预测准确度。
本文档来自技高网...【技术保护点】
1.一种多肽与受体结合活性预测模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第一样本多肽序列包括多类多肽序列;所述第二样本多肽序列所属的种类与所述第一样本多肽序列所属的种类不同,或者第二样本多肽序列所属的种类与所述第一样本多肽序列所属种类的中一个相同;
3.根据权利要求1或2所述的方法,其特征在于,所述获取多对第二样本多肽序列和第二样本受体序列,以及对应的第二活性标注值,对所述第二活性预测模型进行训练得到第三活性预测模型,包括:
4.根据权利要求1所述的方法,其特征在于,所述针对每一对所述第一样本多肽序列和所述第一样本受体序列,获取对应的第一序列信息对,包括:
5.根据权利要求1、2、4中任一项所述的方法,其特征在于,所述针对每一对所述第一样本多肽序列和所述第一样本受体序列,获取对应的第一结构信息对,包括:
6.根据权利要求1、2、4中任一项所述的方法,其特征在于,所述第一活性预测模型包括序列特征提取模块、结构特征提取模块和组合模块;
7.根据权利要求1、2、4中任
8.一种多肽与受体结合活性预测模型的训练装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的多肽与受体结合活性预测模型的训练方法的步骤。
...【技术特征摘要】
1.一种多肽与受体结合活性预测模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第一样本多肽序列包括多类多肽序列;所述第二样本多肽序列所属的种类与所述第一样本多肽序列所属的种类不同,或者第二样本多肽序列所属的种类与所述第一样本多肽序列所属种类的中一个相同;
3.根据权利要求1或2所述的方法,其特征在于,所述获取多对第二样本多肽序列和第二样本受体序列,以及对应的第二活性标注值,对所述第二活性预测模型进行训练得到第三活性预测模型,包括:
4.根据权利要求1所述的方法,其特征在于,所述针对每一对所述第一样本多肽序列和所述第一样本受体序列,获取对应的第一序列信息对,包括:
5.根据权利要求1、2、4中任一项所述的方法,其特征在于,所述针对每一对所述第一样本多肽序列...
【专利技术属性】
技术研发人员:宋更申,赵化建,
申请(专利权)人:北京悦康科创医药科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。