用于MHC肽结合预测的GAN-CNN制造技术

技术编号:26800604 阅读:33 留言:0更新日期:2020-12-22 17:19
本发明专利技术公开了用于结合卷积神经网络(CNN)来训练生成对抗网络(GAN)的方法。所述GAN和所述CNN可以使用诸如蛋白质相互作用数据的生物学数据来训练。所述CNN可以用于将新数据鉴定为正的或负的。本发明专利技术公开了用于合成与被鉴定为正的新蛋白质相互作用数据相关联的多肽的方法。

【技术实现步骤摘要】
【国外来华专利技术】用于MHC肽结合预测的GAN-CNN相关联申请的交叉引用本申请要求2018年2月17日提交的美国临时申请号62/631,710的权益,该临时申请据此以引用的方式整体并入本文。
技术介绍
机器学习的使用面临的最大问题之一是缺乏大型注释数据集。数据的注释不仅昂贵和耗时,而且还高度依赖于专家观察员的可用性。有限数量的训练数据可以抑制监督机器学习算法的性能,所述算法通常需要非常大量的数据进行训练以避免过拟合。迄今,已经开展了很多工作来从可用的数据中提取尽可能多的信息。一个领域(尤其是因缺乏大型注释数据集而受到影响的领域)是生物学数据(诸如蛋白质相互作用数据)的分析。预测蛋白质可以如何相互作用的能力对于新疗法的鉴定是非常宝贵的。免疫疗法的进展正在迅速发展,并且正在提供调节患者的免疫系统的新药,以帮助抗击疾病(包括癌症、自身免疫性疾病和感染)。例如,已经鉴定出检查点抑制剂分子(诸如PD-1和PD-1的配体),这些检查点抑制剂分子被用于开发抑制或刺激通过PD-1进行的信号转导从而调节患者的免疫系统的药物。这些新药在一些情况下非常有效,但是并非在所有情况下都。在大约本文档来自技高网...

【技术保护点】
1.一种用于训练生成对抗网络(GAN)的方法,所述方法包括:/na.由GAN生成器生成越来越准确的正模拟数据,直到GAN判别器将所述正模拟数据分类为正的;/nb.将所述正模拟数据、正真实数据和负真实数据呈现给卷积神经网络(CNN),直到所述CNN将每种类型的数据分类为正的或负的;/nc.将所述正真实数据和所述负真实数据呈现给所述CNN,以生成预测得分;以及/nd.根据所述预测得分确定所述GAN是经训练的还是未经训练的,以及当所述GAN是未经训练的时,重复步骤a-c直到根据所述预测得分确定所述GAN是经训练的。/n

【技术特征摘要】
【国外来华专利技术】20180217 US 62/631,7101.一种用于训练生成对抗网络(GAN)的方法,所述方法包括:
a.由GAN生成器生成越来越准确的正模拟数据,直到GAN判别器将所述正模拟数据分类为正的;
b.将所述正模拟数据、正真实数据和负真实数据呈现给卷积神经网络(CNN),直到所述CNN将每种类型的数据分类为正的或负的;
c.将所述正真实数据和所述负真实数据呈现给所述CNN,以生成预测得分;以及
d.根据所述预测得分确定所述GAN是经训练的还是未经训练的,以及当所述GAN是未经训练的时,重复步骤a-c直到根据所述预测得分确定所述GAN是经训练的。


2.如权利要求1所述的方法,其中所述正模拟数据、所述正真实数据和所述负真实数据包括生物学数据。


3.如权利要求1所述的方法,其中所述正模拟数据包括正模拟多肽-主要组织相容性复合物I类(MHC-I)相互作用数据,所述正真实数据包括正真实多肽-MHC-I相互作用数据,并且所述负真实数据包括负真实多肽-MHC-I相互作用数据。


4.如权利要求3所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为真实的包括:
e.由所述GAN生成器根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;
f.将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;
g.由判别器根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的相应多肽-MHC-I相互作用是模拟正的、真实正的还是真实负的;
h.由所述判别器根据所述确定的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及
i.重复步骤e-h直到满足第一停止标准。


5.如权利要求4所述的方法,其中将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将相应多肽-MHC-I相互作用数据分类为正的或负的包括:
j.由所述GAN生成器根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;
k.将所述第二模拟数据集、针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成CNN训练数据集;
l.将所述CNN训练数据集呈现给所述卷积神经网络(CNN);
m.由所述CNN根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的;
n.由所述CNN根据所述分类的准确性调整所述一组CNN参数中的一者或多者;以及
o.重复步骤l-n,直到满足第二停止标准。


6.如权利要求5所述的方法,其中将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN以生成预测得分包括:
由所述CNN根据所述一组CNN参数将针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的。


7.如权利要求6所述的方法,其中根据所述预测得分确定所述GAN是否为经训练的包括:由所述CNN确定所述分类的准确性,其中当所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN。


8.如权利要求6所述的方法,其中根据所述预测得分确定所述GAN是否为经训练的包括:由所述CNN确定所述分类的准确性,其中当所述分类的所述准确性不满足第三停止标准时,返回步骤a。


9.如权利要求4所述的方法,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。


10.如权利要求9所述的方法,其中所述等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。


11.如权利要求9所述的方法,其中所述等位基因长度为从约8至约12个氨基酸。


12.如权利要求11所述的方法,其中所述等位基因长度为从约9至约11个氨基酸。


13.如权利要求3所述的方法,还包括:
将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用;
由所述CNN将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及
从被分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。


14.通过如权利要求13所述的方法产生的多肽。


15.如权利要求13所述的方法,其中所述多肽是肿瘤特异性抗原。


16.如权利要求13所述的方法,其中所述多肽包括特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。


17.如权利要求3所述的方法,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。


18.如权利要求17所述的方法,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。


19.如权利要求3所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括评估针对所述GAN生成器的梯度下降表达。


20.如权利要求3所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括:
迭代地执行所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负真实多肽-MHC-I相互作用数据以低概率的可能性;以及
迭代地执行所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。


21.如权利要求3所述的方法,其中将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将所述相应多肽-MHC-I相互作用数据分类为正的或负的包括:
执行卷积程序;
执行非线性(ReLU)程序;
执行池化或子采样程序;以及
执行分类(全连接层)程序。


22.如权利要求1所述的方法,其中所述GAN包括深度卷积GAN(DCGAN)。


23.如权利要求8所述的方法,其中所述第一停止标准包括评估均方误差(MSE)函数,所述第二停止标准包括评估均方误差(MSE)函数,并且所述第三停止标准包括评估曲线下面积(AUC)函数。


24.如权利要求3所述的方法,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。


25.如权利要求1所述的方法,其中根据所述预测得分确定所述GAN是否为经训练的包括将所述预测得分中的一者或多者与阈值进行比较。


26.如权利要求1所述的方法,还包括输出所述GAN和所述CNN。


27.一种用于训练生成对抗网络(GAN)的装置,所述装置包括:
一个或多个处理器;以及
存储处理器可执行指令的存储器,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
a.由GAN生成器生成越来越准确的正模拟数据,直到GAN判别器将所述正模拟数据分类为正的;
b.将所述正模拟数据、正真实数据和负真实数据呈现给卷积神经网络(CNN),直到所述CNN将各自的数据分类为正的或负的;
c.将所述正真实数据和所述负真实数据呈现给所述CNN,以生成预测得分;以及
d.根据所述预测得分确定所述GAN是否为经训练的,其中当所述GAN是未经训练的时,重复a-c直到根据所述预测得分确定所述GAN是经训练的。


28.如权利要求27所述的装置,其中所述正模拟数据、所述正真实数据和所述负真实数据包括生物学数据。


29.如权利要求27所述的装置,其中所述正模拟数据包括正模拟多肽-MHC-I相互作用数据,所述正真实数据包括正真实多肽-MHC-I相互作用数据,并且所述负真实数据包括负真实多肽-MHC-I相互作用数据。


30.如权利要求29所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
e.根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;
f.将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;
g.接收来自判别器的信息,其中所述判别器被配置为根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的各自的正多肽-MHC-I相互作用是正的还是负的;
h.根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及
i.重复e-h直到满足第一停止标准。


31.如权利要求30所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将相应多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
j.根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;
k.将所述第二模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用数据和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;
l.将所述CNN训练数据集呈现给卷积神经网络(CNN);
m.接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的;
n.根据训练信息的准确性调整所述一组CNN参数中的一者或多者;以及
o.重复l-o直到满足第二停止标准。


32.如权利要求31所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成预测得分,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
根据所述一组CNN参数...

【专利技术属性】
技术研发人员:X·王Y·黄W·王Q·赵
申请(专利权)人:瑞泽恩制药公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利