抗体改造模型训练方法、抗体改造方法及其装置制造方法及图纸

技术编号:39730209 阅读:7 留言:0更新日期:2023-12-17 23:34
本公开的实施例提供了一种抗体改造模型训练方法、抗体改造方法、及其分别对应的装置、设备、计算机程序产品和存储介质。其中,通过基于包括动物抗体和人类抗体数据的训练样本集对语言模型进行自监督预训练,使得所得到的预训练语言模型具有与训练动物抗体与训练人类抗体之间的特征差异相关的知识,并且通过利用与抗体改造相关的多个性能指标,对所述预训练语言模型进行进一步优化,以生成最终用于抗体改造的抗体改造模型。通过本公开的实施例的方法能够结合动物抗体和人类抗体数据,使得模型可以更好地处理以动物抗体为输入的人源化改造任务,优化其抗体人源化的改造结果,提高抗体人源化改造的成功率,从而为抗体药物研发提供技术支持。供技术支持。供技术支持。

【技术实现步骤摘要】
抗体改造模型训练方法、抗体改造方法及其装置


[0001]本公开涉及人工智能领域,更具体地,涉及一种抗体改造模型训练方法、抗体改造方法、及其分别对应的装置、设备、计算机程序产品和存储介质。

技术介绍

[0002]非人源性抗体进入人体内会引起严重的机体排异反应,进而影响抗体在临床应用时的安全性和效果。因此需要对抗体进行人源化改造,尽可能降低抗体的异源性,并且使其特异性和亲和力保持不变。人源化抗体在治疗肿痛、自身免疫性疾病、器官移植和病毒感染等方面已经显示出独特的优势和良好的应用前景。
[0003]人源化抗体主要可以指利用基因克隆及脱氧核糖核酸(DNA)重组技术对来自动物的单克隆抗体进行改造,重新表达产生的抗体。其大部分氨基酸序列被人源序列取代,基本保留动物原始的单克隆抗体的亲和力和特异性,又降低了其异源性,以有利地应用于人体。抗体的人源化改造可以有效降低抗体的异源性,增长其半衰期,有效改善抗体对人体免疫系统的活化作用。
[0004]因此,需要一种高效的抗体人源化改造方法,使得可以优化抗体人源化的改造结果。

技术实现思路

[0005]为了解决上述问题,本公开通过对来自动物与人类的抗体进行自监督预训练,并通过强化学习机制引入抗体人源化改造过程中的各种优化指标来进一步优化抗体人源化改造模型,从而优化抗体人源化的改造结果。
[0006]本公开的实施例提供了一种抗体改造模型训练方法、抗体改造方法、及其分别对应的装置、设备、计算机程序产品和存储介质。
[0007]本公开的实施例提供了一种抗体改造模型训练方法,包括:获取用于抗体改造模型训练的训练样本集,所述训练样本集中的训练样本包括训练动物抗体和训练人类抗体;基于所述训练样本集对语言模型进行自监督预训练,生成用于抗体改造的预训练语言模型,所述预训练语言模型具有与训练动物抗体与训练人类抗体之间的特征差异相关的知识;以及利用所述训练样本集中的每个训练动物抗体,针对与抗体改造相关的多个性能指标,对所述预训练语言模型进行优化,以生成经训练的抗体改造模型。
[0008]本公开的实施例提供了一种抗体改造方法,包括:获取待改造的动物抗体;以及通过预先训练的抗体改造模型,对所述动物抗体进行改造,以生成经改造的动物抗体;其中,所述抗体改造模型是通过如上所述的抗体改造模型训练方法而预先训练的。
[0009]本公开的实施例提供了一种抗体改造模型训练装置,包括:数据获取模块,被配置为获取用于抗体改造模型训练的训练样本集,所述训练样本集中的训练样本包括训练动物抗体和训练人类抗体;模型预训练模块,被配置为基于所述训练样本集对语言模型进行自监督预训练,生成用于抗体改造的预训练语言模型,所述预训练语言模型具有与训练动物
抗体与训练人类抗体之间的特征差异相关的知识;以及模型微调模块,被配置为利用所述训练样本集中的每个训练动物抗体,针对与抗体改造相关的多个性能指标,对所述预训练语言模型进行优化,以生成经训练的抗体改造模型。
[0010]本公开的实施例提供了一种抗体改造装置,包括:数据获取模块,被配置为获取待改造的动物抗体;抗体改造模块,被配置为通过预先训练的抗体改造模型,对所述动物抗体进行改造,以生成经改造的动物抗体;其中,所述抗体改造模型是通过如上所述的抗体改造模型训练方法而预先训练的。
[0011]本公开的实施例提供了一种电子设备,其分别包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的抗体改造模型训练方法或抗体改造方法。
[0012]本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的抗体改造模型训练方法和抗体改造方法。
[0013]本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的抗体改造模型训练方法和抗体改造方法。
[0014]本公开的实施例所提供的方法相比于传统的抗体人源化改造方法而言,能够在模型训练阶段就学习到动物抗体与人类抗体之间的数据分布差异,并且通过强化学习机制引入抗体人源化改造过程中的各种优化指标,使得模型可以进一步优化其抗体人源化的改造结果,提高抗体人源化改造的成功率。
[0015]本公开的实施例所提供的方法通过基于包括动物抗体和人类抗体数据的训练样本集对语言模型进行自监督预训练,使得所得到的预训练语言模型具有与训练动物抗体与训练人类抗体之间的特征差异相关的知识,并且通过利用与抗体改造相关的多个性能指标,对所述预训练语言模型进行进一步优化,以生成最终用于抗体改造的抗体改造模型。通过本公开的实施例的方法能够结合动物抗体和人类抗体数据,使得模型可以更好地处理以动物抗体为输入的人源化改造任务,同时通过强化学习机制引入抗体人源化改造过程中的各种优化指标,使得模型可以进一步优化其抗体人源化的改造结果,提高抗体人源化改造的成功率,从而为抗体药物研发提供技术支持。
附图说明
[0016]为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0017]图1是示出根据本公开的实施例的基于输入的动物抗体生成经改造的人源化抗体的场景示意图;
[0018]图2A是示出根据本公开的实施例的抗体改造模型训练方法的流程图;
[0019]图2B是示出根据本公开的实施例的抗体改造模型训练方法的示意图;
[0020]图3是示出根据本公开的实施例的第一训练阶段的处理的示意图;
[0021]图4是示出根据本公开的实施例的第二训练阶段的处理的示意图;
[0022]图5是示出根据本公开的实施例的抗体改造方法的流程图;
[0023]图6是示出根据本公开的实施例的抗体改造方法在抗体人源化改造实验中的结果图;
[0024]图7是示出根据本公开的实施例的抗体改造模型训练装置的示意图;
[0025]图8是示出根据本公开的实施例的抗体改造装置的示意图;
[0026]图9示出了根据本公开的实施例的电子设备的示意图;
[0027]图10示出了根据本公开的实施例的示例性计算设备的架构的示意图;以及
[0028]图11示出了根据本公开的实施例的存储介质的示意图。
具体实施方式
[0029]为了使得本公开的目的、技术方案和优点更为明显,下面将参考附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种抗体改造模型训练方法,包括:获取用于抗体改造模型训练的训练样本集,所述训练样本集中的训练样本包括训练动物抗体和训练人类抗体;基于所述训练样本集对语言模型进行自监督预训练,生成用于抗体改造的预训练语言模型,所述预训练语言模型具有与训练动物抗体与训练人类抗体之间的特征差异相关的知识;以及利用所述训练样本集中的每个训练动物抗体,针对与抗体改造相关的多个性能指标,对所述预训练语言模型进行优化,以生成经训练的抗体改造模型。2.如权利要求1所述的方法,其中,基于所述训练样本集对语言模型进行自监督预训练,生成用于抗体改造的预训练语言模型包括:基于所述训练样本集,针对用于学习训练动物抗体与训练人类抗体之间的特征差异的多项训练任务,对语言模型进行自监督预训练,生成用于抗体改造的预训练语言模型。3.如权利要求2所述的方法,其中,所述多项训练任务包括掩蔽语言预测任务、移植多肽恢复任务和物种预测任务中的一个或多个;其中,所述掩蔽语言预测任务用于学习训练动物抗体和训练人类抗体各自的特征,所述移植多肽恢复任务用于学习训练动物抗体的人源化改造过程中的特征变化,并且所述物种预测任务用于区分训练动物抗体和训练人类抗体各自的特征。4.如权利要求3所述的方法,其中,针对所述多项训练任务中的每项训练任务,基于所述训练样本集对语言模型进行自监督预训练包括:在所述掩蔽语言预测任务中,对于所述训练样本集中的每个训练样本,对所述训练样本中的部分氨基酸残基进行掩蔽,并利用语言模型对所述部分氨基酸残基进行预测,以生成对于所述部分氨基酸残基中的每一个的残基类型预测结果;在所述移植多肽恢复任务中,对于所述训练样本集中的每个训练人类抗体,将所述训练人类抗体中的氨基酸残基片段随机替换为来自任一训练动物抗体的氨基酸残基片段,并利用所述语言模型对所述训练人类抗体中的所述氨基酸残基片段进行预测,以生成对于所述训练人类抗体中的所述氨基酸残基片段中的每个氨基酸残基的残基类型预测结果;以及在所述物种预测任务中,对于所述训练样本集中的每个训练样本,利用所述语言模型对所述训练样本所属的物种进行预测,以生成对于所述训练样本的物种类型预测结果。5.如权利要求3所述的方法,其中,所述语言模型采用基于多头注意力机制的蛋白质语言模型架构,以训练样本的氨基酸残基序列为输入,并且以对所述氨基酸残基序列的分类预测结果和对所述氨基酸残基序列中的每个氨基酸残基的分类预测结果为输出。6.如权利要求3所述的方法,其中,基于所述训练样本集,针对用于学习训练动物抗体与训练人类抗体之间的特征差异的多项训练任务,对语言模型进行自监督预训练,生成用于抗体改造的预训练语言模型包括:针对所述多项训练任务中的每项训练任务,基于所述训练样本集对语言模型进行自监督预训练;以及通过对损失函数进行优化,生成用于抗体改造的预训练语言模型,其中,所述损失函数是基于所述训练样本集中的每个训练样本关于所述多项训练任务中的每项训练任务的任务结果来确定的。
7.如权利要求...

【专利技术属性】
技术研发人员:吴家祥
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1