序列生成模型的训练方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:40035730 阅读:18 留言:0更新日期:2024-01-16 18:56
本申请公开了一种序列生成模型的训练方法、装置、设备、存储介质及产品,涉及生物技术领域。该方法包括:获取蛋白质样本数据,蛋白质样本数据中包括至少一条第一氨基酸链,至少一条第一氨基酸链对应有参考氨基酸链,至少一条第一氨基酸链与参考氨基酸链之间形成推理关系;将所述至少一条第一氨基酸链输入所述序列生成模型,所述序列生成模型用于基于所述第一氨基酸链对至少一条第二氨基酸链进行生成预测;基于所述序列生成模型输出的所述至少一条第二氨基酸链和参考氨基酸链对所述序列生成模型进行训练,以及,基于所述至少一条第一氨基酸链和所述至少一条第二氨基酸链之间推理关系对所述序列生成模型进行训练,提高序列生成效率。

【技术实现步骤摘要】

本申请涉及生物,特别涉及一种序列生成模型的训练方法、装置、设备、存储介质及产品


技术介绍

1、在胸腺依赖性淋巴细胞受体(t-cell receptor,tcr)存在互补决定区(complementary determining region,cdr),cdr区域包含cdr1、cdr2、cdr3,其中,cdr3直接参与抗原特异性识别,对肿瘤免疫研究具有重要意义。而tcr中有三条重要的链分别为靶序列(epitope链)、轻链(α链)和重链(β链),其中,轻链和重链位于cdr3中。

2、相关技术中,通过tcr序列专有生成模型,基于输入的tcr序列生成指定类别的tcr序列,例如,基于靶序列生成重链,在该模型预训练结束后,将生成结果投入临床试验测试生成结果的亲和力,基于临床试验结果重新训练调整该模型。

3、然而,上述方法需要在训练结束后依赖临床试验结果重新调整模型,该模型本身对tcr序列的生成质量较差,生成结果亲和力较弱,有效tcr序列的生成效率较低。


技术实现思路

1、本申请实施例提供了一种本文档来自技高网...

【技术保护点】

1.一种序列生成模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一条第一氨基酸链和所述至少一条第二氨基酸链之间推理关系对所述序列生成模型进行训练,包括:

3.根据权利要求2所述的方法,其特征在于,所述蛋白质样本数据是胸腺依赖性淋巴细胞受体TCR样本数据,所述TCR样本数据中包括靶序列、轻链和重链中的至少一种,所述第一氨基酸链和所述第二氨基酸链是TCR序列;

4.根据权利要求2所述的方法,其特征在于,所述基于所述推理关系构建数据增强任务,包括:

5.根据权利要求4所述的方法,其特征在于,所...

【技术特征摘要】

1.一种序列生成模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一条第一氨基酸链和所述至少一条第二氨基酸链之间推理关系对所述序列生成模型进行训练,包括:

3.根据权利要求2所述的方法,其特征在于,所述蛋白质样本数据是胸腺依赖性淋巴细胞受体tcr样本数据,所述tcr样本数据中包括靶序列、轻链和重链中的至少一种,所述第一氨基酸链和所述第二氨基酸链是tcr序列;

4.根据权利要求2所述的方法,其特征在于,所述基于所述推理关系构建数据增强任务,包括:

5.根据权利要求4所述的方法,其特征在于,所述蛋白质样本数据是胸腺依赖性淋巴细胞受体tcr样本数据,所述tcr样本数据中包括靶序列、轻链和重链中的至少一种;所述配对关系中包括所述靶序列与所述轻链之间的第一配对关系,以及所述靶序列与所述重链之间的第二配对关系;

6.根据权利要求2所述的方法,其特征在于,所述基于所述循环提示学习任务训练所述序列生成模型,包括:

7.根据权利要求2所述的方法,其特征在于,所述基于所述数据增强任务训练所述序列生成模型,包括:

8.根据权利要求1至7任一所述的方法,其特征在于,所述基于所述序列生成模型输出的所述至少一条第二氨基酸链和所述参考氨基酸链对所述序列生成模型进行训练包括:

9.根据权利要求1至7任一所述的方法,其特征在于,第一训练包括基于所述序列生成模型输出的...

【专利技术属性】
技术研发人员:秦陈陈何冰姚建华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1