抗原特异性确定方法、装置、设备及存储介质制造方法及图纸

技术编号:39324186 阅读:21 留言:0更新日期:2023-11-12 16:03
本申请实施例提供一种抗原特异性确定方法、装置、设备及存储介质,至少应用于人工智能领域、医疗领域和适应性免疫受体,其中,方法包括:对细胞受体的双链生物信息进行词编码处理,得到氨基酸词序列;其中,所述氨基酸词序列中包括至少一个氨基酸词表示;采用预先训练的氨基酸序列预测模型,基于所述氨基酸词序列对所述细胞受体进行特征提取,得到所述细胞受体的氨基酸序列表示;其中,所述氨基酸序列预测模型是采用对样本数据中的部分样本氨基酸词表示进行遮挡处理后得到的数据进行训练后得到的;基于所述氨基酸序列表示,确定所述细胞受体的抗原特异性。通过本申请,能够对细胞受体进行准确的特征提取,从而准确的确定细胞受体的抗原特异性。体的抗原特异性。体的抗原特异性。

【技术实现步骤摘要】
抗原特异性确定方法、装置、设备及存储介质


[0001]本申请实施例涉及人工智能
,涉及但不限于一种抗原特异性确定方法、装置、设备及存储介质。

技术介绍

[0002]人体免疫系统由先天性免疫和适应性免疫构成。适应性免疫是一种经由与特定病原体(抗原)接触后,产生能识别并针对特定病原体启动的免疫反应。其中T细胞和B细胞是适应性免疫系统的重要组成部分。抗原识别是T细胞和B细胞介导的免疫力的关键因素之一。T细胞和B细胞主要分别由T细胞受体(TCR,T cell receptor)和B细胞受体(BCR,B cell receptor)与抗原进行相互作用。其中TCR识别和结合由细胞膜上组织相容性复合物(MHC,Major Histocompatibility Complex)呈递的抗原,而BCR直接结合特定抗原。TCR和BCR上的互补决定区(CDR,Complementarity Determining Regions)与抗原肽分子进行识别并特异性结合。研究表明,对BCR或TCR进行测序可用于诊断B或T淋巴细胞恶性肿瘤及分析治疗后效果。因此,预测TCR本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种抗原特异性确定方法,其特征在于,所述方法包括:对细胞受体的双链生物信息进行词编码处理,得到氨基酸词序列;其中,所述氨基酸词序列中包括至少一个氨基酸词表示;采用预先训练的氨基酸序列预测模型,基于所述氨基酸词序列对所述细胞受体进行特征提取,得到所述细胞受体的氨基酸序列表示;其中,所述氨基酸序列预测模型是采用对样本数据中的部分样本氨基酸词表示进行遮挡处理后得到的数据进行训练后得到的;基于所述氨基酸序列表示,确定所述细胞受体的抗原特异性。2.根据权利要求1所述的方法,其特征在于,所述对细胞受体的双链生物信息进行词编码处理,得到氨基酸词序列,包括:获取所述细胞受体的两条肽链,并基于所述两条肽链确定所述细胞受体的双链生物信息;确定所述词编码处理对应的单体单元数量;将所述细胞受体的双链生物信息中每单体单元数量的连续的氨基酸编码成一个氨基酸词表示,形成所述氨基酸词序列;其中,每两个相邻的氨基酸词表示之间具有预设数量的重叠氨基酸,所述预设数量比所述单体单元数量小1。3.根据权利要求2所述的方法,其特征在于,所述细胞受体包括T细胞受体或B细胞受体;当所述细胞受体为T细胞受体时,所述两条肽链包括α链和β链;当所述细胞受体为B细胞受体时,所述两条肽链包括重链和轻链;所述单体单元数量的取值为3。4.根据权利要求2所述的方法,其特征在于,所述双链生物信息包括所述两条肽链中的每条肽链对应的氨基酸信息;所述将所述细胞受体的双链生物信息中每单体单元数量的连续的氨基酸编码成一个氨基酸词表示,形成所述氨基酸词序列,包括:将每条肽链中每单体单元数量的连续的氨基酸,编码成一个氨基酸词表示,对应形成每条肽链对应的氨基酸子序列;根据两条肽链对应的氨基酸子序列,确定所述氨基酸词序列。5.根据权利要求4所述的方法,其特征在于,所述根据两条肽链对应的氨基酸子序列,确定所述氨基酸词序列,包括:对两条肽链对应的氨基酸子序列进行拼接处理,得到拼接词序列;对所述拼接词序列依次进行标记处理、分段处理和位置编码处理,得到所述氨基酸词序列。6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述氨基酸词序列对所述细胞受体进行特征提取,得到所述细胞受体的氨基酸序列表示,包括:通过预先训练的氨基酸序列预测模型,基于所述氨基酸词序列对所述细胞受体进行特征提取,得到所述细胞受体的氨基酸序列表示。7.根据权利要求6所述的方法,其特征在于,所述氨基酸序列预测模型通过以下方式进行训练:对获取的预训练数据进行数据预处理,得到样本数据;其中,所述样本数据包括样本细胞受体的样本双链生物信息;
将所述样本双链生物信息输入至所述氨基酸序列预测模型中;通过所述氨基酸序列预测模型的词编码处理层,对所述样本双链生物信息进行词编码处理,得到样本氨基酸词序列;其中,所述样本氨基酸词序列中包括至少一个样本氨基酸词表示;通过所述氨基酸序列预测模型的遮挡处理层,对所述样本氨基酸词序列中的至少一个样本氨基酸词表示进行遮挡处理,得到遮挡后的样本氨基酸词序列;通过所述氨基酸序列预测模型的预测处理层,基于所述遮挡后的样本氨基酸词序列对所述样本细胞受体进行氨基酸序列预测,以确定所述遮挡处理时所遮挡的样本氨基酸词表示,得到所述样本细胞受体的样本氨基酸序列表示;将所述样本氨基酸序列表示输入至预设损失模型中,得到损失结果;基于所述损失结果,对所述词编码处理层、所述遮挡处理层和所述预测处理层中的模型参数进行修正,得到训练后的氨基酸序列预测模型。8.根据权利要求7所述的方法,其特征在于,确定所述细胞受体的抗原特异性是由多层感知器来实现的;所述方法还包括:获取微调样本数据,所述微调样本数...

【专利技术属性】
技术研发人员:赵宇苏小娜姚建华何冰许志梦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1