抗体序列生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39247843 阅读:9 留言:0更新日期:2023-10-30 12:00
本申请实施例公开了一种抗体序列生成方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取抗原序列信息,抗原序列信息表示抗原序列中的氨基酸;对抗原序列信息进行特征提取,得到抗原序列信息的抗原序列特征;对抗原序列特征进行特征解码,得到每个位置的预测概率,预测概率包括位置上的氨基酸属于多种氨基酸中每种氨基酸的预测概率;将每个位置上预测概率最大的氨基酸构成的序列信息,确定为抗体序列信息,抗体序列信息指示的抗体序列能够与抗原序列结合。本申请针对特定抗原序列生成了能够与之结合的抗体序列,提高了生成抗体序列的针对性。了生成抗体序列的针对性。了生成抗体序列的针对性。

【技术实现步骤摘要】
抗体序列生成方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及计算机
,特别涉及一种抗体序列生成方法、装置、计算机设备及存储介质。

技术介绍

[0002]抗原序列是免疫系统需要清除的物质,抗原序列能诱导机体发生免疫应答,并与免疫应答产生的抗体序列进行结合,发生免疫防御,对维护人体健康发挥重要作用。抗体序列除了由动物或人体制备之外,还可以通过人工生成抗体序列的方式来实现抗体疫苗等药物的研发。
[0003]相关技术中,在需要研发新抗体序列时,通常在天然存在的抗体序列的基础上,进行改进和优化,然后筛选出与抗原序列的亲和力较高的抗体序列。但是,该方法难以针对特定抗原序列生成能够与之结合的抗体序列,因此亟需一种针对特定抗原序列生成抗体序列的方法。

技术实现思路

[0004]本申请实施例提供了一种抗体序列生成方法、装置、计算机设备及存储介质,针对特定抗原序列生成了能够与之结合的抗体序列,提高了生成抗体序列的针对性。所述技术方案如下:
[0005]一方面,提供了一种抗体序列生成方法,所述方法包括:
[0006]获取抗原序列信息,所述抗原序列信息表示抗原序列中的氨基酸;
[0007]对所述抗原序列信息进行特征提取,得到所述抗原序列信息的抗原序列特征;
[0008]对所述抗原序列特征进行特征解码,得到每个位置的预测概率,所述预测概率包括所述位置上的氨基酸属于多种氨基酸中每种氨基酸的预测概率;
[0009]将每个位置上所述预测概率最大的氨基酸构成的序列信息,确定为抗体序列信息,所述抗体序列信息指示的抗体序列能够与所述抗原序列结合。
[0010]另一方面,提供了一种抗体序列生成装置,所述装置包括:
[0011]信息获取模块,用于获取抗原序列信息,所述抗原序列信息表示抗原序列中的氨基酸;
[0012]特征提取模块,用于对所述抗原序列信息进行特征提取,得到所述抗原序列信息的抗原序列特征;
[0013]特征解码模块,用于对所述抗原序列特征进行特征解码,得到每个位置的预测概率,所述预测概率包括所述位置上的氨基酸属于多种氨基酸中每种氨基酸的预测概率;
[0014]信息确定模块,用于将每个位置上所述预测概率最大的氨基酸构成的序列信息,确定为抗体序列信息,所述抗体序列信息指示的抗体序列能够与所述抗原序列结合。
[0015]可选地,所述预测概率是通过抗体生成模型得到的,所述抗体生成模型包括编码子模型和解码子模型;
[0016]所述特征提取模块,用于通过所述编码子模型,对所述抗原序列信息进行特征提取,得到所述抗原序列信息的抗原序列特征;
[0017]所述特征解码模块,用于通过所述解码子模型,对所述抗原序列特征进行特征解码,得到每个位置的预测概率。
[0018]可选地,所述抗原序列特征包括目标抗原键特征和目标抗原值特征,所述编码子模型包括m个编码网络,m为正整数;所述特征提取模块,用于:
[0019]通过所述编码子模型中的第一个编码网络,对所述抗原序列信息进行特征提取,得到第一个候选抗原键特征、第一个候选抗原值特征和第一个候选抗原查询特征,将第一个候选抗原键特征、第一个候选抗原值特征和第一个候选抗原查询特征进行融合,得到第一个抗原融合特征;
[0020]通过所述编码子模型中的第n+1个编码网络,对第n个抗原融合特征进行特征提取,得到第n+1个候选抗原键特征、第n+1个候选抗原值特征和第n+1个候选抗原查询特征,n为小于m的正整数;
[0021]将第m个候选抗原键特征和第m个候选抗原值特征确定为所述目标抗原键特征和目标抗原值特征。
[0022]可选地,所述通过所述解码子模型,对所述特征解码模块,用于:
[0023]通过所述解码子模型,对所述目标抗原键特征、所述目标抗原值特征和每个位置的参考氨基酸特征进行特征解码,得到每个位置的预测概率,所述参考氨基酸特征是指位于所述位置之前的氨基酸的特征。
[0024]可选地,所述特征解码模块,用于:
[0025]将预设氨基酸特征确定为第一个位置的参考氨基酸特征;
[0026]通过所述解码子模型,对所述目标抗原键特征、所述目标抗原值特征和所述第一个位置的参考氨基酸特征进行特征解码,得到第一个位置上的预测概率。
[0027]可选地,所述特征解码模块,用于:
[0028]将前i个位置上预测概率最大的氨基酸的氨基酸特征,确定为第i+1个位置的参考氨基酸特征,通过所述解码子模型,对所述目标抗原键特征、所述目标抗原值特征和所述第i+1个位置的参考氨基酸特征进行特征解码,得到第i+1个位置上的预测概率,i为正整数。
[0029]可选地,所述解码子模型包括h个解码网络和输出网络,h为正整数,所述特征解码模块,用于:
[0030]对于每个位置,通过所述解码子模型中的第一个解码网络,对所述目标抗原键特征、所述目标抗原值特征和所述位置的参考氨基酸特征进行特征解码,得到第一个抗体序列特征;
[0031]通过所述解码子模型中的第k个解码网络,对所述目标抗原键特征、所述目标抗原值特征和第k

1个抗体序列特征进行特征解码,得到第k个抗体序列特征,k为大于1且不大于h的正整数;
[0032]通过所述解码子模型中的输出网络,对第h个抗体序列特征进行归一化,得到所述位置的预测概率。
[0033]可选地,所述解码网络包括自注意力层和交叉注意力层,所述特征解码模块,用于:
[0034]通过所述自注意力层,对所述位置的参考氨基酸特征进行特征解码,得到抗体查询特征;
[0035]通过所述交叉注意力层,对所述目标抗原键特征、所述目标抗原值特征和所述抗体查询特征进行融合,得到第一个抗体序列特征。
[0036]可选地,所述装置还包括第一训练模块,用于:
[0037]获取样本抗原序列信息和样本抗体序列中每个位置上的真实概率,所述样本抗原序列信息表示样本抗原序列中的氨基酸,所述真实概率包括所述位置上的氨基酸属于多种氨基酸中每种氨基酸的真实概率,所述样本抗体序列能够与所述样本抗原序列结合;
[0038]通过所述抗体生成模型中的编码子模型,对所述样本抗原序列信息进行特征提取,得到样本抗原序列特征;
[0039]通过所述抗体生成模型中的解码子模型,对所述样本抗原序列特征进行特征解码,得到每个位置的样本预测概率,所述样本预测概率包括所述位置上的氨基酸属于多种氨基酸中每种氨基酸的预测概率;
[0040]基于每个位置上的样本预测概率与真实概率,训练所述抗体生成模型。
[0041]可选地,所述解码子模型为训练后的子模型,所述装置还包括第二训练模块,用于:
[0042]获取第一抗体序列信息,将所述第一抗体序列信息中部分位置上的氨基酸信息进行掩码,得到第二抗体序列信息;
[0043]通过所述解码子模型,对所述第二抗体序列信息中被掩码的位置上的氨基酸信息进行预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种抗体序列生成方法,其特征在于,所述方法包括:获取抗原序列信息,所述抗原序列信息表示抗原序列中的氨基酸;对所述抗原序列信息进行特征提取,得到所述抗原序列信息的抗原序列特征;对所述抗原序列特征进行特征解码,得到每个位置的预测概率,所述预测概率包括所述位置上的氨基酸属于多种氨基酸中每种氨基酸的预测概率;将每个位置上所述预测概率最大的氨基酸构成的序列信息,确定为抗体序列信息,所述抗体序列信息指示的抗体序列能够与所述抗原序列结合。2.根据权利要求1所述的方法,其特征在于,所述预测概率是通过抗体生成模型得到的,所述抗体生成模型包括编码子模型和解码子模型;所述对所述抗原序列信息进行特征提取,得到所述抗原序列信息的抗原序列特征,包括:通过所述编码子模型,对所述抗原序列信息进行特征提取,得到所述抗原序列信息的抗原序列特征;所述对所述抗原序列特征进行特征解码,得到每个位置的预测概率,包括:通过所述解码子模型,对所述抗原序列特征进行特征解码,得到每个位置的预测概率。3.根据权利要求2所述的方法,其特征在于,所述抗原序列特征包括目标抗原键特征和目标抗原值特征,所述编码子模型包括m个编码网络,m为正整数;所述通过所述编码子模型,对所述抗原序列信息进行特征提取,得到所述抗原序列信息的抗原序列特征,包括:通过所述编码子模型中的第一个编码网络,对所述抗原序列信息进行特征提取,得到第一个候选抗原键特征、第一个候选抗原值特征和第一个候选抗原查询特征,将第一个候选抗原键特征、第一个候选抗原值特征和第一个候选抗原查询特征进行融合,得到第一个抗原融合特征;通过所述编码子模型中的第n+1个编码网络,对第n个抗原融合特征进行特征提取,得到第n+1个候选抗原键特征、第n+1个候选抗原值特征和第n+1个候选抗原查询特征,n为小于m的正整数;将第m个候选抗原键特征和第m个候选抗原值特征确定为所述目标抗原键特征和目标抗原值特征。4.根据权利要求3所述的方法,其特征在于,所述通过所述解码子模型,对所述抗原序列特征进行特征解码,得到每个位置的预测概率,包括:通过所述解码子模型,对所述目标抗原键特征、所述目标抗原值特征和每个位置的参考氨基酸特征进行特征解码,得到每个位置的预测概率,所述参考氨基酸特征是指位于所述位置之前的氨基酸的特征。5.根据权利要求4所述的方法,其特征在于,所述通过所述解码子模型,对所述目标抗原键特征、所述目标抗原值特征和每个位置的参考氨基酸特征进行特征解码,得到每个位置的预测概率,包括:将预设氨基酸特征确定为第一个位置的参考氨基酸特征;通过所述解码子模型,对所述目标抗原键特征、所述目标抗原值特征和所述第一个位置的参考氨基酸特征进行特征解码,得到第一个位置上的预测概率。6.根据权利要求5所述的方法,其特征在于,所述通过所述解码子模型,对所述目标抗
原键特征、所述目标抗原值特征和每个位置的参考氨基酸特征进行特征解码,得到每个位置的预测概率,还包括:将前i个位置上预测概率最大的氨基酸的氨基酸特征,确定为第i+1个位置的参考氨基酸特征,通过所述解码子模型,对所述目标抗原键特征、所述目标抗原值特征和所述第i+1个位置的参考氨基酸特征进行特征解码,得到第i+1个位置上的预测概率,i为正整数。7.根据权利要求4所述的方法,其特征在于,所述解码子模型包括h个解码网络和输出网络,h为正整数,所述通过所述解码子模型,对所述目标抗原键特征、所述目标抗原值特征和每个位置的参考氨基酸特征进行特征解码,得到每个位置的预测概率,包括:对于每个位置,通过所述解码子模型中的第一个解码网络,对所述目标抗原键特征、所述目标抗原值特征和所述位置的参考氨基酸特征进行特征解码,得到第一个抗体序列特征;通过所述解码子模型中的第k个解码网络,对所述目标抗原键特征、所述目标抗原值特征和第k

1个抗体序列特征进行特征解码,得到第k个抗体序列特征,k为大于1且不大于h的正整数;通过所述解码子模型中的输出网络,对第h个抗体序...

【专利技术属性】
技术研发人员:何冰何昊淮姚建华赵宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1