【技术实现步骤摘要】
用于生成蛋白质的氨基酸序列的方法和系统
[0001]本申请是申请日为2020年5月19日,申请号为202080045620.0,专利技术名称为“使用机器学习技术生成蛋白质序列”的专利技术专利申请的分案申请。
[0002]本公开内容涉及用于生成蛋白质的氨基酸序列的方法和系统。
技术介绍
[0003]蛋白质是由一条或更多条氨基酸链构成的生物分子。蛋白质可以在生物体内具有各种功能。例如,一些蛋白质可以参与引起在生物体内发生的反应。在其他示例中,蛋白质可以在整个生物体中转运分子。在其他示例中,蛋白质可以参与基因的复制。另外,一些蛋白质可以具有治疗特性并用于治疗各种生物学病症。蛋白质的结构和功能基于构成蛋白质的氨基酸的排列。针对蛋白质的氨基酸的排列可以用字母序列表示,其中,每个字母与某一位置处的氨基酸相对应。针对蛋白质的氨基酸的排列也可以由三维结构表示,三维结构不仅指示蛋白质的某些位置处的氨基酸,还指示蛋白质的三维特征,例如α
‑
螺旋或β
‑
折叠。
附图说明
[0004]本公 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种方法,包括:通过计算系统获得包括蛋白质的氨基酸序列的训练数据集,所述计算系统包括一个或更多个计算装置,所述计算装置具有一个或更多个处理器和存储器;通过所述计算系统,基于所述训练数据集来生成结构化氨基酸序列;通过所述计算系统,使用所述结构化氨基酸序列和生成式对抗网络来生成用于产生与包括在所述训练数据集中的氨基酸序列相对应的附加氨基酸序列的模型;通过所述计算系统,使用所述模型和输入向量来生成所述附加氨基酸序列;以及通过所述计算系统,根据一个或更多个标准来评估所述附加氨基酸序列,以确定用于所述附加氨基酸序列的度量。2.根据权利要求1所述的方法,包括:通过所述计算系统,确定包括在所述附加氨基酸序列中的氨基酸序列相对于源自种系基因的蛋白质的多个变体。3.根据权利要求1或2所述的方法,包括:通过所述计算系统,确定与种系基因的表达相关产生的抗体的氨基酸序列与各个附加氨基酸序列之间的相似性的量;通过所述计算系统,确定所述各个附加氨基酸序列的相应的互补决定区CDR H3区域的长度;以及通过所述计算系统,基于相应的相似性的量以及所述附加氨基酸序列的CDR H3区域的相应长度来评估所述附加氨基酸序列。4.根据权利要求3所述的方法,包括:通过所述计算系统,基于所述附加氨基酸序列的免疫原性的测量来评估所述附加氨基酸序列。5.根据权利要求4所述的方法,其中,所述免疫原性的测量与主要组织相容性复合体(MHC)II类结合的测量相对应。6.根据权利要求1或2所述的方法,其中,以矩阵表示所述结构化氨基酸序列,所述矩阵包括第一数量的行和第二数量的列,所述第一数量的行中的各个行与序列的位置相对应,并且所述第二数量的列中的各个列与各个氨基酸相对应。7.根据权利要求1或2所述的方法,其中,与所述附加氨基酸序列相对应的蛋白质的一个或更多个特征与包括在所述训练数据集中的蛋白质的一个或更多个特征具有至少阈值相似性。8.根据权利要求7所述的方法,其中,所述一个或更多个特征包括结构位置特征、三级结构特征或生物物理特性中的至少一者。9.根据权利要求1或2所述的方法,其中,蛋白质包括抗体、affibodies、affilins,affimers、affitins、alphabodies、anticalins、avimers、monobodies、设计的锚蛋白重复蛋白(DARPins)、nanoCLAMP(梭菌抗体模拟蛋白)、抗体片段或其组合。10.根据权利要求1或2所述的方法,其中,所述训练数据集包括第一数据和第二数据,所述第一数据指示第一抗原的第一氨基酸序列,所述第二数据指示第一多个抗体的各个抗体与一个或更多个抗原之间的结合相互作用。11.根据权利要求10所述的方法,包括:通过所述计算系统,确定所述一个或更多个抗原中的第二抗原的第二氨基酸序列,所述第二抗原的第二氨基酸序列相对于所述第一抗原的第一氨基酸序列的至少一部分具有
技术研发人员:蒂莱利,
申请(专利权)人:贾斯特埃沃泰克生物制品有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。