一种抗体库的构建方法及装置制造方法及图纸

技术编号:25047671 阅读:24 留言:0更新日期:2020-07-29 05:36
本发明专利技术涉及一种抗体库的构建方法及装置,包括以下步骤:对次级抗体库中的抗体序列进行预处理,以得到字符级抗体序列集合;利用训练好的双向生成对抗网络生成器模型对所述字符级抗体序列集合进行处理获得高活性抗体序列,以建立高级抗体库。其优点在于,通过使用训练好的双向生成对抗网络生成器模型对次级抗体库的活性抗体序列进行非理性定向进化,从而得到高活性抗体序列,并建立高级抗体库,以用于后续高亲和力抗体的筛选;方法简便,耗时短,提高进化效率和筛选效率。

【技术实现步骤摘要】
一种抗体库的构建方法及装置
本专利技术涉及人工智能
,尤其涉及一种抗体库的构建方法及装置。
技术介绍
人工智能是计算机学科的一个分支,兴起于上世纪五十年代中期,首次提出了“人工智能”这个术语,然而,当时研究人工智能的起点较低,他们的目标只是实现简单的模仿人类行为的机器人。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。现阶段的人工智能处于高速发展时期,人工智能产业链则涵盖了基础层、技术层、应用层、业务层等多个方面,目前人工智能在语音识别、自然语言处理、计算机视觉、机器人等人工智能
取得不俗成就,这是以往人工智能发展所不能达到的一种繁荣景象。随着人工智能的深入发展,医药研发也迎来了人工智能的时代。生成式对抗网络(GenerativeAdversarialNetworks,GAN)是Goodfellow等在2014年提出的一种生成式模型,目前已经成为人工智能学界一个热门的研究方向,著名学者YannLecun甚至将其称为“过去十年间机器学习领域最让人激动的点子”。GAN的基本思想源自博弈论的二人零和博弈,由一个生成器和一个判别器构成,通过对抗学习的方式来训练,目的是估测数据样本的潜在分布并生成新的数据样本。在图像和视觉计算、语音和语言处理、信息安全、棋类比赛等领域,GAN正在被广泛研究,具有巨大的应用前景。GAN在结构上受博弈论中的二人零和博弈(即二人的利益之和为零,一方的所得正是另一方的所失)的启发,它设定参与游戏双方分别为一个生成器(Generator,G)和一个判别器(Discriminator,D),生成器的目的是尽量去学习和捕捉真实数据样本的潜在分布,并生成新的数据样本;判别器是一个二分类器,目的是尽量正确判别输入数据是来自真实数据还是来自生成器,为了取得游戏胜利,这两个游戏参与者需要不断优化,各自提高自己的生成能力和判别能力,这个学习优化过程就是一个极小极大博弈(Minimaxgame)问题,目的是寻找二者之间的一个纳什均衡,使生成器估测到数据样本的分布。GAN是一种以半监督方式训练分类器的方法,可以帮助解决带标签训练集样本少的问题,模型训练时不需要对隐变量做推断,生成器的参数更新不是直接来自数据样本,而是来自判别器的反向传播。理论上,只要是可微分函数都可以用于构建判别器和生成器(虽然在实践中,很难使用增强学习去训练有离散输出的生成器),从而能够与深度神经网络结合做深度生成式模型。作为一个具有“无限"生成能力的模型,GAN的直接应用就是建模,生成与真实数据分布一致的数据样本。定向进化是指在体外进行的“分子进化”,也即人为的创造特殊的进化条件模拟和加速生物分子向特定目标进化的过程。定向进化的对象一般是蛋白质、多肽、核酸或者其他的生物大分子。蛋白质体外定向进化的一般步骤都是对编码蛋白质的基因进行随机突变,以产生大量的突变,构建基因突变文库,然后根据所要获得的特定功能指标对这些蛋白质的变种进行筛选,从而得到具有某些预期特性的进化变种。基于生物学突变的定向进化的方法繁琐,工作量大且耗时长。
技术实现思路
本专利技术解决的问题是现有的基于生物学突变的定向进化方法,不仅繁琐,且工作量大、耗时长的技术问题。本专利技术的第一个方面是,提供一种抗体库的构建方法,包括以下步骤:对次级抗体库中的抗体序列进行预处理,以得到字符级抗体序列集合;利用训练好的双向生成对抗网络生成器模型对所述字符级抗体序列集合进行处理获得高活性抗体序列,以建立高级抗体库。优选地,所述训练好的双向生成对抗网络生成器模型通过如下方法训练完成:将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数,以得到氨基酸序列向量;基于抗体类别对所述训练抗体序列进行分组,以得到对应不同分组的各个氨基酸序列向量,形成字符级抗体序列集合;从所述字符级抗体序列集合中随机选取所述氨基酸序列向量作为迭代数据;将选取的各个所述氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量,以得到抗体序列矩阵;将所述抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数,直至损失值迭代趋于稳定时停止训练,得到所述训练好的双向生成对抗网络生成器模型。优选地,所述双向生成对抗网络生成器模型包括:生成器、编码器和判别器;所述将所述抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数,直至损失值迭代趋于稳定时停止训练,得到所述训练好的双向生成对抗网络生成器模型包括:将所述抗体序列矩阵输入至所述编码器,以得到抗体序列高维向量;将随机编码向量输入至所述生成器,以得到抗体序列低维向量;将所述抗体序列高维向量和所述抗体序列低维向量输入至所述判别器,以得到判别结果;根据所述判别结果计算损失值,直至所述损失值迭代趋于稳定时停止训练,以得到所述训练好的双向生成对抗网络生成器模型。优选地,训练所述双向生成对抗网络生成器模型还包括:使用Adam梯度下降算法对所述双向生成对抗网络生成器模型进行训练。优选地,所述对次级抗体库中的抗体序列进行预处理,以得到字符级抗体序列集合包括:分别将所述抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数,以得到氨基酸序列向量;基于抗体类别对所述抗体序列进行分组,以得到对应不同分组的各个氨基酸序列向量,形成字符级抗体序列集合。优选地,所述次级抗体库通过如下方法构建:对初级抗体库的抗体序列进行筛选得到高活性抗体序列,以建立次级抗体库。优选地,通过人工智能深度学习和迁移学习对所述初级抗体库的抗体序列进行筛选得到活性抗体序列。本专利技术的第二个方面是,提供一种抗体库的构建装置,包括:预处理模块,用于对次级抗体库的抗体序列进行预处理,以得到字符级抗体序列集合;双向生成对抗网络生成器模型处理模块,用于利用训练好的双向生成对抗网络生成器模型对所述字符级抗体序列集合进行处理,以得到高活性抗体序列;高级抗体库建立模块,用于利用所述双向生成对抗网络生成器模型处理得到的所述高活性抗体序列,以建立高级抗体库。优选地,所述双向生成对抗网络生成器模型处理模块包括:模型训练子模块,用于对所述双向生成对抗网络生成器模型进行训练;其中,所述模型训练子模块包括:训练编码处理单元,用于将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数,以得到氨基酸序列向量;训练分组处理单元,用于基于抗体类别对所述训练抗体序列进行分组,以得到对应不同分组的各个氨基酸序列向量,形成字符级抗体序列集合;迭代数据选取单元,用于从所述字符级抗体序列向量集合中随机选取不同分组的氨基酸序列向量作为迭代数据本文档来自技高网
...

【技术保护点】
1.一种抗体库的构建方法,其特征在于,包括以下步骤:/n对次级抗体库中的抗体序列进行预处理,以得到字符级抗体序列集合;/n利用训练好的双向生成对抗网络生成器模型对所述字符级抗体序列集合进行处理获得高活性抗体序列,以建立高级抗体库。/n

【技术特征摘要】
1.一种抗体库的构建方法,其特征在于,包括以下步骤:
对次级抗体库中的抗体序列进行预处理,以得到字符级抗体序列集合;
利用训练好的双向生成对抗网络生成器模型对所述字符级抗体序列集合进行处理获得高活性抗体序列,以建立高级抗体库。


2.根据权利要求1所述的抗体库的构建方法,其特征在于,所述训练好的双向生成对抗网络生成器模型通过如下方法训练完成:
将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数,以得到氨基酸序列向量;
基于抗体类别对所述训练抗体序列进行分组,以得到对应不同分组的各个氨基酸序列向量,形成字符级抗体序列集合;
从所述字符级抗体序列集合中随机选取所述氨基酸序列向量作为迭代数据;
将选取的各个所述氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量,以得到抗体序列矩阵;
将所述抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数,直至损失值迭代趋于稳定时停止训练,得到所述训练好的双向生成对抗网络生成器模型。


3.根据权利要求2所述的抗体库的构建方法,其特征在于,所述双向生成对抗网络生成器模型包括:生成器、编码器和判别器;
所述将所述抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数,直至损失值迭代趋于稳定时停止训练,得到所述训练好的双向生成对抗网络生成器模型包括:
将所述抗体序列矩阵输入至所述编码器,以得到抗体序列高维向量;
将随机编码向量输入至所述生成器,以得到抗体序列低维向量;
将所述抗体序列高维向量和所述抗体序列低维向量输入至所述判别器,以得到判别结果;
根据所述判别结果计算损失值,直至所述损失值迭代趋于稳定时停止训练,以得到所述训练好的双向生成对抗网络生成器模型。


4.根据权利要求2所述的抗体库的构建方法,其特征在于,训练所述双向生成对抗网络生成器模型还包括:
使用Adam梯度下降算法对所述双向生成对抗网络生成器模型进行训练。


5.根据权利要求1所述的抗体库的构建方法,其特征在于,所述对次级抗体库中的抗体序列进行预处理,以得到字符级抗体序列集合包括:
分别将所述抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数,以得到氨基酸序列向量;
基于抗体类别对所述抗体序列进行分组,以得到对应不同分组的各个氨基酸序列向量,形成字符级抗体序列集合。


6.根据权利要求1所述的抗体库的构建方法,其特征在于,所述次级抗体库通过如下方法构建:
对初级抗体库的抗体序列进行筛选得到活性抗体序列,以建立次级抗体库。


7.根据权利要求6所述的抗体库的构建方法,其特征在于,通过人工智能深度学习和迁移学习对所述初级抗体库的抗体序列进行筛选得到活性抗体序列。


8.一种抗体库的构建装置,其特征在于,包括:
预处理模块,用于对次级抗体库的抗体序列进行预处理,以得到字符级抗体序列集合;
双向生成对抗网...

【专利技术属性】
技术研发人员:赵文祥刘明耀魏海涛褚敏晁瑞华李亚男
申请(专利权)人:上海祥耀生物科技有限责任公司浙江祥耀生物医药有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1