【技术实现步骤摘要】
一种分子序列的生成方法、装置和计算设备
本专利技术涉及计算机
,尤其涉及一种分子序列的生成方法、装置和计算设备。
技术介绍
众所周知,药物研发是一个漫长的过程,存在着研发周期长,研发成果率低,研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展,人工智能正在各行各业中发挥巨大的应用价值,在制药行业也受到了广泛的关注。在药物的早期设计阶段,针对某个疾病相关的蛋白质靶点,寻找具有优良活性、成药属性及可合成的小分子是一个关键工作。而对于分子量在500Da以内的类药小分子,其种类估计达到10的30至60次方,远远超过现有实体或虚拟分子库能够储存和检索的数量。因此如何从可能探索的众多分子中,快速采样到具有某类特征的分子,从而帮助药物的早期设计,就成为了药物研发工作的重中之重。
技术实现思路
鉴于上述问题,本专利技术提出了一种分子序列的生成方法、装置和计算设备,以力图解决或者至少解决上面存在的问题。根据本专利技术的一个方面,提供了一种分子序列的生成方法,适于在计算设备中执行,包括:步骤1:构建用 ...
【技术保护点】
1.一种分子序列的生成方法,适于在计算设备中执行,包括:/n步骤1:构建用于生成局部序列的搜索树,初始的局部序列为位于根节点上的空字符,并将所述初始的局部序列设置为当前局部序列;/n步骤2:从当前局部序列延伸多个分支,采用当前存储的分子生成模型在每个分支上生成一个完整的分子序列,并计算每个分子序列的得分;/n步骤3:选取得分最高的分子序列,若该分子得分大于当前目标得分,则将该分子序列作为新目标分子,将该分子得分作为新目标得分;/n步骤4:确定当前局部序列在新目标分子中的下一字符,并在当前局部序列后添加该下一字符,以得到新局部序列;/n步骤5:将所述新局部序列设置为当前局部序 ...
【技术特征摘要】
1.一种分子序列的生成方法,适于在计算设备中执行,包括:
步骤1:构建用于生成局部序列的搜索树,初始的局部序列为位于根节点上的空字符,并将所述初始的局部序列设置为当前局部序列;
步骤2:从当前局部序列延伸多个分支,采用当前存储的分子生成模型在每个分支上生成一个完整的分子序列,并计算每个分子序列的得分;
步骤3:选取得分最高的分子序列,若该分子得分大于当前目标得分,则将该分子序列作为新目标分子,将该分子得分作为新目标得分;
步骤4:确定当前局部序列在新目标分子中的下一字符,并在当前局部序列后添加该下一字符,以得到新局部序列;
步骤5:将所述新局部序列设置为当前局部序列,并循环执行上述步骤2-步骤4,直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。
2.如权利要求1所述的方法,还包括:
步骤6:获取所述搜索树生成的多个目标分子,并从每个目标分子的起始字符开始提取多个局部序列,分别构成多个第一训练样本,对应的第一样本标签为该局部序列的下一字符;以及
步骤7:基于所述第一训练样本对所述当前存储的分子生成模型进行训练,并将所述当前存储的分子生成模型更新为训练后的分子生成模型。
3.如权利要求2所述的方法,其中,在步骤6之前,还包括步骤:
构建多棵具有不同抽样温度的搜索树,对每棵搜索树都执行步骤1-5,以分别得到每棵搜索树在对应抽样温度下的目标分子。
4.如权利要求1-3中任一项所述的方法,还包括:
步骤8:基于每次更新后的分子生成模型,循环执行步骤1-7来构建搜索树、生成目标分子、生成训练样本来训练模型,直至训练后的分子生成模型生成的分子序列得分达到终止条件为止。
5.如权利要求1-4中任一项所述的方法,其中,所述步骤3还包括:
若该分子得分小于等于当前目标分子,则保持原目标分子和原目标得分不变。
...
【专利技术属性】
技术研发人员:范方达,李远鹏,赖力鹏,温书豪,马健,
申请(专利权)人:北京晶派科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。