一种小分子活性预测方法、装置和计算设备制造方法及图纸

技术编号:24999428 阅读:25 留言:0更新日期:2020-07-24 18:01
本发明专利技术公开了一种小分子活性预测方法,适于在计算设备中执行,该计算设备中存储有训练好的小分子活性预测模型,该模型能够预测小分子和蛋白质的结合活性,该方法包括步骤:接收用户输入的蛋白质和小分子序列,并生成该蛋白质和小分子的晶体构象数据;从该晶体构象数据中提取多个子图,生成每个子图的距离矩阵,并提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量;以及将该特征向量输入到所述训练好的小分子活性预测模型中,得到预测的该小分子活性值。本发明专利技术还一并公开了该小分子活性预测模型的训练方法、以及小分子活性预测装置、小分子活性预测模型的训练装置和用于执行该方法的计算设备。

【技术实现步骤摘要】
一种小分子活性预测方法、装置和计算设备
本专利技术涉及药物虚拟筛选领域,尤其涉及一种小分子活性的预测方法、装置和计算设备。
技术介绍
众所周知,药物研发是一个漫长的过程,存在着研发周期长,研发成果率低,研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展,人工智能正在各行各业中发挥巨大的应用价值,在制药行业也受到了广泛的关注。在新药发现过程中,虚拟筛选可以提高活性分子的富集,通过对化合物的性能进行预测,可以节约大量的人力、物力,缩短药物研发周期,加速研究成果的转化,因此近年来已引起科研机构和制药公司的高度重视。在药物的早期设计阶段,针对某个疾病相关的蛋白质靶点,寻找具有优良活性、成药属性及可合成的小分子是一个关键工作。而如何能从分子库中快速又准确地筛选出活性优良的小分子,以实现基于固定靶点的小分子化合物活性预测的虚拟筛选,就成为了药物研发工作的重中之重。
技术实现思路
为此,本专利技术提供了一种小分子活性预测方法、装置和计算设备,以力图解决或至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提本文档来自技高网...

【技术保护点】
1.一种小分子活性预测模型的训练方法,适于在计算设备中执行,包括:/n收集多个已知蛋白质和小分子结合的晶体构象数据和活性数据;/n从每个晶体构象数据中提取多个子图,每个子图代表一种蛋白质原子和一种小分子原子之间的所有连接信息;/n生成每个子图的距离矩阵,并提取各距离矩阵的多个特征值来生成对应晶体构象数据的特征向量;以及/n以所述特征向量为样本输入,以小分子的活性值为样本输出,以对应的活性数据为样本标签,对预训练的小分子活性预测模型进行训练,得到训练后的模型。/n

【技术特征摘要】
1.一种小分子活性预测模型的训练方法,适于在计算设备中执行,包括:
收集多个已知蛋白质和小分子结合的晶体构象数据和活性数据;
从每个晶体构象数据中提取多个子图,每个子图代表一种蛋白质原子和一种小分子原子之间的所有连接信息;
生成每个子图的距离矩阵,并提取各距离矩阵的多个特征值来生成对应晶体构象数据的特征向量;以及
以所述特征向量为样本输入,以小分子的活性值为样本输出,以对应的活性数据为样本标签,对预训练的小分子活性预测模型进行训练,得到训练后的模型。


2.如权利要求1所述的方法,其中,
所述晶体构象数据包括蛋白质和小分子的每个原子的原子坐标、原子类型和原子间的连接方式;
所述活性数据和活性值包括小分子和蛋白质的结合亲和力;
子图M(A,B)的连接信息包括该晶体构象数据中所有蛋白质原子A和所有小分子原子B的原子坐标和连接方式。


3.如权利要求2所述的方法,其中,从每个晶体构象数据中共提取m*n个子图,其中,m为蛋白质的原子种类,n为小分子的原子种类。


4.如权利要求3所述的方法,其中,
小分子的原子种类包括C、N、O、S中的至少一种;
蛋白质的原子种类包括H、C、N、O、S、P、F、Cl、Br、I中的至少一种。


5.如权利要求1-4中任一项所述的方法,其中,所述生成每个子图的距离矩阵的步骤包括:
对于子图M(A,B),统计该子图中蛋白质原子A的个数p和小分子原子B的个数q;
分别计算该p个A原子与q个B原子之间的距离,生成(p+q)*(p+q)的距离矩阵,作为该子图M(A,B)的距离矩阵。


6.一种小分子活性预测方法,适于在计算设备中执行,所述计算设备中存储有训练好的小分子活性预测模型,该模型采用如权利要求1-5中任一项所述的方法训练得到,所述小分子活性预测方法包括步骤:
接收用户输入的蛋白质和小分子序列,并生成该蛋白质和小分子的晶体构象数据;
从该晶体构象数据...

【专利技术属性】
技术研发人员:宋哲炜李远鹏唐麒淳胡笑文赖力鹏温书豪马健
申请(专利权)人:北京晶派科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1