一种靶活性天然产物筛选方法及其用途技术

技术编号:35156245 阅读:41 留言:0更新日期:2022-10-05 10:38
本发明专利技术涉及生物医药技术领域,尤其涉及一种靶活性天然产物筛选方法,包括以下步骤:S1、根据靶活性分子评价指标、靶活性分子集多模态描述符和靶活性分子集的构效模型建立靶活性数据集的多模态构效模型;S2、从公开数据集中下载若干天然产物数据集SMILES;S3、采用开源程序RDKIT对若干天然产物数据集SMILES进行标准化处理。本发明专利技术能够快速、高效且自动化对靶活性目标分子集的衍生天然产物进行富集、筛选和预测,这极大程度为替代副作用强或环境不友好型的人工合成药寻找天然产物药提供了有利手段,极大降低了天然产物药的研发周期,并促进天然产物药新活性的发现。进天然产物药新活性的发现。进天然产物药新活性的发现。

【技术实现步骤摘要】
一种靶活性天然产物筛选方法及其用途


[0001]本专利技术涉及生物医药
,尤其涉及一种靶活性天然产物筛选方法及其用途。

技术介绍

[0002]化学合成药物的毒理学性质对人类健康和大自然生态环境的影响存在很大隐患,这需要长期且谨慎的评估。此外,化学合成药物的过渡滥用导致更强耐药性的细菌产生,严重威胁人类及其它生态物种的生存,这已经受到世界各国的重视。相比之下,天然产物作为支持药物发现的化学实体的重要来源,其经过数千年来人类从自然界中的反复尝试和总结得到,并且这些天然产物具有巨大的结构范围和独特的化学多样性,一直是全球先导靶向药物研发的热点。因此,开发具有靶活性的天然产物药,是人与自然和谐共生、绿色可持续发展的新道路。
[0003]到目前为止,天然产物新活性的发现及挖掘是漫长且繁琐的。尽管有许多策略被开发,如专利名称为基于阳性化合物残基贡献相似度的分子对接结果筛选方法,申请号为CN202110748005.2的中国专利,提出了基于配体与受体3D结合的虚拟筛选、经典分子动力学结合MMPBSA计算,但其操作不仅繁琐,且筛选出的药物与实验所得的结果相关性很差,难以预料,适用的领域极为局限,不具有普适性,也未通过实验证明模型预测的可靠性。
[0004]与构效建模相比,如何利用构效模型来发现候选药是药物发现中最为重要的一步,以往的研究是在构效模型的基础上通过人工借助经验对建模分子进行化学修饰及构效预测,这不仅耗费大量人力,而且人工修饰的化学基团存在很大局限,许多设计的化合物面临着合成困难甚至无法合成。因此,如何利用构效模型快速富集、筛选靶活性的分子,尤其是天然产物,仍是天然产物药发现的主要挑战。

技术实现思路

[0005]针对现有技术的不足,本专利技术提供了一种靶活性天然产物筛选方法及其用途,能够快速、高效且自动化对靶活性目标分子集的衍生天然产物进行富集、筛选和预测,这极大程度为替代副作用强或环境不友好型的人工合成药寻找天然产物药提供了有利手段,极大降低了天然产物药的研发周期,并促进天然产物药新活性的发现。
[0006]为解决上述技术问题,本专利技术提供了如下技术方案:一种靶活性天然产物筛选方法,包括以下步骤:S1、根据靶活性分子评价指标、靶活性分子集多模态描述符和靶活性分子集的构效模型建立靶活性数据集的多模态构效模型;S2、从公开数据集中下载若干天然产物数据集SMILES;天然产物数据集SMILES包括COCONUT、Super Natural II、NPASS、KNApSaCK和CMAUP;S3、采用开源程序RDKIT对若干天然产物数据集SMILES进行标准化处理,标准化处
理包括合并若干天然产物数据集SMILES并将其命名为天然产物分子数据库MDNP;S4、采用无监督学习算法对天然产物数据集进行指纹聚类;S5、采用Mini Batch K

Means算法根据指纹聚类构建多个富集模型,多个富集模型的聚类数为1%

20%;S6、采用无监督学习算法根据多个富集模型构建镞中心分子库和天然产物镞分子库;S7、使用镞中心分子库对多模态构效模型中的靶活性分子集进行逐一标记,然后使用天然产物镞分子库进行分子富集;S8、使用多模态构效模型结合分子富集后的靶活性分子集进行预测,并自定义筛选获得相似度相同或最接近的衍生天然产物镞;S9、采用Rank对衍生天然产物镞进行排序,最终获得靶活性高的候选天然产物。
[0007]进一步地,在步骤S1中,靶活性分子评价指标的建立方法包括以下步骤:S111、获取用于评估靶活性分子的数据,该数据包括但不限于LC50半致死浓度、IC50半抑制率浓度、EC50半最大效应浓度、TC50半数抑制浓度、MIC最小抑菌浓度、最低感官浓度;最低感官浓度包括最小涩味浓度、最小甜味浓度、最小苦味浓度、最小咸味浓度、最小鲜味浓度与感官、滋味相关的评价指标;S112、将上述所获取的数据结合能以通过具体数量或者其它用于评估分子集之间的差异或者强弱相关指标,同时也包括通过特定公式对上述评估指标进行转化来用于建模的数据,包括但不限于pLC50、pIC50、pEC50、pTC50、pMIC;S113、通过步骤S112中转化而来的建模数据建立靶活性分子评价指标。
[0008]进一步地,在步骤S1中,靶活性分子集多模态描述符的建立方法包括以下步骤:S121、使用单一或者组合使用以下描述符,包括但不限于使用开源量化程序对靶活性分子集进行几何优化和单点能计算,用于提取其拓扑、电子、几何以及热力学方面描述符;S122、使用开源分子设计程序对靶活性分子集进行分子指纹计算,包括但不限基于拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4、ECFP6;S123、使用开源分子设计程序对靶活性分子集进行2D和3D拓扑描述符计算;S124、通过实验或其它预测工具获得若干靶活性分子集的物理化学描述符;S125、将若干靶活性分子集的物理化学描述符集合做为靶活性分子集多模态描述符。
[0009]进一步地,在步骤S1中,靶活性分子集的构效模型的建立方法包括以下步骤:S131、对靶活性分子集中的描述符进行预处理;S132、建立靶活性与描述符之间的构效关系并进行优化;S133、对靶活性分子集的构效模型进行评估。
[0010]进一步地,在步骤S4中,采用无监督学习算法对天然产物数据集进行指纹聚类包括以下步骤:S41、使用开源程序RDKIT计算天然产物分子数据库MDNP中所有分子的指纹,包括
拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4和ECFP6; S42、选择ECFP4作为最终的天然产物分子数据库MDNP分子指纹类型;S43、从天然产物分子数据库MDNP中随机选取40%的分子集合作为训练集;S44、采用无监督学习算法分别对训练集的ECFP4指纹进行无监督聚类,聚类数为0.01%

50%;S45、使用轮廓系数对无监督聚类评估,经评估,确定使用Mini Batch K

Means算法构建多个富集模型,多个富集模型的聚类数为1%~20%。
[0011]进一步地,无监督学习算法的采用包括但不限于K

Means算法、Mini Batch K

Means算法、层次聚类算法或DBSCAN算法。
[0012]进一步地,在步骤S6中,采用无监督学习算法根据多个富集模型构建镞中心分子库和天然产物镞分子库包括以下步骤:S61、将多个富集模型分别预测剩余为60%的天然产物分子数据库MDNP的分子集,并给予类标签;S62、将类标签按照从小到大的顺序进行排列构建天然产物鏃分子库;S63、将取天然产物鏃分子库中的每个类中心分子提取出来构建鏃中心分子库。
[0013]进一步地,在步骤S7中,具体包括以下步骤:S71、计算靶活性分子集的ECFP4指纹,逐一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种靶活性天然产物筛选方法,其特征在于,包括以下步骤:S1、根据靶活性分子评价指标、靶活性分子集多模态描述符和靶活性分子集的构效模型建立靶活性数据集的多模态构效模型;S2、从公开数据集中下载若干天然产物数据集SMILES;S3、采用开源程序RDKIT对若干天然产物数据集SMILES进行标准化处理;S4、采用无监督学习算法对天然产物数据集进行指纹聚类;S5、采用Mini Batch K

Means算法根据指纹聚类构建多个富集模型,多个富集模型的聚类数为1%

20%;S6、采用无监督学习算法根据多个富集模型构建镞中心分子库和天然产物镞分子库;S7、使用镞中心分子库对多模态构效模型中的靶活性分子集进行逐一标记,然后使用天然产物镞分子库进行分子富集;S8、使用多模态构效模型结合分子富集后的靶活性分子集进行预测,并自定义筛选获得相似度相同或最接近的衍生天然产物镞;S9、采用Rank对衍生天然产物镞进行排序,最终获得靶活性高的候选天然产物。2.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:在步骤S1中,靶活性分子评价指标的建立方法包括以下步骤:S111、获取用于评估靶活性分子的数据,该数据包括但不限于LC50半致死浓度、IC50半抑制率浓度、EC50半最大效应浓度、TC50半数抑制浓度、MIC最小抑菌浓度、最低感官浓度;S112、将上述所获取的数据结合能以通过具体数量或者其它用于评估分子集之间的差异或者强弱相关指标,同时也包括通过特定公式对上述评估指标进行转化来用于建模的数据,包括但不限于pLC50、pIC50、pEC50、pTC50、pMIC;S113、通过步骤S112中转化而来的建模数据建立靶活性分子评价指标。3.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:在步骤S1中,靶活性分子集多模态描述符的建立方法包括以下步骤:S121、使用单一或者组合使用以下描述符,包括但不限于使用开源量化程序对靶活性分子集进行几何优化和单点能计算,用于提取其拓扑、电子、几何以及热力学方面描述符;S122、使用开源分子设计程序对靶活性分子集进行分子指纹计算,包括但不限基于拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4、ECFP6;S123、使用开源分子设计程序对靶活性分子集进行2D和3D拓扑描述符计算;S124、获取若干靶活性分子集的物理化学描述符;S125、将若干靶活性分子集的物理化学描述符集合做为靶活性分子集多模态描述符。4.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:在步骤S1中,靶活性分子集的构效模型的建立方法包括以下步骤:S131、对靶活性分子集中的描述符进行预处理;S132、建立靶活性与描述符之间的构效关系并进行优化;S133、对靶活性分子集的构效模型进行评估。5.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:在步骤S4中,采用无监督学习算法对天然产物数据集进行指纹聚类包括以下步骤:
S41、使用开源程序RDKIT计算天然产物分子...

【专利技术属性】
技术研发人员:潘飞彭文君田文礼李相昕方小明赵磊杨子辰
申请(专利权)人:中国农业科学院蜜蜂研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1