当前位置: 首页 > 专利查询>南京大学专利>正文

一种干扰生物学通路的活性结构预测方法技术

技术编号:37455380 阅读:43 留言:0更新日期:2023-05-06 09:27
本发明专利技术公开了一种干扰生物学通路的活性结构预测方法,通过构建包含细胞系、暴露时间、暴露浓度等明确标签的化合物生物学通路干扰数据库,通过累计超几何分布和累计伯努利分布评估训练集和测试集在生物学通路交叉程度和调控趋势的一致性,紧接着识别到训练集中一批潜在的化合物,进而以累积分布概率评估潜在化合物中分子描述符的出现频率,最终实现通过输入生物学通路预测驱动其变化的潜在活性结构。入生物学通路预测驱动其变化的潜在活性结构。入生物学通路预测驱动其变化的潜在活性结构。

【技术实现步骤摘要】
一种干扰生物学通路的活性结构预测方法


[0001]本专利技术涉及药物开发和环境复合体系中活性结构预测领域,更具体的说涉及一种基于明确生物学通路和化合物联系,预测干扰特定生物学通路的活性结构的方法。

技术介绍

[0002]核糖核酸(RNA)作为遗传讯息中间载体,除了参与蛋白质合成还参与基因表达调控等一系列重要生命过程,二代测序和基因芯片技术发展使得RNA转录组数据井喷,极大的促进了医学、生命科学、环境科学等多个领域的发展。现存大量细胞(in vitro)、个体(in vivo)在不同化合物(例如药物和污染物)处理下RNA转录组数据,例如CTD(Comparative Toxicogenomics Database)与ConnectivityMap数据库。通常来说,主要活性结构相似的化合物会导致相似的生物效应或作用机制,因此其转录组学结果也会相应具有一致性。而转录组数据能有效提供多维且平行性良好的的生物特征指纹,因此这给予科学家开发一个类似反向定量构效关系(Quantitative Structure

Activity Rela本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种干扰生物学通路的活性结构预测方法,其特征在于,包括以下步骤:1)数据的收集:收集并保留人种转录组基因表达数据;把基因名称转换为Entrze ID;对数据进行生物标签的划分;所述生物标签包括细胞系、暴露时间、暴露浓度和数据质量;对数据进行化学标签的划分;所述化学标签包括SMILES描述的分子结构和TOXPRINT描述的分子结构;2)生物学通路富集:将步骤1)中收集并保留的转录组基因表达数据划分为训练集和测试集;其中,所述测试集的数据量占比不低于10%;对步骤1)中收集并保留的转录组基因表达数据,使用基因集富集分析对生物学通路进行富集,所述基因集富集分析得到的P
GSEA
值和NES值;区分出显著富集的生物学通路;3)生物学通路相似性判断:通过累计超几何分布,判断训练集和测试集之间显著富集的生物学通路的交叉程度;通过累计伯努利分布,判断训练集和测试集之间均显著富集生物学通路调控趋势的一致性;4)相似性结果的整合:对累计超几何分布的P
hypergeometric
值进行错误发现率的校正,得到P
FRD1
值;对累计伯努利分布的P
bernoulli
值进行错误发现率的校正,得到P
FRD2
值;若P
FRD1
值、P
FRD2
值均满足小于0.05,则认为训练集数据与测试集数据在生物学通路干扰上相似;基于训练集中生物学通路和化合物的联系进一步识别到一批导致测试集生物学通路干扰的潜在化合物;5)活性结构计算:按潜在化合物数量,通过自举法从训练集中获取数据样本,计算潜在化合物每个分子描述符在高斯分布中的累积概率P
distribution
,P
distribution
值满足小于0.05的分子描述符所描述的结构,即被认为是测试集中干扰特定生物学通路的活性结构。2.根据权利要求1所述的干扰生物学通路的活性结构预测方法,其特征在于,步骤2)中,通过Entrze ID和基因相对表达强度进行生物学通路的富集。3.根据权利要求2所述的干扰生物学通路的活性结构预测方法,其特征在于,步骤2)中,所述通路富集条件包括:选择生物学通路数据库,每条通路所富集的基因个数为4~1000,物种设置为人种类;其中,所述生物学通路数据库包括KEGG、Reactome和Wikipathway中的任意一个或多个。4.根据权利...

【专利技术属性】
技术研发人员:郭婧张少卿史薇于红霞丑立本罗雯睿谭皓月徐珂凡
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1