一种线粒体效应分子的智能筛选体系及其构建方法和应用技术

技术编号:35266659 阅读:86 留言:0更新日期:2022-10-19 10:29
一种线粒体效应分子的智能筛选体系及其构建方法和应用,属于分子生物学技术领域。线粒体效应分子的智能筛选体系构建方法包括:1、建立靶蛋白库;2、获得线粒体效应分子的数据集;3、采用Morgan分子指纹特征化数据集中的线粒体效应分子,进行去重和去脏处理后,再进行分子相似度处理,获得模型的输入集;4、以准确率和AUC值作为评估指标,构建获得支持向量机模型。本发明专利技术利用支持向量机模型在数据量较大的分子集中进行预测,并给出了概率分数靠前的可能对线粒体具有效应作用的分子,该模型有助于线粒体领域的科研人员减少调参时间,提高工作效率。作效率。作效率。

【技术实现步骤摘要】
一种线粒体效应分子的智能筛选体系及其构建方法和应用


[0001]本专利技术属于分子生物学
,具体涉及一种线粒体效应分子的智能筛选体系及其构建方法和应用。

技术介绍

[0002]线粒体是存在于绝大部分真核细胞中的双层膜细胞器,被称为细胞的发电站。作为细胞内能量代谢的关键细胞器,线粒体既为细胞正常的生命活动供能,也容易因为氧化损伤、代谢功能紊乱造成线粒体功能障碍,细胞功能降低,最终导致线粒体疾病发生。随着对线粒体的深入研究,人们越来越清楚地认识到线粒体在细胞代谢、细胞生长、细胞存活和信号转导等多方面发挥重要功能。线粒体功能损伤与多种生理过程及疾病密切相关,比如衰老,免疫反应,糖尿病,癌症,神经退行性疾病,心脑血管疾病等。因此,越来越多的研究开始关注线粒体损伤在疾病中发挥的致病作用,以及如何更好的维持和保护线粒体功能。目前,针对线粒体疾病,已被发现了许多靶向线粒体的药物,可以有效治疗线粒体疾病。除了线粒体靶向药物外,线粒体领域的学者还积极探索对调节线粒体功能有作用的功能分子,从而辅助改善线粒体功能障碍。
[0003]但是,尽管线粒体靶向药物和线粒体营养素分子对线粒体疾病有良好的防治作用,但发现和筛选线粒体效应分子通常花费的时间较长,这与传统的生物筛选的特点相关。传统的药物或者分子筛选是一个非常复杂的过程,包括利用蛋白质组学和生物芯片技术获取蛋白质分子信息、进行生物信息学分析、完成生物活体实验等。虽然当今的生物实验手段得到了快速发展,RNA干扰技术、细胞芯片技术、蛋白质荧光标记技术和核磁共振技术都已被人们用来确证靶标蛋白和药物,但是受制于巨大的人力和物力消耗,仅凭这些传统的生物实验方法来大规模、高通量地筛选作用于特定靶标的分子已不能满足现代医药研发的需求。随着信息处理技术的飞速发展,智能计算技术应运而生,其规模化的分析能力和体系化的筛选机制,具备提供化合物分子筛选高效方案的潜质。

技术实现思路

[0004]针对上述现有技术中存在的缺陷,本专利技术的目的在于设计提供一种线粒体效应分子的智能筛选体系及其构建方法和应用。本专利技术利用机器学习对线粒体效应分子智能筛选,从训练集的建立、输入,到模型的调参以及最后在大数据集中进行预测,成功筛选出具有潜在线粒体效应的分子,建立了线粒体效应分子智能筛选体系。本专利技术利用支持向量机模型在大分子数据集中进行预测,并给出了概率分数靠前的可能对线粒体具有效应作用的分子,该模型有助于线粒体领域的科研人员减少调参时间,提高工作效率。
[0005]为了实现上述目的,本专利技术采用以下技术方案:
[0006]一种线粒体效应分子的智能筛选体系的构建方法,其特征在于包括以下步骤:
[0007](1)收集生物分子作用的靶标蛋白的基本信息,建立靶蛋白库;
[0008](2)基于上述步骤(1)建立的靶蛋白库,以IC50和AC50值作为效应分子的筛选标
准,辅助ChEMBL数据库中效应分子的活性,筛选靶向线粒体上蛋白的效应分子,获得线粒体效应分子的数据集;
[0009](3)采用Morgan分子指纹特征化上述步骤(2)获得的数据集中的线粒体效应分子,进行去重和去脏处理后,再进行分子相似度处理,获得模型的输入集;
[0010](4)以准确率和AUC值作为评估指标,采用支持向量机算法学习和训练,构建线粒体效应分子筛选模型。
[0011]所述的构建方法,所述步骤(1)中靶标蛋白的基本信息包括名称、蛋白号、机制和定位。
[0012]所述的构建方法,所述步骤(1)中靶标蛋白包括肉碱棕榈酰转移酶、长脂肪酰辅酶A、犬尿氨酸酶、单胺氧化酶、辅酶Q

细胞色素c还原酶、细胞色素c、NADH脱氢酶、琥珀酸脱氢酶、甘油
‑3‑
磷酸脱氢酶、三磷酸腺苷合酶、肉碱棕榈酰转移酶Ⅱ、解偶联蛋白、MT

ND1、MT

ND2、MT

ND3、MT

ND4、MT

ND5、MT

ND6、MT

CYB、MT

CO1、MT

CO2、MT

CO3、二氢乳清酸脱氢酶、柠檬酸合酶、顺乌头酸酶、异柠檬酸脱氢酶、a

酮戊二氢脱氢酶复合体、琥珀酸辅酶A合成酶、延胡索酸酶、苹果酸脱氢酶、谷草转氨酶、谷氨酸脱氢酶、丙酮酸脱氢酶复合体、氨甲酰磷酸合成酶Ⅰ、鸟氨酸转氨甲酰酶、N

乙酰谷氨酸合酶、乙醛脱氢酶、肌酸激酶、腺苷酸激酶、胆固醇侧链裂解酶、醛固合成酶、T1M10、T1M23。
[0013]所述的构建方法,所述步骤(2)中数据库包括ChEMBL数据库。
[0014]所述的构建方法,所述步骤(2)数据集包括IC50和/或AC50值小于1000nm的线粒体效应分子、IC50和/或AC50值大于50000nmol的线粒体效应分子、无IC50值和AC50值但数据库中对靶点明确具有活性的线粒体效应分子、无IC50值和AC50值并且数据库中对靶点明确无活性的线粒体效应分子。
[0015]所述的构建方法,将所述IC50和/或AC50值小于1000nmol的线粒体效应分子,以及所述无IC50值和AC50值但数据库中对靶点明确具有活性的线粒体效应分子设为正样本。
[0016]所述的构建方法,将所述IC50和/或AC50值大于50000nmol的线粒体效应分子,以及所述无IC50值和AC50值并且数据库中对靶点明确无活性的线粒体效应分子设为负样本。
[0017]所述的构建方法,所述步骤(2)中采用python工具包对靶向线粒体上蛋白的效应分子进行检索和筛选。
[0018]一种线粒体效应分子的智能筛选体系,通过任一项所述的构建方法建立得到。
[0019]所述的线粒体效应分子的智能筛选体系在发现和筛选线粒体效应分子中的应用。。
[0020]本专利技术原理为:利用机器学习对线粒体效应分子进行预测,就是利用机器学习对数据的学习能力,使用己有的医药数据对模型进行训练,使模型拥有对新的数据进行预测的能力。基于机器学习的线粒体效应分子筛选研究主要分为以下几个流程。
[0021]第一步:确定研究目标并收集相应的数据。收集数据是非常重要的一步,数据集的质量直接决定模型效果的上限。本研究中的原始数据主要是对于线粒体上的特定蛋白具有效应的分子,这些分子一般从数据库中收集,效应分子的主要信息应包括分子编号,分子名,靶蛋白名称,具体作用方式。
[0022]效应分子靶向线粒体的作用机制复杂,其中大部分分子都对线粒体上的蛋白具有效应,故在蛋白库中寻找定位于线粒体上的典型蛋白,这些蛋白包括了与线粒体有关的生
化过程,如三羧酸循环、氧化磷酸化等,从而建立线粒体靶蛋白库。对于靶蛋白具有效应作用的分子可以认为靶向线粒体,并且对线粒体具有效应,因此将这些分子纳入线粒体效应分子数据集。
[0023]第二步:数据处理。在收集的原本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种线粒体效应分子的智能筛选体系的构建方法,其特征在于包括以下步骤:(1)收集生物分子作用的靶标蛋白的基本信息,建立靶蛋白库;(2)基于上述步骤(1)建立的靶蛋白库,以IC50和AC50值作为效应分子的筛选标准,辅助ChEMBL数据库中效应分子的活性,筛选靶向线粒体上蛋白的效应分子,获得线粒体效应分子的数据集;(3)采用Morgan分子指纹特征化上述步骤(2)获得的数据集中的线粒体效应分子,进行去重和去脏处理后,再进行分子相似度处理,获得模型的输入集;(4)以准确率和AUC值作为评估指标,采用支持向量机算法学习和训练,构建线粒体效应分子筛选模型。2.如权利要求1所述的构建方法,其特征在于所述步骤(1)中靶标蛋白的基本信息包括名称、蛋白号、机制和定位。3.如权利要求1所述的构建方法,其特征在于所述步骤(1)中靶标蛋白包括肉碱棕榈酰转移酶、长脂肪酰辅酶A、犬尿氨酸酶、单胺氧化酶、辅酶Q

细胞色素c还原酶、细胞色素c、NADH脱氢酶、琥珀酸脱氢酶、甘油
‑3‑
磷酸脱氢酶、三磷酸腺苷合酶、肉碱棕榈酰转移酶Ⅱ、解偶联蛋白、MT

ND1、MT

ND2、MT

ND3、MT

ND4、MT

ND5、MT

ND6、MT

CYB、MT

CO1、MT

CO2、MT

CO3、二氢乳清酸脱氢酶、柠檬酸合酶、顺乌头酸酶、异柠檬酸脱氢酶、a
...

【专利技术属性】
技术研发人员:刘皓淼王力卓杨志伟龙建纲
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1