基于图神经网的表观遗传靶点预测的分类方法及装置制造方法及图纸

技术编号:36530540 阅读:15 留言:0更新日期:2023-02-01 16:12
本发明专利技术公开了一种基于图神经网的表观遗传靶点预测的分类方法及装置,应用于表观遗传分析。具体包括:构建蛋白质

【技术实现步骤摘要】
基于图神经网的表观遗传靶点预测的分类方法及装置


[0001]本专利技术涉及表观遗传分析
,特别涉及一种基于图神经网的表观遗传靶点预测方法及装置。

技术介绍

[0002]表观遗传型用来定义表型改变而不改变基因型的现象,以解释发育的各个方面。大约四分之三世纪后,发现基因表达模式的表观遗传机制不是通过DNA序列的变化传递的,而是通过染色质状态的变化传递的,这也是遗传信息的生理形式。除了DNA,表观遗传机制也稳定基因表达程序,以确定细胞类型。如今,表观遗传学是一个广泛的研究领域,涉及形态发生、细胞遗传、跨代表观遗传和进化方法。
[0003]目前深度学习模型在表观遗传靶点预测中还尚未应用,最新的研究为2021年Noberto S.C.等人整合了26318个化合物以及55个具有表观遗传活性的蛋白靶点利用机器学习模型进行生物活性分析并进行表观遗传靶点预测。首先建立表观遗传靶点预测模型,使用如图1所示的两种验证策略:第一种是单目标验证,比较15种不同机器学习模型在10折交叉验证上的分类效果,最终选出一种表现最好的集成算法模型;第二个策略是多目标验证,通过将单目标机器学习模型合并构建成多目标分类模型验证在每10种化合物上的预测效果,同样进行10折交叉验证对预测目标进行评定。最终这些结果表明,Morgan和RDK指纹以及SVM算法是为当前研究的表观遗传目标集推导二元分类器的最佳组合。这项工作中选取的15个二分类机器学习模型是由三种分子指纹提取算法(Molecular ACCess System(MACCS),Morgan,RDK)与五种机器学习分类算法(k紧邻(k

NearestNeighbor,knn),支持向量机(Support Vector Machine,SVM),梯度提升树(Gradient Boosting Decision Tree,GBDT),随机森林(Random Forest,RF),前馈神经网(feed forward neural network,FFNN))组合构成。
[0004]然而该方法由于只用到机器学习算法的分类功能,在提取分子性质时仍然采用传统的分子指纹方法,造成了一定信息量的浪费。事实上,由于深度学习使用抽象的概念来进行特征的提取,更加贴合模型训练从而获得更高的预测准确率。

技术实现思路

[0005]本专利技术实施例提供了一种基于图神经网的表观遗传靶点预测的分类方法及装置,针对目前表观遗传靶点预测的技术中分子特征提取不充分、无法建立深度学习模型等问题,提出:采用门控图神经网络(Gating graph neural network,GGNN)化合物分子的特征进行特征提取,通过机器学习算法建立监督学习模型对表观遗传靶点进行预测。技术方案如下:
[0006]本专利技术提供了一种基于图神经网的表观遗传靶点预测的分类方法,包括下述步骤:
[0007]S1、构建蛋白质

化合物活性关联信息配对表,所述蛋白质

化合物活性关联信息
配对表的基本信息包括化合物分子的简化分子线性输入规范信息;
[0008]S2、将化合物分子的简化分子线性输入规范信息转化为化合物的分子图;
[0009]S3、通过门控神经网络对所述分子图进行特征提取;
[0010]S4、通过机器学习模型对提取到的特征进行分类;
[0011]S5、利用评分函数对分类结果进行准确性评估。
[0012]优选地,所述蛋白质

化合物活性关联信息配对表的基本信息还包括:基因名称和活性信息;
[0013]其中,所述活性信息包括:化合物分子与基因之间无活性关系的参数值和化合物分子与基因之间呈活性关系的参数值。
[0014]优选地,所述活性信息的参数值设置规则为:
[0015]将所述化合物分子与基因之间无活性关系的参数值设置为0,将所述化合物分子与基因之间呈活性关系的参数值设置为1。
[0016]优选地,所述步骤S2包括:
[0017]将所述化合物分子的简化分子线性输入规范信息输入至RDKit分析包;
[0018]通过所述RDKit分析包将输入的化合物分子的简化分子线性输入规范信息转化为分子图。
[0019]优选地,所述通过机器学习模型对提取到的特征进行分类包括:
[0020]通过机器学习模型对提取到的特征进行分类,得到分类结果,所述分类结果包括0和1。
[0021]优选地,所述S4中的提取到的特征为固定长度的向量。
[0022]优选地,所述步骤S5中的评分函数为十折交叉验证函数。
[0023]本专利技术提供一种基于图神经网的表观遗传靶点预测的分类装置,包括:
[0024]配对表生成模块:所述配对表生成模块用于构建蛋白质

化合物活性关联信息配对表,所述蛋白质

化合物活性关联信息配对表的基本信息包括化合物分子的简化分子线性输入规范信息;
[0025]转换模块:所述转换模块将所述配对表生成模块输出的化合物分子的简化分子线性输入规范信息转化为化合物的分子图;
[0026]提取模块:所述提取模块通过门控神经网络对所述转换模块输出的分子图进行特征提取;
[0027]分类模块:所述分类模块用于对所述提取模块输出的特征进行分类;
[0028]评估模块:所述评估模块用于对所述分类模块的分类结果与实际类别进行对比,评估所述分类模块的准确性。
[0029]优选地,所述蛋白质

化合物活性关联信息配对表的基本信息还包括:基因名称和活性信息;
[0030]其中,所述活性信息包括:化合物分子与基因之间无活性关系的参数值和化合物分子与基因之间呈活性关系的参数值;
[0031]其中,所述活性信息的参数值设置规则为:将所述化合物分子与基因之间无活性关系的参数值设置为0,将所述化合物分子与基因之间呈活性关系的参数值设置为1。
[0032]优选地,所述转换模块通过RDKit分析包将所述化合物分子的简化分子线性输入
规范信息转化为化合物的分子图。
[0033]本专利技术实施例提供的技术方案带来的有益效果至少包括:
[0034]本专利技术实施例中,本专利技术将深度学习模型与机器学习模型的分类算法相融合,利用门控图神经网深度学习模型对化合物分子进行特征提取,然后利用机器学习算法的良好分类效果,将深度学习模型最后一层输出层替换为机器学习算法的分类任务。
[0035]本专利技术利用深度学习模型提取化合物分子特征并进行表观遗传靶点预测。若没有图神经网模型对化合物分子信息的特征提取,依赖手工特征输入和选择有极大的主观性,并且特征提取不充分验证影响机器学习模型的预测效果。
[0036]图神经网模型对化合物分子信息的提取不仅能够将所有原子名称、化合价、氢键个数等特征提取完整,而且能够存储原子位置信息等空间特征,有效地提升了特征质量,为后续机器学习模型的分类算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网的表观遗传靶点预测的分类方法,其特征在于,包括下述步骤:S1、构建蛋白质

化合物活性关联信息配对表,所述蛋白质

化合物活性关联信息配对表的基本信息包括化合物分子的简化分子线性输入规范信息;S2、将化合物分子的简化分子线性输入规范信息转化为化合物的分子图;S3、通过门控神经网络对所述分子图进行特征提取;S4、通过机器学习模型对提取到的特征进行分类;S5、利用评分函数对分类结果进行准确性评估。2.根据权利要求1所述的基于图神经网的表观遗传靶点预测的分类方法,其特征在于,所述蛋白质

化合物活性关联信息配对表的基本信息还包括:基因名称和活性信息;其中,所述活性信息包括:化合物分子与基因之间无活性关系的参数值和化合物分子与基因之间呈活性关系的参数值。3.根据权利要求2所述的基于图神经网的表观遗传靶点预测的分类方法,其特征在于,所述活性信息的参数值设置规则为:将所述化合物分子与基因之间无活性关系的参数值设置为0,将所述化合物分子与基因之间呈活性关系的参数值设置为1。4.根据权利要求1所述的基于图神经网的表观遗传靶点预测的分类方法,其特征在于,所述步骤S2包括:将所述化合物分子的简化分子线性输入规范信息输入至RDKit分析包;通过所述RDKit分析包将输入的化合物分子的简化分子线性输入规范信息转化为分子图。5.根据权利要求3所述的基于图神经网的表观遗传靶点预测的分类方法,其特征在于,所述通过机器学习模型对提取到的特征进行分类包...

【专利技术属性】
技术研发人员:王艺舒艾冬梅
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1