基于蛋白质接触图特征的蛋白质-药物相互作用预测方法技术

技术编号:37227869 阅读:16 留言:0更新日期:2023-04-20 23:10
本发明专利技术公开了一种基于蛋白质接触图特征的蛋白质

【技术实现步骤摘要】
基于蛋白质接触图特征的蛋白质

药物相互作用预测方法


[0001]本专利技术涉及生物信息学预测蛋白质

药物相互作用领域,具体为一种基于蛋白质接触图特征的蛋白质

药物相互作用预测方法。

技术介绍

[0002]在预测蛋白质

药物相互作用是早期药物筛选中的关键步骤。据美国药物研究与制造商协会调查,新药研究占用整个制药业收益的75%。此外,仅有不到5%的经初筛命中的化合物可用于临床实验,传统的筛选方法更是要消耗2

3年的时间,极大程度耗费了研究人员的精力和时间。借助计算机进行虚拟筛选药物花费时间短,准确性高,有效降低了该任务的成本。而该方案的核心即依靠计算机预测出蛋白质和药物之间的相互作用(Protein

Drug Interaction,PDI)。
[0003]预测蛋白质

药物的相互作用主要包含三个步骤:1、对药物分子式进行量化并提取其特征;2、对蛋白序列进行量化并提取特征;3、选择合适的分类模型,预测药物和蛋白质是否存在相互作用。与其他模式识别任务类似,有效提取特征的方法是进行蛋白质

药物相互作用预测的关键。
[0004]在提取药物特征方面,药物分子量化的理论来源于定量结构与活性关系(Quantitative StructureActivityRelationship,QSAR)。该关系源自于传统构效关系,并在此基础上与化学中常见的经验方程相结合,在药物化学领域具有广泛和深远影响。该方法把人们对构效关系的认知从定性水平上升到了定量水平。从其实际影响来看,定量结构与活性关系揭示了药物分子与生物大分子结合的模式,指示化合物的某些生物活性可以通过数学模型量化其分子结构特征来获得,并给出了量化特征的理论依据。在蛋白质特征提取方面,蛋白序列的量化方式主要来源于对氨基酸残基的特征嵌入。当下不同研究人员量化蛋白质序列的方法差异很大,主流的做法有自相关矩阵嵌入和残基序列结合嵌入等。
[0005]除了蛋白质和药物的特征提取方式,分类模型的选择和设计也是预测蛋白质和药物相互作用的重要研究内容。现有的预测算法主要分为两大类:传统机器学习方法和深度神经网络方法。传统机器学习方法包括支持向量机(Support Vector Machine,SVM)(Cheng Z,Zhou S,Wang Y,et al.Effectively identifying compound

protein interactions by learning from positive and unlabeled examples[J].IEEE/ACM transactions on computational biologyand bioinformatics,2016,15(6):1832

1843)、随机森林(Random Forests,RF)(Nasution A K,Wijaya S H,Kusuma W A.Prediction of drug

target interaction on Jamu formulas using machine learning approaches[C]//2019International Conference on Advanced Computer Science and Information Systems(ICACSIS).IEEE,2019:169

174)、K最近邻(K

Nearest Neighbor,KNN)(Chen W,Zhang S W,Cheng Y M,et al.Prediction of Protein

RNA interaction site using SVM

KNN algorithm with spatial information[C]//2010IEEE International Conference on Bioinformatics and Biomedicine(BIBM).IEEE,2010:73

76)。分类算法
以及逻辑回归模型等。基于深度神经网络的方法主要包括长短期记忆网络(Long Short

Term Memory,LSTM)(Wang W,Yang X,Yang C,et al.Dependency

based long short term memory network for drug

drug interaction extraction[J].BMC bioinformatics,2017,18(16):99

109)、卷积神经网络(Convolutional Neural Networks,CNN)(Li Y,Shibuya T.Malphite:A convolutional neural network and ensemble learning based protein secondary structure predictor[C]//2015IEEE International Conference on Bioinformatics and Biomedicine(BIBM).IEEE,2015:1260

1266)和图网络(Graph Neural Network,GNN)(Wang B,Lyu X,Qu J,et al.GNDD:A Graph Neural Network

Based Method for drug

disease association prediction[C]//2019IEEE International Conference on Bioinformatics and Biomedicine(BIBM).IEEE,2019:1253

1255)等。在现有算法中,大多方法都根据靶蛋白种类划分成四类去解决,即分别在酶、离子通道、G蛋白耦联受体和核受体蛋白中进行预测。这么做的主要原因是这四类蛋白的类间差异过大,混在一起训练会使模型变得很难收敛。因此,这些方法训练出的模型可适用面较窄,往往只局限于预测某一类蛋白和药物的相互作用。当无法判断一种新的未知蛋白的真实属性时,该类方法的鲁棒性和实用价值会大大降低。

技术实现思路

[0006]本专利技术的目的在于提供一种基于蛋白质接触图特征的蛋白质

药物相互作用预测方法,用于提升蛋白质

药物相互作用预测的精度和泛化能力。
[0007]实现本专利技术目的的技术方案为:一种基于蛋白质接触图特征的蛋白质

药物相互作用预测方法,包括以下步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于蛋白质接触图特征的蛋白质

药物相互作用预测方法,其特征在于,包括以下步骤:步骤1、给定一个蛋白质序列集,利用软对称对齐算法模型分别提取每条蛋白质序列的接触图信息,再从接触图信息中提取蛋白质特征;步骤2、使用扩展连通性指纹提取药物分子的子结构特征,同时使用Mol2vec向量嵌入得到另一个子结构特征,将两个子结构特征融合,得到药物特征;步骤3、将提取好的蛋白质特征和药物特征进行拼接,并使用自注意力机制对蛋白质药物相互作用信息进行加权提取;步骤4、将步骤3生成的药物蛋白质相互作用特征放入双向门控循环单元训练并放入Softmax激活函数进行归一化处理从而生成预测结果。2.根据权利要求1所述的基于蛋白质接触图特征的蛋白质

药物相互作用预测方法,其特征在于,步骤1中对于一个由长度为L的蛋白质序列P,利用预训练好的SSA算法模型得到每条蛋白质的接触图预测信息;根据接触图信息算出接触图每一行的方差或标准差,得到方差或标准差矩阵;对方差或标准差矩阵进行拼接,得到蛋白质特征。3.根据权利要求1所述的基于蛋白质接触图特征的蛋白质

药物相互作用预测方法,其特征在于,将两个子结构特征融合,得到药物特征的具体方法为:用一维卷积将提取出的两种药物原特征分别转至下层特征;使用映射矩阵分别将两个子结构特征映射到与对方相同的特征空间中并与下层特征相加,两个映射矩阵互为转置,具体公式为:F
M1
=Conv1d(F
M0
)+WF
N0
F
N1
=Conv1d(F
N0
)+W
T
F
M0
F
M0
和F
M1
分别是Morgan原特征与下层特征,F
N1
和F
N0
分别是Mol2vec原特征与下层特征,W是可训练的映射矩阵,其维度分别是F
M0
和F
N0
的长度;将两下层特征相加得到融合特征。4.根据权利要求1所述的基于蛋白质接触图特征的蛋白质

药物相互作用预测方法,其特征在于,将提取好的蛋白质特征和药物特征进行拼接,并使用自注意力机制对蛋白质药物相互作...

【专利技术属性】
技术研发人员:於东军万宇
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1