基于词向量表征和注意力机制的药物重定位方法及系统技术方案

技术编号:34805068 阅读:53 留言:0更新日期:2022-09-03 20:12
本发明专利技术公开了一种基于词向量表征和注意力机制的药物重定位方法及系统。基于自行构建的涵盖常见小分子药物和人体靶蛋白DrugBank数据集,对抗分布拆分得到训练验证数据集。基于Bert模型完成药物SMILES字符串和靶蛋白氨基酸序列的动态词向量表征,基于注意力池化的卷积策略完成端到端的特征工程,分别在三组反转标签对抗分布的DrugBank数据集上训练三个BertDTI交互作用预测模型,通过Bagging集成学习得到BertDTI集成模型。对待研究的目标靶蛋白配对无标签药物,得到模型应用数据集;利用BertDTI集成模型对应用数据集进行测试,为每种目标靶蛋白筛选潜在交互作用候选药物,实现模型的应用价值。本发明专利技术结合词向量表征和注意力机制,提升了药物

【技术实现步骤摘要】
基于词向量表征和注意力机制的药物重定位方法及系统


[0001]本专利技术属于数据挖掘
,具体涉及一种基于词向量表征和注意力机制的药物重定位方法及系统。

技术介绍

[0002]药物的研发是一项极其漫长复杂、开销巨大的过程,一款新药要从实验室研发到成功推向市场,需要投入平均13亿美元,耗费10~15年时间,且由于未知的毒副作用或药代特性,得到新药物分子的有效率仅为2.01%。所以挖掘已进入临床阶段的老药物对新疾病潜在治疗作用的药物重定位受到高度关注,广泛应用于癌症、传染病、罕见病等疾病的药物研究中。识别药物

靶蛋白交互作用是药物重定位研究中的关键步骤,通过计算模型预测特定靶蛋白的潜在交互药物能有效提升研发实验效率,降低药物筛选过程耗时,从而加速药物研发、降低药物成本,具有重大的经济价值和研究价值,值得长期关注和重点研究。
[0003]现有的计算药物重定位模型,主要包括以下四种方法,基于矩阵分解的方法、基于网络传播的方法、基于机器学习的方法、基于深度学习的方法等。现有的模型方法存在一定的局限性,如:
[0004]第一、冷启动问题,矩阵分解方法和网络传播方法均仅能对已知交互作用的药物和靶蛋白进行预测,无法处理新加入的药物、靶蛋白信息;
[0005]第二、手动特征问题,机器学习方法和传统的深度学习方法需要依赖专业知识手动构建药物和靶蛋白的特征工程,无法并行优化和推广到通用任务;
[0006]第三、泛化性能问题,高质量有标签药物

靶蛋白交互作用数据的有限性及不合理应用,导致很多相关模型都存在显著的泛化性能问题,在随机切分的测试集上报告出优异的预测指标,但面对新的药物或靶蛋白预测能力急剧下降。

技术实现思路

[0007]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于词向量表征和注意力机制的药物重定位方法及系统,利用Bert预训练模型构建药物和靶蛋白的动态词向量特征,基于注意力机制形成融合特征,通过多个分类器的集成学习来提高预测的准确率和泛化性能,解决药物

靶蛋白交互作用分类预测问题。
[0008]本专利技术采用以下技术方案:
[0009]本专利技术基于词向量表征和注意力机制的药物重定位方法,包括以下步骤:
[0010]S1、建立小分子化合物药物

人体组织靶蛋白交互作用数据集DrugBank;
[0011]S2、分别构建化合物简化分子线性输入规范SMILES字符串动态词向量模型和氨基酸序列动态词向量模型,得到所有药物和靶蛋白片段的词向量表征预训练模型;
[0012]S3、基于步骤S2得到的词向量表征预训练模型,构建基于注意力池化的卷积层,对药物和靶蛋白进行向量建模,得到药物

靶蛋白对的融合特征,构建全连接深度学习网络,得到药物

靶蛋白交互作用预测分类模型BertDTI;将步骤 S1建立的小分子化合物药物


体组织靶蛋白交互作用数据集DrugBank,按照标签反转对抗分布划分成三组训练集和验证集,分别训练一个BertDTI模型,再按照Bagging原则进行集成学习,得到BertDTI集成模型;
[0013]S4、将未知可用药物的新目标靶蛋白与数据集中所有药物分别组合构建待预测的药物

靶蛋白对,利用步骤S3得到的BertDTI集成模型进行预测,按照模型输出概率值从大到小对预测结果排序,得到目标靶蛋白的潜在交互作用药物候选列表,缩小备选药物范围,指导后续的药物重定位。
[0014]具体的,步骤S1中,对小分子化合物药物

人体组织靶蛋白交互作用数据集DrugBank中的原始药物

靶蛋白信息进行清洗和整理,保留每种药物的简化分子线性输入规范和每种蛋白质的一维氨基酸序列。
[0015]具体的,步骤S1具体为:
[0016]S101、抽取已批准上市和实验阶段的小分子药物

靶蛋白阳性交互作用数据;保留阳性交互作用数据条目大于3的药物信息;剔除铁盐、锌盐等过小的无机化合物药物;保留SMILES字符串长度小于300的化合物药物信息;
[0017]S102、从BingdingDB数据库中筛选收集包含药物和靶蛋白的阴性交互作用数据;从开源实验数据继续抽取阴性交互作用药物

靶蛋白数据;剔除不同来源的药物

靶蛋白交互作用数据中的无效数据;
[0018]S103、获得所有药物的唯一确定SMILES字符串表达式以及每种靶蛋白的唯一确定氨基酸序列表达式;得到DrugBank数据集,DrugBank数据集包含 31989条药物

靶蛋白交互作用数据,其中14803个正样本,17186个负样本,涵盖4784种药物和4377种靶蛋白。
[0019]具体的,步骤S2具体为:
[0020]S201、应用主流动态词向量模型Bert在无标签的化合物SMILES数据集上训练词向量表征,得到SMILES字符串的动态词向量预训练模型;
[0021]S202、应用主流动态词向量模型Bert在无标签的蛋白质数据集上训练词向量表征,得到氨基酸片段的动态词向量预训练模型。
[0022]具体的,步骤S3具体为:
[0023]S301、对步骤S1得到的DrugBank数据集进行标签反转对抗分布划分成三组训练集/验证集;
[0024]S302、基于步骤S2得到的动态词向量预训练模型,构建基于注意力池化的卷积策略,将各个SMILES片段词向量和氨基酸序列片段的词向量按照不同结构间的注意力权重合并为整个药物

靶蛋白对的融合向量表征;
[0025]S303、基于步骤S302得到药物和靶蛋白对的融合向量表征,采用全连接网络对药物

靶蛋白交互作用进行二分类预测,采用交叉熵作为模型损失函数,将整个模型记为BertDTI;
[0026]S304、在步骤S301得到的三组标签反转对抗分布数据集上,分别训练三个BertDTI模型,迭代过程以模型在验证集上的损失下降情况和召回率提升情况决定是否停止迭代;
[0027]S305、采用Bagging思想对三个BertDTI模型进行集成学习,按照其各自验证集上的最高召回率作为权重,对模型输出的概率值投票,得到最终的分类预测结果。
[0028]进一步的,步骤S301具体为:
[0029]S3011、将DrugBank数据集中的所有数据按照靶蛋白随机划为3个组合,每个靶蛋
白组合分别记为T1,T2,T3;
[0030]S3012、将T1组合中的所有负样本和T2,T3组合中的所有正样本全部划为训练集、将T1组合中的所有正样本和T2,T3组合中的所有负样本全部划为验证集,由此得到第一组数据集,记为T
A

[0031]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于词向量表征和注意力机制的药物重定位方法,其特征在于,包括以下步骤:S1、建立小分子化合物药物

人体组织靶蛋白交互作用数据集DrugBank;S2、分别构建化合物简化分子线性输入规范SMILES字符串动态词向量模型和氨基酸序列动态词向量模型,得到所有药物和靶蛋白片段的词向量表征预训练模型;S3、基于步骤S2得到的词向量表征预训练模型,构建基于注意力池化的卷积层,对药物和靶蛋白进行向量建模,得到药物

靶蛋白对的融合特征,构建全连接深度学习网络,得到药物

靶蛋白交互作用预测分类模型BertDTI;将步骤S1建立的小分子化合物药物

人体组织靶蛋白交互作用数据集DrugBank,按照标签反转对抗分布划分成三组训练集和验证集,分别训练一个BertDTI模型,再按照Bagging原则进行集成学习,得到BertDTI集成模型;S4、将未知可用药物的新目标靶蛋白与数据集中所有药物分别组合构建待预测的药物

靶蛋白对,利用步骤S3得到的BertDTI集成模型进行预测,按照模型输出概率值从大到小对预测结果排序,得到目标靶蛋白的潜在交互作用药物候选列表,缩小备选药物范围,指导后续的药物重定位。2.根据权利要求1所述的基于词向量表征和注意力机制的药物重定位方法,其特征在于,步骤S1中,对小分子化合物药物

人体组织靶蛋白交互作用数据集DrugBank中的原始药物

靶蛋白信息进行清洗和整理,保留每种药物的简化分子线性输入规范和每种蛋白质的一维氨基酸序列。3.根据权利要求1或2所述的基于词向量表征和注意力机制的药物重定位方法,其特征在于,步骤S1具体为:S101、抽取已批准上市和实验阶段的小分子药物

靶蛋白阳性交互作用数据;保留阳性交互作用数据条目大于3的药物信息;剔除铁盐、锌盐等过小的无机化合物药物;保留SMILES字符串长度小于300的化合物药物信息;S102、从BingdingDB数据库中筛选收集包含药物和靶蛋白的阴性交互作用数据;从开源实验数据继续抽取阴性交互作用药物

靶蛋白数据;剔除不同来源的药物

靶蛋白交互作用数据中的无效数据;S103、获得所有药物的唯一确定SMILES字符串表达式以及每种靶蛋白的唯一确定氨基酸序列表达式;得到DrugBank数据集,DrugBank数据集包含31989条药物

靶蛋白交互作用数据,其中14803个正样本,17186个负样本,涵盖4784种药物和4377种靶蛋白。4.根据权利要求1所述的基于词向量表征和注意力机制的药物重定位方法,其特征在于,步骤S2具体为:S201、应用主流动态词向量模型Bert在无标签的化合物SMILES数据集上训练词向量表征,得到SMILES字符串的动态词向量预训练模型;S202、应用主流动态词向量模型Bert在无标签的蛋白质数据集上训练词向量表征,得到氨基酸片段的动态词向量预训练模型。5.根据权利要求1所述的基于词向量表征和注意力机制的药物重定位方法,其特征在于,步骤S3具体为:S301、对步骤S1得到的DrugBank数据集进行标签反转对抗分布划分成三组训练集/验证集;S302、基于步骤S2得到的动态词向量预训练模型,构建基于注意力池化的卷积策略,将
各个SMILES片段词向量和氨基酸序列片段的词向量按照不同结构间的注意力权重合并为整个药物

靶蛋白对的融合向量表征;S303、基于步骤S302得到药物和靶蛋白对的融合向量表征,采用全连接网络对药物

靶蛋白交互作用进行二分类预测,采用交叉熵作为模型损失函数,将整个模型记为BertDTI;S304、在步骤S301得到的三组标签反转对抗分布数据集上,分别训练三个B...

【专利技术属性】
技术研发人员:祖建钱嘉甜王遇顾玥茜
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1