当前位置: 首页 > 专利查询>兰州大学专利>正文

基于联合式跨域注意力模型预测药物靶标结合性的方法技术

技术编号:38625219 阅读:17 留言:0更新日期:2023-08-31 18:27
本发明专利技术公开了一种基于联合式跨域注意力模型预测药物靶标结合性的方法,包括,从药物、蛋白质数据库中提取生物分子化学结构信息和药物

【技术实现步骤摘要】
基于联合式跨域注意力模型预测药物靶标结合性的方法


[0001]本专利技术属于生化科学与计算化学领域,尤其涉及基于联合式跨域注意力模型预测药物靶标结合性的方法。

技术介绍

[0002]药物靶标可结合性分析是现代医学中一个非常重要的课题,是认识现有药物功能,探究药物靶标结合机制,扩展药物使用的潜在空间,实现药物再利用的重要方法。当前,应用传统医学实验方法研究药物靶标结合性体现出成本高、失败率高、回报周期长的缺陷,并且在某些情况下由于伦理道德问题而限制实验的开展。随着交叉学科的发展,计算机技术越来越多的应用到化学、生物学等领域,用以解决传统化学、生物学实验方法难以获得甚至无法获得的分子信息,服务于研究药物靶标结合性研究。基于人工智能的方法能够有效整合大量生物分子信息,同时得到生化分子的嵌入特征表达,并使用深度神经网络进行特征学习和归纳,实现对潜在药物靶标作用对的预测,克服了传统实验的缺点和不足。
[0003]常用的药物靶标结合性预测模型主要分为基于机器学习(Machine Learning,ML)的模型和基于深度学习(Deep Learning,DL)的模型。基于机器学习的模型主要通过如矩阵分解、随机森林或支持向量机等方法,达到预测药物靶标结合性的目的。这些方法在数据集规模较小或药物靶标作用关系较简单时可以取得一定效果,但是无法适应较大规模的数据集,且无法精确归纳生物分子特征。而基于深度学习的模型虽然相较于机器学习的预测性能取得了一定的提升,但是简单神经网络无法准确的建立复杂的化学结构同文本语义之间的关系,同时,现有的药物

靶标预测任务简单的将任务看作是二分类任务,并且采用了二分类的优化和训练方法,使得模型很难建立由嵌入式特征到结合关系的联系。实际情况中,药物靶标关系间不止存在“一种基因

一种药物”的单一作用模式。此外,大量的医学文献文本信息只是单纯被归纳为二分类的标签,大量有用的信息无法被模型充分学习。因此先前的机器学习和深度学习模型很难取得优异的预测结果。相较于将药物靶标的结合文献语义简单提炼为作用关系作为标签,使用自然语言处理技术单一作用模式,生物分子的异构网络代表更广泛的相互作用关系,其主要体现为相互作用关系复杂、生物分子种类多、数据量庞大等特点。目前较为流行的针对异构网络信息的计算模型,如DTInet(Drug

target interactions prediction net)、GCN

DTI(graph convolution network)等模型存在对于异构网络信息整合不充分、计算成本高的问题。因此这些模型不能准确描述生物分子的化学结构特征和网络拓扑结构特性,导致预测模型性能不足。

技术实现思路

[0004]为解决上述问题,本专利技术提供了如下方案:基于联合式跨域注意力模型预测药物靶标结合性的方法,包括:
[0005]从药物、蛋白质数据库中提取生物分子化学结构信息和药物

靶标作用的文本语义信息作为原始数据,构建数据集;
[0006]基于端到端的联合式架构的耦合神经网络,构建用于预测药物靶标结合性的联合式跨域注意力的初始深度学习模型;
[0007]将所述数据集划分训练集和测试集,通过所述训练集对所述初始深度学习模型进行训练,获得目标深度学习模型;
[0008]基于所述目标深度学习模型进行药物靶标结合性预测,获得预测结果。
[0009]优选地,从药物、蛋白质数据库中提取生物分子化学结构信息的过程包括,
[0010]基于药物、蛋白质数据库中提取药物和靶标蛋白质的化学结构信息;其中,所述药物和靶标蛋白质的化学结构信息包括药物SMILES式化学结构编码,蛋白质SMILES式化学结构编码,药物InChI式化学结构编码,蛋白质InChI式化学结构编码。
[0011]优选地,基于所述目标深度学习模型进行药物靶标结合性预测,获得预测结果的过程包括,
[0012]所述目标深度学习模型包括生物分子

文本语义特征编码器、联合式跨域注意力编码器和联合式跨域注意力解码器;
[0013]基于所述生物分子

文本语义特征编码器通过微调的transformer

encoder进行语义特征分析,生成药物、蛋白质和药物

靶标关系文本集的嵌入式特征;
[0014]基于所述联合式跨域注意力编码器将蛋白质信息和药物特征进行融合;
[0015]基于所述联合式跨域注意力解码器对所述联合式跨域注意力编码器得到的信息进行跨域解码,联合药物

靶标预测文本语义信息,生成描述作用关系的语义文本,并将所述语义文本转化为药物

靶标结合关系的预测结果。
[0016]优选地,通过微调的transformer

encoder进行语义特征分析,生成药物、蛋白质和药物

靶标关系文本集的嵌入式特征的过程包括,
[0017]对药物,靶标进行基于化学结构信息的特征构建,将靶标蛋白质和药物的化学结构分别使用SMILES编码格式和InChI编码格式进行表示,将药物、靶标蛋白质SMILES结构式输入transformer模型中,进行模型训练,获得有效编码药物和靶标蛋白质特征的transformer编码器;基于所述transformer编码器对药物和靶标蛋白质进行编码,并对药物

靶标蛋白质文本信息进行嵌入;使用全连接神经网络对维度进行升维,将蛋白质和药物的化学结构信息转化为高维向量表示,获取内在的语义特征,得到特征向量。
[0018]优选地,对药物,靶标进行基于化学结构信息的特征构建包括药物分子特征构建、蛋白质分子特征构建、药物

靶标结合性文本的语义特征构建。
[0019]优选地,基于所述联合式跨域注意力编码器将蛋白质信息和药物特征进行融合的过程包括,
[0020]将药物特征和靶标蛋白质特征先投影到查询域、真值域和关键域,在蛋白质域和药物域分别得到药物相对于不同蛋白质的注意力系数和靶标蛋白质相对于不同药物的注意力系数值;
[0021]经过全连接神经网络进行升维并将药物

靶标蛋白质进行融合,获得联合的药物

靶标特征对。
[0022]优选地,基于所述联合式跨域注意力解码器获取药物

靶标结合关系的预测结果的过程包括,
[0023]将不同蛋白质和药物进行特征组合,获得不同的蛋白质和药物作用关系对,输入
所述联合式跨域注意力解码器进行预测;
[0024]所述联合式跨域注意力解码器通过cross

attention进行文本特征域和化学结构信息的注意力计算,获得语义空间的嵌入特征;再经全连接网络输出生成描述结合关系的文本,根据所述文本检测关键字获得药物

靶标结合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联合式跨域注意力模型预测药物靶标结合性的方法,其特征在于,包括:从药物、蛋白质数据库中提取生物分子化学结构信息和药物

靶标作用的文本语义信息作为原始数据,构建数据集;基于端到端的联合式架构的耦合神经网络,构建用于预测药物靶标结合性的联合式跨域注意力的初始深度学习模型;将所述数据集划分训练集和测试集,通过所述训练集对所述初始深度学习模型进行训练,获得目标深度学习模型;基于所述目标深度学习模型进行药物靶标结合性预测,获得预测结果。2.根据权利要求1所述的基于联合式跨域注意力模型预测药物靶标结合性的方法,其特征在于,从药物、蛋白质数据库中提取生物分子化学结构信息的过程包括,基于药物、蛋白质数据库中提取药物和靶标蛋白质的化学结构信息;其中,所述药物和靶标蛋白质的化学结构信息包括药物SMILES式化学结构编码,蛋白质SMILES式化学结构编码,药物InChI式化学结构编码,蛋白质InChI式化学结构编码。3.根据权利要求1所述的基于联合式跨域注意力模型预测药物靶标结合性的方法,其特征在于,基于所述目标深度学习模型进行药物靶标结合性预测,获得预测结果的过程包括,所述目标深度学习模型包括生物分子

文本语义特征编码器、联合式跨域注意力编码器和联合式跨域注意力解码器;基于所述生物分子

文本语义特征编码器通过微调的transformer

encoder进行语义特征分析,生成药物、蛋白质和药物

靶标关系文本集的嵌入式特征;基于所述联合式跨域注意力编码器将蛋白质信息和药物特征进行融合;基于所述联合式跨域注意力解码器对所述联合式跨域注意力编码器得到的信息进行跨域解码,联合药物

靶标预测文本语义信息,生成描述作用关系的语义文本,并将所述语义文本转化为药物

靶标结合关系的预测结果。4.根据权利要求3所述的基于联合式跨域注意力模型预测药物靶标结合性的方法,其特征在于,通过微调的transformer

encoder进行语义特征分析,生成药物、蛋白质和药物

靶标关系文本集的嵌入式特征的过程包括,对药物,靶标进行基于化学结构信息的特征构建,将靶标蛋白质和药物的化学结构分别使用SMILES编码格式和InChI编码格式进行表示,将药物、靶标蛋白质SMILES结构式输入transformer模型中,进行模型训练,获得有效编码药物和靶标蛋白质...

【专利技术属性】
技术研发人员:袁永娜张宇豪孟祥博单爽王圣珂
申请(专利权)人:兰州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1