基于深度学习的错义突变对临床药效影响预测方法及系统技术方案

技术编号:38153543 阅读:28 留言:0更新日期:2023-07-13 09:19
本发明专利技术提供了一种基于深度学习的错义突变对临床药效影响预测方法及系统,包括:步骤S1:获取并预处理药物和突变蛋白序列数据集;步骤S2:将药物输入数据进行规范化;步骤S3:将突变蛋白序列输入数据进行规范化;步骤S4:根据规范后的数据搭建深度学习模型,输出预测分类。本发明专利技术可以在仅使用药物自身结构属性和突变蛋白序列的条件下进行突变对临床药效影响的预测;由于本发明专利技术使用的特征维度较少,本发明专利技术支持高通量突变药效影响预测,计算开销小;本发明专利技术可以在保持可解释性的前提下,用深度学习方法进行高精度的突变对临床用药影响的预测,且输入特征允许不包含临床用药信息和晶体结构测定实验信息。结构测定实验信息。结构测定实验信息。

【技术实现步骤摘要】
基于深度学习的错义突变对临床药效影响预测方法及系统


[0001]本专利技术涉及生物学领域,具体地,涉及一种基于深度学习的错义突变对临床药效影响预测方法及系统。

技术介绍

[0002]本世纪最大的挑战之一是精准医疗,特别是对个性化疾病药物的探索。例如在癌症领域,近十几年来靶向癌症治疗与生存率的提高显著相关,因此已成为癌症药物治疗的标准策略之一。然而,许多疾病的靶向药物治疗会出现药物耐药的问题,许多研究探讨了耐药机制出现的原因,表示耐药突变的发生可能是其中重要的原因之一,使微环境发生改变从而逃避靶向药物的影响。值得注意的是,寻找成功的治疗策略需要多种实验条件、细胞系和不同的时间序列建模技术,所有这些与传统的假设驱动实验方法都是代价昂贵和耗时的。因此,基于大数据开发计算方法预测突变对临床药效的影响,不仅可以节约计算成本,也可以为临床用药提供指导和预警。
[0003]近年来,大规模药物筛选项目数据的公开发布促进了精准医疗的发展。已经有一些工具被发布用于预测突变对药物临床药效的改变和影响。现有的工具可以大致分为两类,一类是通过收集生物实验测定数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的错义突变对临床药效影响预测方法,其特征在于,包括:步骤S1:获取并预处理药物和突变蛋白序列数据集;步骤S2:将药物输入数据进行规范化;步骤S3:将突变蛋白序列输入数据进行规范化;步骤S4:根据规范后的数据搭建深度学习模型,输出预测分类。2.根据权利要求1所述的基于深度学习的错义突变对临床药效影响预测方法,其特征在于,在所述步骤S1中:从PharmGKB和Civic数据库中下载所有已标注的突变对药效影响的条目;步骤S1.1:去除非单点错义突变的条目、去除有数据缺失的条目、去除包含预设字符的条目、去除数据集内部标签矛盾和判断难度大于预设标准的条目,保留有影响和无影响的条目;步骤S1.2:结合基因突变和转录本信息将突变映射到蛋白层面;步骤S1.3:将不同来源的数据集进行合并,若出现重复条目则保留一条,若出现标签矛盾条目,在来源中都将该条目去除;步骤S1.4:在数据集中去除了DRSP使用的测试集,并将标签编码成数字作为训练和测试数据集:突变会影响药效为1,突变不会影响药效为0。3.根据权利要求1所述的基于深度学习的错义突变对临床药效影响预测方法,其特征在于,在所述步骤S2中:将输入药物的药物名通过PubChem API进行匹配,获取药物的分子结构式信息以及子结构分子指纹;药物的分子结构式进行拓扑图编码并制作成Pytorch格式的数据;药物子结构分子指纹是881维的0

1向量,表示该药物是否包含某种特定的子结构。4.根据权利要求1所述的基于深度学习的错义突变对临床药效影响预测方法,其特征在于,在所述步骤S3中:从蛋白质数据库UniProt中下载突变蛋白序列,将突变前后的序列获取30维的HHBlits特征;将突变前的序列使用AlphaFold2预测蛋白质的三级结构,并计算每个残基对应的二级结构和相对溶剂可及表面积,每个残基的二级结构特征是3维的0

1向量,每个残基的相对溶剂可及表面积特征是1维的连续数值;对突变前后的蛋白质序列进行每个残基20维的One

Hot编码;对于突变前后蛋白的所有特征,以突变位置为中心、前后各保留预设氨基酸的长度、总长为预设个氨基酸的形式制作了特征切片。5.根据权利要求1所述的基于深度学习的错义突变对临床药效影响预测方法,其特征在于,在所述步骤S4中:深度学习框架包括图卷积层、全连接层以及Transformer块;其中,每个Transformer块都由自注意力机制实现,每个输入药物的分子结构式经过图编码被输入图卷积层进行学习,为GCN分支;药物的分子指纹由一个Transformer块进行特征学习,为药物的分子指纹分支;在突变特征学习上,每个突变的二级结构特征、相对溶剂可及表面积特征以及突变前后的HHBlits特征被输入同一个全连接层进行学习,为序列属性分支;突变前后的序列One

Hot特征各自分别由一个Transformer块进行特征学习,为序列One

Hot分支;在深度学习网络的第二层,药物的分子指纹分支的输出和序列属性分支进行了合并,
并输入第二层全连接层进行学习;两个为序列One

Hot分支的输出在合并后输入第二层全连接层进行学习;在深度学习网络的第三层,合并了两个第二层全连接层以及GCN分支的输出,并输入第三层全连接层进行学习,合并完成的输入经过SoftMax激活函数进行预测分类输出。6.一种...

【专利技术属性】
技术研发人员:林关宁刘喆
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1