System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多视图癌症药物反应预测系统技术方案_技高网

一种多视图癌症药物反应预测系统技术方案

技术编号:40355318 阅读:9 留言:0更新日期:2024-02-09 14:40
一种多视图癌症药物反应预测系统,涉及生物信息技术领域,本申请采用多视图的策略代替了通过GCN在细胞系‑药物异质图上聚合已知反应信息的传统方法,充分利用了已知的细胞系‑药物的所有反应信息。引入ILGCN,在一定程度上缓解了高阶GCN出现的过平滑问题。这使得本发明专利技术在提高预测性能的同时,也提供了更稳定和可靠的结果。在GDSC和CCLE两个数据集上进行大量实验,验证了本申请在不同实验设置下优于当前最先进的几个CDR预测方法。具有较好的鲁棒性和泛化性。本申请预测方法充分利用已知细胞系和药物数据,因此本申请的技术方案提升了癌症药物反应预测准确率。

【技术实现步骤摘要】

本专利技术涉及生物信息,具体为一种多视图癌症药物反应预测系统


技术介绍

1、癌症是一种复杂的基因类疾病。由于肿瘤的异质性,同一癌症类型的患者使用相同药物治疗时,效果可能不尽相同。而癌症药物反应预测可以帮助患者制定个性化的治疗方案,在精准医疗中起着关键的作用。

2、随着药物基因组学的不断发展,相关数据库已得以建立,这些数据库提供了许多人类细胞系及其对药物反应的全基因组信息。这些宝贵的数据已广泛应用于构建癌症药物反应(cancer drug response prediction,cdr)预测模型,为精准医疗的发展做出了贡献。

3、近年来,研究人员已经提出了许多cdr预测方法。例如,graphdrp采用图卷积网络(graph convolutional network,gcn)来提取药物的图表示特征,并使用单组学数据来表示细胞系,以进行癌症药物反应预测。deeptta则利用transformer技术来挖掘药物的子结构特征,并采用基因表达组学数据来表示细胞系,用于癌症药物反应预测。tgsa则在tgdrp模型的基础上,利用细胞系和药物之间的相似性信息来更新提取的细胞系和药物特征,并进行癌症药物反应预测。

4、虽然以前的方法在cdr预测方面取得一定进展,但仍存在改进的空间。首先,之前提出的大多数cdr方法未充分利用细胞系和药物的多元数据以及它们之间的反应信息。进而导致提取细胞系与药物的特征不能完全表示细胞系和药物。


技术实现思路

1、本专利技术的目的是:针对现有cdr预测方法未充分利用已知细胞系和药物数据,使得模型对细胞系和药物的特征提取有所遗漏,导致癌症药物反应预测准确率低的问题,提出一种多视图癌症药物反应预测系统。

2、本专利技术为了解决上述技术问题采取的技术方案是:

3、一种多视图癌症药物反应预测系统,包括数据获取模块、细胞系及药物特征提取模块、相似性网络构建模块、相似性信息提取模块以及反应敏感性模块;

4、所述数据获取模块具体执行如下步骤:

5、步骤a1:获取每种药物的pubchem id,并根据pubchem id得到该药物的smiles数据,之后利用rdkit工具包将smiles数据转化为该药物对应的药物分子图;

6、步骤a2:选择癌症细胞系百科全书数据集中包含的细胞系多组学数据,所述细胞系多组学数据包括基因表达数据、拷贝数变异数据和细胞突变数据;

7、步骤a3:在cosmic数据库中获取致癌关键基因,最后在string数据库中收集与致癌关键基因有关的ppi数据,并利用ppi数据作为细胞系中节点的关联关系,所述节点即为基因;

8、步骤a4:选择癌症药物敏感性基因组学中gdsc2版本的数据,之后在gdsc2版本的数据中获取药物和细胞系反应数据,之后根据pubchemid以及细胞系多组学数据在药物和细胞系反应数据中筛选对应的药物和细胞系反应数据,即细胞系-药物反应数据;

9、步骤a5:将细胞系多组学数据作为细胞系中节点的特征表示,并结合节点的关联关系,进而得到细胞系图;

10、所述细胞系及药物特征提取模块具体执行如下步骤:

11、步骤b1:利用gcn对每种药物对应的药物分子图进行图级结构特征提取,对所有药物对应的药物分子图提取完成后,得到图级结构特征矩阵;

12、步骤b2:首先利用espf算法将smiles数据分解为药物子序列,然后通过transformer对药物子序列进行特征提取,得到药物的亚结构特征,对所有药物对应的smiles数据提取完成后,得到药物的亚结构特征矩阵;

13、步骤b3:将图级结构特征矩阵与药物的亚结构特征矩阵进行拼接,得到药物特征矩阵;

14、步骤b4:利用gat在细胞系图中捕获节点的特征和生物网络拓扑信息,并利用节点的特征和生物网络拓扑信息得到细胞系特征矩阵hc∈rnc×fc,其中,nc表示药物的数量,fc表示细胞系特征维度;

15、所述相似性网络构建模块具体执行如下步骤:

16、步骤c1:计算药物特征矩阵中药物特征之间的余弦相似性,进而构建药物相似性网络;

17、步骤c2:计算细胞系特征矩阵中细胞系特征之间的余弦相似性,进而构建细胞系相似性网络;

18、步骤c3:利用knn重构药物相似性网络和细胞系相似性网络;

19、所述相似性信息提取模块具体执行如下步骤:

20、步骤d1:利用细胞系-药物反应数据构建异质图;

21、步骤d2:在异质图上生成药物的特征表示,并将生成的药物的特征表示作为重构后的药物相似性网络中的初始节点特征,并利用ilgcn从药物相似性网络中提取相似性信息,并根据提取到的相似性信息得到最终药物特征表示;

22、步骤d3:在异质图上生成细胞系的特征表示,并将生成的细胞系的特征表示作为重构后的细胞系相似性网络中的初始节点特征,并利用ilgcn从细胞系相似性网络中提取相似性信息,并根据提取到的相似性信息得到最终细胞系特征表示;

23、所述反应敏感性模块具体执行如下步骤:

24、步骤e1:利用fnn统一最终药物特征表示和最终细胞系特征表示的维度;

25、步骤e2:将统一维度后的最终药物特征表示和最终细胞系特征表示进行拼接,得到拼接特征向量表示;

26、步骤e3:将拼接特征向量表示作为基础预测癌细胞系对药物的反应敏感性,并利用fnn和sigmoid函数对癌细胞系对药物的反应敏感性进行预测。

27、进一步的,所述步骤b2中利用espf算法将smiles数据分解为药物子序列的具体步骤为:

28、步骤b21:创建词汇集v,所述词汇集v中包含药物及药物对应的smiles序列;

29、步骤b22:将药物对应的smiles序列进行拆分,得到smiles序列所对应的所有基础子序列,最后利用smiles序列及该smiles序列所对应的所有基础子序列构建药物语料库;

30、步骤b23:遍历所有smiles序列及该smiles序列所对应的所有基础子序列,得到每个smiles序列中连续的基础子序列的全部组合;

31、步骤b24:将所有smiles序列中重复的组合进行统计,并选取重复率最高的连续的基础子序列的组合作为标记子序列,之后将标记子序列加入词汇集v中,并与词汇集v中smiles序列对应;

32、步骤b25:重复步骤b24,直至重复率低于阈值或词汇集v的大小达到最大长度θ为止;

33、步骤b26:利用词汇集v中标记子序列将对应的smiles序列进行划分,得到基础子序列和标记子序列的集合r={r1,r2,....,rβ},β表示药物子结构序列的长度,集合r即为药物子序列的分解结果。

34、进一步的,所述步骤b2中得到药物的亚结构特征矩阵的具体步骤为:

35、步骤b21:将集本文档来自技高网...

【技术保护点】

1.一种多视图癌症药物反应预测系统,其特征在于包括数据获取模块、细胞系及药物特征提取模块、相似性网络构建模块、相似性信息提取模块以及反应敏感性模块;

2.根据权利要求1所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤b2中利用ESPF算法将SMILES数据分解为药物子序列的具体步骤为:

3.根据权利要求2所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤b2中得到药物的亚结构特征矩阵的具体步骤为:

4.根据权利要求3所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤b3中将图级结构特征矩阵与药物的亚结构特征矩阵进行拼接表示为:

5.根据权利要求4所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤b1中,GCN的节点特征更新公式为:

6.根据权利要求5所述的一种多视图癌症药物反应预测系统,其特征在于所述细胞系特征矩阵中细胞系特征更新公式为:

7.根据权利要求6所述的一种多视图癌症药物反应预测系统,其特征在于所述药物相似性网络和细胞系相似性网络表示为:

8.根据权利要求7所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤c3中利用KNN重构后的药物相似性网络和细胞系相似性网络表示为:

9.根据权利要求8所述的一种多视图癌症药物反应预测系统,其特征在于所述ILGCN的传播规则为:

10.根据权利要求9所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤e2中将统一维度后的最终药物特征表示和最终细胞系特征表示进行拼接表示为:

...

【技术特征摘要】

1.一种多视图癌症药物反应预测系统,其特征在于包括数据获取模块、细胞系及药物特征提取模块、相似性网络构建模块、相似性信息提取模块以及反应敏感性模块;

2.根据权利要求1所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤b2中利用espf算法将smiles数据分解为药物子序列的具体步骤为:

3.根据权利要求2所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤b2中得到药物的亚结构特征矩阵的具体步骤为:

4.根据权利要求3所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤b3中将图级结构特征矩阵与药物的亚结构特征矩阵进行拼接表示为:

5.根据权利要求4所述的一种多视图癌症药物反应预测系统,其特征在于所述步骤b1中,gcn...

【专利技术属性】
技术研发人员:滕志霞尹铭鑫李丹汪国华
申请(专利权)人:东北林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1