基于基因突变与基因表达的药物重定位方法技术

技术编号:16456838 阅读:39 留言:0更新日期:2017-10-25 21:06
本发明专利技术提出一种基于基因突变与基因表达的药物重定位方法,用于解决现有技术中存在的定位结果准确率低的技术问题。实现步骤为:处理SNP突变数据,得到所有基因的突变频率数据;对基因表达数据进行处理得到标准化基因表达矩阵数据,并计算各基因表达变化值及其统计显著值;对SNP突变数据中所有基因的突变频率数据和标准化基因表达矩阵数据中的基因进行二次分类;获取疾病和各药物的相关性值;计算疾病和各药物的相关性值的绝对值,并按照这些绝对值由大到小的规则,对所有药物进行排序,得到所有药物的排名;获取对疾病具有潜在治疗效果的候选药物。本发明专利技术可用于预测对癌症具有潜在治疗效果的候选药物。

Drug repositioning method based on gene mutation and gene expression

The invention provides a drug repositioning method based on gene mutation and gene expression, which is used to solve the technical problems of low accuracy of positioning results in the prior art. The method comprises the following steps: processing SNP mutation data, mutation frequency data for all gene expression; data processing standard gene expression data matrix of gene, and calculate the value of significant changes in gene expression values and statistics; mutation of SNP gene mutation frequency of all data in the data rate and the standardization of the gene expression data matrix in the two genes for disease classification; correlation and the drug value; the absolute value of the drug and disease correlation calculation values, and in accordance with the absolute value of these rules from large to small, to sort all drugs, get all drug rank; obtaining candidate drugs with potentially therapeutic effect on disease. The present invention can be used to predict candidate drugs with potential therapeutic efficacy for cancer.

【技术实现步骤摘要】
基于基因突变与基因表达的药物重定位方法
本专利技术属于数据挖掘
,涉及一种药物重定位方法,具体涉及一种基于基因突变与基因表达的药物重定位方法,可用于预测对癌症具有潜在治疗效果的候选药物。
技术介绍
通常一项新药的研发是非常耗费财力与时间的,并且其中也伴随着较高的风险成本。以开发一个新药为例:从提出研究到药品上市,大概需要15年,花费大约8~10亿美金,但是只有10%左右的概率药物能够成功应用到临床中。这样的巨大研发开销以及较高的研发风险导致需要一种新型的手段来降低药物的研发成本。药物的研发成本是导致药物重定位(DrugRepositioning)这一研究方向出现的根本原因。顾名思义,药物重定位也叫作“重审旧药”、“旧药新用”,是指已经上市的药物发现其新的适应症或者新用途,包括对正在临床研究时期或者已经批准上市的药物进行药物重定位。它的核心思想就是发掘旧药潜在的功效,利用这些潜在的功效治愈原本不属于它疗效范围内的疾病。药物重定位的出现在一定程度上有效的规避了新药研究的苛刻条件,即药物代谢动力学与安全性等不确定性明显降低,这就使得药物的研发风险与成本明显减小,与此同时也大大缩短了药物研制周期。目前药物重定位主流的方法可以分为:基于药物副作用、基于人类遗传学和基于转录组学数据等方法。(1)基于药物副作用的药物重定位方法。基于药物副作用的药物重定位方法假说的早期理论依据主要来源于临床实践,其基本原理为:首先通过药物副作用数据构建药物的副作用向量,然后采用向量相似性计算公式计算任意两个药物的副作用相似性,最后,通过副作用相似性构建药物相似性网络等方法筛选副作用相似性高的药物对。鉴于药物说明书中记录的药物平均副作用数量接近70条,对数据的分析是一个巨大挑战。虽然大量的副作用数据能发现较多的药物与疾病关联关系,但这些副作用数据计算药物与疾病相关性值的过程中也引入了大量噪声,造成药物重定位预测结果的准确性较低。(2)基于人类遗传学的药物重定位方法。人类遗传学研究为将特定基因与特定人类疾病联系起来提供了的强有力的证据。基于人类遗传学预测药物新疗法的一般过程为:首先从全基因组关联分析GWAS相关数据获取基因与疾病关联关系,然后构建疾病和基因之间的二部网络,最后通过疾病和基因之间的二部网络和药物蛋白质靶标,计算疾病和药物之间的相似性,最后通过生物实验或者已知药物和疾病关系的标准数据验证结果的准确性。然而,由于全基因组关联分析GWAS数据中缺乏基因对疾病的直接作用效果数据,不能确定基因需要激活剂药物还是抑制剂药物,因此,这类方法的预测结果准确率较低,且候选药物数目过多是验证过程中的一个巨大问题。(3)基于转录组学的药物重定位方法。转录组学数据可以提供在疾病与正常或药物治疗组与对照这样的实验条件下基因表达数据。基于转录组学预测药物新疗法的一般过程为:首先,通过对基因表达数据进行差异分析,得到各基因表达变化值。然后,通过设定基因表达变化值的阈值,筛选基因集合作为疾病特征。最后,根据疾病特征集合和药物作用下基因表达谱数据,计算疾病和药物的相似性,并通过生物实验或者已知药物和疾病关系的标准数据验证结果的准确性。例如:斯坦福大学的研究人员使用CMap数据库中提供的药物作用下基因表达谱图,在FDA批准的药物中筛选治疗小细胞肺癌(SmallCellLungCancer,SCLC)的潜在药物。经过筛选他们发现三环抗抑郁药丙咪嗪(lmipramine)能够诱导培养皿、被移植人SCLC肿瘤的免疫受损的小鼠模型以及在内源型人SCLC肿瘤的小鼠模型中SCLC细胞的凋亡。丙咪嗪可以激活应激通路并在SCLC细胞中诱导细胞死亡,且它还能破坏与经递质,抑制经递质的G蛋白偶联受体相关信号的产生。Sirota等人从GeneExpressionOmnibus中下载了100个疾病的基因表达数据,并构建了每个疾病的疾病特征,最终预测出许多新的药物与疾病的关联关系。他们通过实验对西咪替丁对肺癌治疗效果进行了检验,在体外和小鼠异种移植模型的试验中,西咪替丁都能够抑制肺腺癌细胞系A549的生长。以上基于转录组学的药物重定位方法在筛选药物特征或者筛选疾病特征的工程中,仅仅考虑到基因表达值信息,未考虑基因功能状态改变方面的生物信息,这些物特征或者疾病特征包含的生物信息单一,导致预测结果的准确率较低。
技术实现思路
本专利技术的目的在于克服上述现有技术存在的缺陷,提出了一种基于基因突变与基因表达的药物重定位方法,用于解决现有技术中存在的定位结果准确率低的技术问题。本专利技术的技术思路是:首先将SNP突变数据加入到疾病特征筛选过程中,对SNP突变数据和基因表达数据中的基因进行二次分类,得到可靠的疾病特征,然后通过Kolmogorov-Smirnov计算疾病和各药物的相关性值,最终得到对疾病具有潜在治疗效果的候选药物。根据上述技术思路,实现本专利技术目的采取的技术方案包括如下步骤:(1)处理SNP突变数据:统计SNP突变数据中每个基因在所有疾病状态样本中的突变频率,得到所有基因的突变频率数据;(2)处理基因表达数据,并计算各基因表达变化值及其统计显著值:(2a)获取癌症病人样本集合和正常人样本集合:利用TCGA提供的Barcode编码,对TCGA中基因表达数据的样本种类进行识别,样本的Barcode编码第四部分的数字编码在01到09区间内为癌症病人样本,Barcode编码第四部分的数字编码在10到19这个整数据区间内的样本是正常人样本,得到癌症病人样本集合和正常人样本集合;(2b)对癌症病人样本集合与正常人样本集合进行合并,得到基因表达矩阵数据;(2c)采用标准分数,对基因表达矩阵数据中的每个基因的表达值进行标准化处理,得到标准化基因表达矩阵数据;(2d)对标准化基因表达矩阵数据进行基因差异表达对照分析,得到标准化基因表达矩阵数据中各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,其中,i表示标准化基因表达矩阵数据中的基因序号;(3)对SNP突变数据中所有基因的突变频率数据和标准化基因表达矩阵数据中的基因进行二次分类:(3a)设置所有基因的突变频率数据中频繁突变频率的阈值为Mine-MF,各基因表达变化值logFCi差异变化的阈值为δ,基因表达变化值logFCi的统计显著值P.valuei的显著性阈值为α;(3b)分别对所有基因的突变频率数据的基因和标准化基因表达矩阵数据中的基因进行分类:将所有基因的突变频率数据中突变频率大于Mine-MF的基因作为频繁突变基因,小于Mine-MF的基因为非频繁突变基因,得到频繁突变基因集合和非频繁突变基因集合,同时,利用各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,对基因表达数据中的基因进行分类,|logFCi|≥δ并且P.valuei≤α的基因为表达值存在差异变化的基因,|logFCi|<δ或者P.valuei>α的基因为表达值不存在差异变化的基因,得到表达值存在差异变化基因集合和表达值不存在差异变化基因集合;(3c)对频繁突变基因集合、非频繁突变基因集合和表达值存在差异变化的基因集合和表达值不存在差异变化的基因集合中的基因进行分类:将频繁突变基因集合作为核心基因集本文档来自技高网
...
基于基因突变与基因表达的药物重定位方法

【技术保护点】
一种基于基因突变与基因表达的药物重定位方法,包括如下步骤:(1)处理SNP突变数据:统计SNP突变数据中每个基因在所有疾病状态样本中的突变频率,得到所有基因的突变频率数据;(2)处理基因表达数据,并计算各基因表达变化值及其统计显著值:(2a)获取癌症病人样本集合和正常人样本集合:利用TCGA提供的Barcode编码,对TCGA中基因表达数据的样本种类进行识别,得到癌症病人样本集合和正常人样本集合;(2b)对癌症病人样本集合与正常人样本集合进行合并,得到基因表达矩阵数据;(2c)采用标准分数,对基因表达矩阵数据中的每个基因的表达值进行标准化处理,得到标准化基因表达矩阵数据;(2d)对标准化基因表达矩阵数据进行基因差异表达对照分析,得到标准化基因表达矩阵数据中各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,其中,i表示标准化基因表达矩阵数据中的基因序号;(3)对SNP突变数据中所有基因的突变频率数据和标准化基因表达矩阵数据中的基因进行二次分类:(3a)设置所有基因的突变频率数据中频繁突变频率的阈值为Mine‑MF,各基因表达变化值logFCi差异变化的阈值为δ,基因表达变化值logFCi的统计显著值P.valuei的显著性阈值为α;(3b)分别对所有基因的突变频率数据的基因和标准化基因表达矩阵数据中的基因进行分类:将所有基因的突变频率数据中突变频率大于Mine‑MF的基因作为频繁突变基因,小于Mine‑MF的基因为非频繁突变基因,得到频繁突变基因集合和非频繁突变基因集合,同时,利用各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,对基因表达数据中的基因进行分类,|logFCi|≥δ并且P.valuei≤α的基因为表达值存在差异变化的基因,|logFCi|<δ或者P.valuei>α的基因为表达值不存在差异变化的基因,得到表达值存在差异变化基因集合和表达值不存在差异变化基因集合;(3c)对频繁突变基因集合、非频繁突变基因集合和表达值存在差异变化的基因集合和表达值不存在差异变化的基因集合中的基因进行分类:将频繁突变基因集合作为核心基因集合;挑选属于表达值存在差异变化基因集合且属于非频繁突变基因集合中的基因作为次要基因,得到次要基因集合;将属于非频繁突变基因集合且属于表达值不存在差异变化的基因集合中的基因作为边缘基因,得到边缘基因集合;(4)获取疾病和各药物的相关性值:(4a)将核心基因集合作为疾病特征基因集合,并对疾病特征基因集合进行拆分:将疾病特征基因集合中logFCi>0的基因作为上调基因,并将疾病特征基因集合中logFCi<0的基因作为下调基因,得到上调基因集合Gup和下调基因集合Gdown;(4b)对上调基因集合Gup和下调基因集合Gdown中的基因分别排序:按照各基因表达变化值logFCi由大到小的规则,对上调基因集合Gup中的基因和下调基因集合Gdown中的基因分别进行排序,得到有序上调基因列表和有序下调基因列表;(4c)获取有序药物作用下各基因表达变化值列表:下载CMap中所有药物作用下基因表达谱数据,并计算各药物作用下基因表达谱数据中每个基因表达变化值FoldChangeij,然后按照各药物作用下基因表达谱数据中每个基因表达变化值FoldChangeij由大到小的规则,对各药物作用下基因表达谱数据中的基因进行排序,得到各药物作用下每个基因表达变化值有序列表,其中,j表示药物作用下基因表达谱数据中的基因序号;(4d)计算疾病和各药物的相关性值:将有序上调基因列表作为Kolmogorov‑Smirnov的上特征列表,将有序下调基因列表作为Kolmogorov‑Smirnov的下特征列表,将各药物作用下每个基因表达变化值有序列表作为Kolmogorov‑Smirnov中的参考列表集合,并利用上特征列表、下特征列表和参考列表集合计算疾病和所有药物的相关性值TSr,其中,r表示药物序号;(5)计算疾病和各药物的相关性值TSr的绝对值,并按照这些绝对值由大到小的规则,对所有药物进行排序,得到所有药物的排名;(6)获取对疾病具有潜在治疗效果的候选药物:从相关数据库中下载疾病的已知治疗药物集合Ω,并通过疾病的已知治疗药物集合Ω中的药物在所有药物中的排名分布,计算所有已知治疗药物排名前D(D=10,20,30,...)个药物的准确率PD,将准确率PD=λ的所有药物排名前D个药物中TSr<0且...

【技术特征摘要】
1.一种基于基因突变与基因表达的药物重定位方法,包括如下步骤:(1)处理SNP突变数据:统计SNP突变数据中每个基因在所有疾病状态样本中的突变频率,得到所有基因的突变频率数据;(2)处理基因表达数据,并计算各基因表达变化值及其统计显著值:(2a)获取癌症病人样本集合和正常人样本集合:利用TCGA提供的Barcode编码,对TCGA中基因表达数据的样本种类进行识别,得到癌症病人样本集合和正常人样本集合;(2b)对癌症病人样本集合与正常人样本集合进行合并,得到基因表达矩阵数据;(2c)采用标准分数,对基因表达矩阵数据中的每个基因的表达值进行标准化处理,得到标准化基因表达矩阵数据;(2d)对标准化基因表达矩阵数据进行基因差异表达对照分析,得到标准化基因表达矩阵数据中各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,其中,i表示标准化基因表达矩阵数据中的基因序号;(3)对SNP突变数据中所有基因的突变频率数据和标准化基因表达矩阵数据中的基因进行二次分类:(3a)设置所有基因的突变频率数据中频繁突变频率的阈值为Mine-MF,各基因表达变化值logFCi差异变化的阈值为δ,基因表达变化值logFCi的统计显著值P.valuei的显著性阈值为α;(3b)分别对所有基因的突变频率数据的基因和标准化基因表达矩阵数据中的基因进行分类:将所有基因的突变频率数据中突变频率大于Mine-MF的基因作为频繁突变基因,小于Mine-MF的基因为非频繁突变基因,得到频繁突变基因集合和非频繁突变基因集合,同时,利用各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,对基因表达数据中的基因进行分类,|logFCi|≥δ并且P.valuei≤α的基因为表达值存在差异变化的基因,|logFCi|<δ或者P.valuei>α的基因为表达值不存在差异变化的基因,得到表达值存在差异变化基因集合和表达值不存在差异变化基因集合;(3c)对频繁突变基因集合、非频繁突变基因集合和表达值存在差异变化的基因集合和表达值不存在差异变化的基因集合中的基因进行分类:将频繁突变基因集合作为核心基因集合;挑选属于表达值存在差异变化基因集合且属于非频繁突变基因集合中的基因作为次要基因,得到次要基因集合;将属于非频繁突变基因集合且属于表达值不存在差异变化的基因集合中的基因作为边缘基因,得到边缘基因集合;(4)获取疾病和各药物的相关性值:(4a)将核心基因集合作为疾病特征基因集合,并对疾病特征基因集合进行拆分:将疾病特征基因集合中logFCi>0的基因作为上调基因,并将疾病特征基因集合中logFCi<0的基因作为下调基因,得到上调基因集合Gup和下调基因集合Gdown;(4b)对上调基因集合Gup和下调基因集合Gdown中的基因分别排序:按照各基因表达变化值logFCi由大到小的规则,对上调基因集合Gup中的基因和下调基因集合Gdown中的基因分别进行排序,得到有序上调基因列表和有序下调基因列表;(4c)获取有序药物作用下各基因表达变化值列表:下载CMap中所有药物作用下基因表达谱数据,并计算各药物作用下基因表达谱数据中每个基因表达变化值FoldChangeij,然后按照各药物作用下基因表达谱数据中每个基因表达变化值FoldChangeij由大到小的规则,对各药物作用下基因表达谱数据中的基因进行排序,得到各药物作用下每个基因表达变化值有序列表,其中,j表示药物作用下基因表达谱数据中的基因序号;(4d)计算疾病和各药物的相关性值:将有序上调基因列表作为Kolmogorov-Smirnov的上特征列表,将有序下调基因列表作为Kolmogorov-Smirnov的下特征列表,将各药物作用下每个基因表达变化值有序列表作为Kolmogorov-Smirnov中的参考列表集合,并利用上特征列表、下特征列表和参考列表集合计算疾病和所有药物的相关性值TSr,其中,r表示药物序号;(5)计算疾病和各药物的相关性值TSr的绝对值,并按照这些绝对值由大到小的规则,对所有药物进行排序,得到所有药物的排名;(6)获取对疾病具有潜在治疗效果的候选药物:从相关数据库中下载疾病的已知治疗药物集合Ω,并通过疾病的已知治疗药物集合Ω中的药物在所有药物中的排名分布,计算所有已知治疗药物排名前D(D=10,20,30,...)个药物的准确率PD,将准确率PD=λ的所有药物排名前D个药物中TSr<0且的药物挑选出来,得到所有对...

【专利技术属性】
技术研发人员:鱼亮许凤丹
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1