The invention provides a drug repositioning method based on gene mutation and gene expression, which is used to solve the technical problems of low accuracy of positioning results in the prior art. The method comprises the following steps: processing SNP mutation data, mutation frequency data for all gene expression; data processing standard gene expression data matrix of gene, and calculate the value of significant changes in gene expression values and statistics; mutation of SNP gene mutation frequency of all data in the data rate and the standardization of the gene expression data matrix in the two genes for disease classification; correlation and the drug value; the absolute value of the drug and disease correlation calculation values, and in accordance with the absolute value of these rules from large to small, to sort all drugs, get all drug rank; obtaining candidate drugs with potentially therapeutic effect on disease. The present invention can be used to predict candidate drugs with potential therapeutic efficacy for cancer.
【技术实现步骤摘要】
基于基因突变与基因表达的药物重定位方法
本专利技术属于数据挖掘
,涉及一种药物重定位方法,具体涉及一种基于基因突变与基因表达的药物重定位方法,可用于预测对癌症具有潜在治疗效果的候选药物。
技术介绍
通常一项新药的研发是非常耗费财力与时间的,并且其中也伴随着较高的风险成本。以开发一个新药为例:从提出研究到药品上市,大概需要15年,花费大约8~10亿美金,但是只有10%左右的概率药物能够成功应用到临床中。这样的巨大研发开销以及较高的研发风险导致需要一种新型的手段来降低药物的研发成本。药物的研发成本是导致药物重定位(DrugRepositioning)这一研究方向出现的根本原因。顾名思义,药物重定位也叫作“重审旧药”、“旧药新用”,是指已经上市的药物发现其新的适应症或者新用途,包括对正在临床研究时期或者已经批准上市的药物进行药物重定位。它的核心思想就是发掘旧药潜在的功效,利用这些潜在的功效治愈原本不属于它疗效范围内的疾病。药物重定位的出现在一定程度上有效的规避了新药研究的苛刻条件,即药物代谢动力学与安全性等不确定性明显降低,这就使得药物的研发风险与成本明显减小,与此同时也大大缩短了药物研制周期。目前药物重定位主流的方法可以分为:基于药物副作用、基于人类遗传学和基于转录组学数据等方法。(1)基于药物副作用的药物重定位方法。基于药物副作用的药物重定位方法假说的早期理论依据主要来源于临床实践,其基本原理为:首先通过药物副作用数据构建药物的副作用向量,然后采用向量相似性计算公式计算任意两个药物的副作用相似性,最后,通过副作用相似性构建药物相似性网络等方法筛选副作用 ...
【技术保护点】
一种基于基因突变与基因表达的药物重定位方法,包括如下步骤:(1)处理SNP突变数据:统计SNP突变数据中每个基因在所有疾病状态样本中的突变频率,得到所有基因的突变频率数据;(2)处理基因表达数据,并计算各基因表达变化值及其统计显著值:(2a)获取癌症病人样本集合和正常人样本集合:利用TCGA提供的Barcode编码,对TCGA中基因表达数据的样本种类进行识别,得到癌症病人样本集合和正常人样本集合;(2b)对癌症病人样本集合与正常人样本集合进行合并,得到基因表达矩阵数据;(2c)采用标准分数,对基因表达矩阵数据中的每个基因的表达值进行标准化处理,得到标准化基因表达矩阵数据;(2d)对标准化基因表达矩阵数据进行基因差异表达对照分析,得到标准化基因表达矩阵数据中各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,其中,i表示标准化基因表达矩阵数据中的基因序号;(3)对SNP突变数据中所有基因的突变频率数据和标准化基因表达矩阵数据中的基因进行二次分类:(3a)设置所有基因的突变频率数据中频繁突变频率的阈值为Mine‑MF,各基因表达变化值logFCi差异变化 ...
【技术特征摘要】
1.一种基于基因突变与基因表达的药物重定位方法,包括如下步骤:(1)处理SNP突变数据:统计SNP突变数据中每个基因在所有疾病状态样本中的突变频率,得到所有基因的突变频率数据;(2)处理基因表达数据,并计算各基因表达变化值及其统计显著值:(2a)获取癌症病人样本集合和正常人样本集合:利用TCGA提供的Barcode编码,对TCGA中基因表达数据的样本种类进行识别,得到癌症病人样本集合和正常人样本集合;(2b)对癌症病人样本集合与正常人样本集合进行合并,得到基因表达矩阵数据;(2c)采用标准分数,对基因表达矩阵数据中的每个基因的表达值进行标准化处理,得到标准化基因表达矩阵数据;(2d)对标准化基因表达矩阵数据进行基因差异表达对照分析,得到标准化基因表达矩阵数据中各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,其中,i表示标准化基因表达矩阵数据中的基因序号;(3)对SNP突变数据中所有基因的突变频率数据和标准化基因表达矩阵数据中的基因进行二次分类:(3a)设置所有基因的突变频率数据中频繁突变频率的阈值为Mine-MF,各基因表达变化值logFCi差异变化的阈值为δ,基因表达变化值logFCi的统计显著值P.valuei的显著性阈值为α;(3b)分别对所有基因的突变频率数据的基因和标准化基因表达矩阵数据中的基因进行分类:将所有基因的突变频率数据中突变频率大于Mine-MF的基因作为频繁突变基因,小于Mine-MF的基因为非频繁突变基因,得到频繁突变基因集合和非频繁突变基因集合,同时,利用各基因表达变化值logFCi和各基因表达变化值logFCi的统计显著值P.valuei,对基因表达数据中的基因进行分类,|logFCi|≥δ并且P.valuei≤α的基因为表达值存在差异变化的基因,|logFCi|<δ或者P.valuei>α的基因为表达值不存在差异变化的基因,得到表达值存在差异变化基因集合和表达值不存在差异变化基因集合;(3c)对频繁突变基因集合、非频繁突变基因集合和表达值存在差异变化的基因集合和表达值不存在差异变化的基因集合中的基因进行分类:将频繁突变基因集合作为核心基因集合;挑选属于表达值存在差异变化基因集合且属于非频繁突变基因集合中的基因作为次要基因,得到次要基因集合;将属于非频繁突变基因集合且属于表达值不存在差异变化的基因集合中的基因作为边缘基因,得到边缘基因集合;(4)获取疾病和各药物的相关性值:(4a)将核心基因集合作为疾病特征基因集合,并对疾病特征基因集合进行拆分:将疾病特征基因集合中logFCi>0的基因作为上调基因,并将疾病特征基因集合中logFCi<0的基因作为下调基因,得到上调基因集合Gup和下调基因集合Gdown;(4b)对上调基因集合Gup和下调基因集合Gdown中的基因分别排序:按照各基因表达变化值logFCi由大到小的规则,对上调基因集合Gup中的基因和下调基因集合Gdown中的基因分别进行排序,得到有序上调基因列表和有序下调基因列表;(4c)获取有序药物作用下各基因表达变化值列表:下载CMap中所有药物作用下基因表达谱数据,并计算各药物作用下基因表达谱数据中每个基因表达变化值FoldChangeij,然后按照各药物作用下基因表达谱数据中每个基因表达变化值FoldChangeij由大到小的规则,对各药物作用下基因表达谱数据中的基因进行排序,得到各药物作用下每个基因表达变化值有序列表,其中,j表示药物作用下基因表达谱数据中的基因序号;(4d)计算疾病和各药物的相关性值:将有序上调基因列表作为Kolmogorov-Smirnov的上特征列表,将有序下调基因列表作为Kolmogorov-Smirnov的下特征列表,将各药物作用下每个基因表达变化值有序列表作为Kolmogorov-Smirnov中的参考列表集合,并利用上特征列表、下特征列表和参考列表集合计算疾病和所有药物的相关性值TSr,其中,r表示药物序号;(5)计算疾病和各药物的相关性值TSr的绝对值,并按照这些绝对值由大到小的规则,对所有药物进行排序,得到所有药物的排名;(6)获取对疾病具有潜在治疗效果的候选药物:从相关数据库中下载疾病的已知治疗药物集合Ω,并通过疾病的已知治疗药物集合Ω中的药物在所有药物中的排名分布,计算所有已知治疗药物排名前D(D=10,20,30,...)个药物的准确率PD,将准确率PD=λ的所有药物排名前D个药物中TSr<0且的药物挑选出来,得到所有对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。