基于癌症基因组和非特异性基因标签的大规模药物重定位方法技术

技术编号:19178078 阅读:26 留言:0更新日期:2018-10-17 00:30
本发明专利技术涉及基于癌症基因组和非特异性基因标签的大规模药物重定位方法。本发明专利技术首次揭示一种通过整合分析大规模、不同癌症类型的转录组数据,来提取无组织来源背景的单个人类编码基因突变的表达谱核心标签的方法。基于核心标签,本发明专利技术首次提供了针对人体内环境的、非以往基于模式动物或细胞的、可以全面覆盖8,000多个人类基因组潜在药物靶基因的药物重定位方法,并首次设计了衡量药物‑靶基因相互作用特异性的定量指标,从而实现了大规模全面分析人类药物靶基因的药物重定位分析方法,为药物靶点设计和人类疾病的治疗提供新的途径。

Large scale drug relocalization based on cancer genome and non-specific gene tagging

The invention relates to a large-scale drug repositioning method based on cancer genome and non-specific gene label. The present invention discloses for the first time a method for extracting core labels of single human coding gene mutation expression profiles without tissue source background by integrating and analyzing large-scale transcriptome data of different cancer types. Based on core tags, the present invention provides for the first time a drug relocation method that can cover more than 8,000 potential drug target genes in the human genome and is not previously based on model animals or cells, and for the first time designs quantitative indicators to measure the specificity of drug-target gene interactions to achieve this goal. A large-scale and comprehensive analysis of drug relocation analysis of human drug target genes provides a new way for drug target design and treatment of human diseases.

【技术实现步骤摘要】
基于癌症基因组和非特异性基因标签的大规模药物重定位方法
本专利技术属于生物信息学领域,更具体地,本专利技术涉及基于癌症基因组和非特异性基因标签的大规模药物重定位方法。
技术介绍
目前的制药产业主要面临三大挑战。一,药物研发期间高昂的成本投入,与最终能有效用于临床的药物产出不成比例。二,环境的剧烈变化和人口老龄化趋势使得市场对于药物开发的需要与日俱增。三,目前的药物研发多基于细胞体外筛选和模式动物测试,但最终大多数对人体无效或有强副作用无法用于临床治疗。为了加速药物研发进程并减少风险,人们逐渐将目光转向药物重定位研究。著名的药物重定位案例包括:西地那非,用于治疗肺动脉高血压过高和勃起障碍;萨利多安,用于治疗麻风结节性红斑;以及视黄酸,用于治疗急性早幼粒细胞白血病。通过计算机分析手段对药物基因组数据整合分析,已经在药物重定位研究中取得显著进展。与传统大规模实验筛选相比,利用已有数据的计算机分析弥补了其应用限制并且节省了巨大经济成本。为了利用已有的药物基因组数据研究药物的靶向基因或疾病,人们同时着手建立了供分析单个基因或疾病状态的表达谱标签,然后与药物基因组数据相整合,以预测药物重定位。然而,据本专利技术人所知,能够高通量地同时分析全基因组基因靶点、并且基于真实人体内环境的药物重定位算法还未被实现。阻碍其开展的障碍有四。一,从现有的数据库去挖掘全基因组基因的表达谱标签,会面临数据平台不一致、数据批次差异等问题,使得无法进行统一量化分析。二,少量现存的统一化分析处理的开放数据没有覆盖所有基因靶点,如TheEncyclopediaofDNAElements(ENCODE)数据库仅包含430个转录因子,相较于人类基因组约25,000个基因来说覆盖面太窄。三,现有的用于分析基因表达谱标签的数据多来源于遗传学实验数据,然而这些实验只能在细胞系或模式动物上开展,无法在人体实施,因而真正来源于人体的代表基因功能的表达谱标签尚未被获取。四,现有的所有数据都携带组织来源特异性背景,按传统常规方法分析得到的表达谱标签也会受此干扰。从一个特定细胞、组织或疾病类型的样本中提取的基因表达谱标签,可以用于分析该特定生物学情况下的分子机制。然而,存在于这些基因表达谱标签中的组织来源背景,使其无法与其他组织来源的数据相整合。将两个不同组织来源的基因表达谱标签和药物处理数据一起分析时,无法判定算法预测的结果是由于其组织来源的差异导致的,还是来源于真实的药物和基因的靶定关系。又或者,人们可以限定只分析来源于同一细胞或组织的基因表达谱标签和药物处理数据,但这会大大限制可供研究的药物及靶基因的规模。因此,还需要一些改进的手段来解决上述问题,给出切实可行的大规模药物重定位方法。
技术实现思路
本专利技术的目的在于提供基于癌症基因组和非特异性基因标签的大规模药物重定位方法。在本专利技术的第一方面,提供一种基于多种癌症类型转录组数据整合分析、来构建无组织来源背景的单个人类编码基因突变的表达谱核心标签的方法,该方法包括:(1)以癌症转录组数据库为基础,在多种癌症类型中分别获取基因Gx的各种基因突变类型的表达谱标签;在每一癌症类型中的该基因Gx的各种突变类型(通过与同组织来源正常组比较),定义为该基因的不同表达谱核心标签;获得该基因的所有突变类型的表达谱核心标签合集;(2)对于(1)定义的表达谱核心标签合集,消除组织来源背景;(3)对于(2)的表达谱核心标签合集,移除癌症的背景效应;(4)排除非单基因突变的核心标签,使得每个表达谱核心标签代表单个基因的突变,以获得该基因的基因突变的表达谱核心标签;(5)依次变换基因Gx,重复步骤(1)~(4),提取n种(n为2~30000的正整数)基因的基因突变的表达谱核心标签。本专利技术所述的方法,基于多种癌症类型转录组数据进行大规模整合分析、构建无组织来源背景的单个人类编码基因突变的表达谱核心标签,并基于此,全面分析人类药物靶基因的药物重定位和药物-靶基因相互作用特异性。在一个优选例中,所整合分析的癌症是两种或两种以上的癌症,非单一一种癌症。在另一优选例中,步骤(1)中,将携带基因突变的癌症病人样本与同组织类型的正常样本进行比较,并且将不同突变类型的情况分别分析,从而获取各种基因突变类型的表达谱核心标签。在另一优选例中,步骤(1)中,所述的癌症转录组数据库包括(但不限于):TheCancerGenomeAtlas(TCGA)数据库。在另一优选例中,步骤(2)中,所述的消除组织来源背景是:若基因Gx的一种突变类型只发生在两个组织内,该基因的该突变类型在这两组织内的差异表达基因的重叠部分,作为该基因的该突变类型的核心表达谱核心标签;如果基因Gx的一种突变类型发生在N个组织类型中且N>2,那么,出现在多于N/2(向上取整)个组织类型的差异表达基因集合作为核心表达谱核心标签。在另一优选例中,步骤(3)中,将在超过50%癌症类型(即:相当于步骤(1)中所述的“多种癌症类型”的50%的癌症类型)中一致差异表达的基因作为癌症背景基因,并从表达谱核心标签中移除癌症背景基因,以消除癌症背景的影响。在另一优选例中,所述的基因包括(但不限于)信号通路基因,覆盖人类所有编码基因;较佳地是关键信号通路基因;更佳地是负责编码受体、酶、离子通道、信号级联因子以及转录因子的关键信号通路基因。在另一优选例中,步骤(5)中,使该方法应用于将近30,000个人类编码基因来依次获取它们的表达谱核心标签;依次变换基因Gx,重复步骤(1)~(4),提取n种(n为2~30,000的正整数)基因的基因突变的表达谱核心标签。在本专利技术的第二方面,提供一种药物重定位的方法,所述方法包括:(a)以所述的方法获得基因突变的表达谱核心标签;(b)以药物处理样本(如细胞)表达谱数据库为基础,获取药物处理表达谱标签;(c)将(a)的基因突变的表达谱核心标签与(b)的药物处理表达谱标签进行比较、分析,从而进行药物的重定位。在一个优选例中,步骤(b)中,所述的药物处理样本表达谱数据库包括(但不限于):ConnectivityMap(CMap),NCI-60HumanTumorCellLinesScreen,GenomicsofDrugSensitivityinCancer(GDSC)。在另一优选例中,步骤(c)中,所述的方法包括:(i)将前面任一所述的方法获得基因突变的表达谱核心标签,根据基因的表达谱变化,分为基因突变表达谱标签上调的集和基因突变表达谱标签下调的集;(ii)通过基因集富集分析方法,用因突变导致的表达谱标签的表达水平上调的集和表达水平下调的集分别扫描药物处理表达芯片的表达谱变化排序的基因列表,来得到表达谱标签有显著重叠的药物-基因相互作用关系(较佳地,p值<0.05);(iii)为每个基因突变生成随机标签,替换其表达谱核心标签,重复上述步骤100~5,000次(较佳地800~2000次,如1,000次),以计算错误发现率,得到经过显著性校正筛选后的药物-基因相互作用(较佳地,错误发现率<0.25);(iv)将每一对药物-基因相互作用标记上激活或抑制的药物靶定方式;如果一个基因突变的上调的表达谱核心标签与一个药物处理表达谱标签的富集分数(norm本文档来自技高网
...

【技术保护点】
1.一种基于多种癌症类型转录组数据整合分析、来构建无组织来源背景的单个人类编码基因突变的表达谱核心标签的方法,其特征在于,该方法包括:(1)以癌症转录组数据库为基础,在多种癌症类型中分别获取基因Gx的各种基因突变类型的表达谱标签;在每一癌症类型中的该基因Gx的各种突变类型,定义为该基因的不同表达谱核心标签;获得该基因的所有突变类型的表达谱核心标签合集;(2)对于(1)定义的表达谱核心标签合集,消除组织来源背景;(3)对于(2)的表达谱核心标签合集,移除癌症的背景效应;(4)排除非单基因突变的核心标签,使得每个表达谱核心标签代表单个基因的突变,以获得该基因的基因突变的表达谱核心标签;(5)依次变换基因Gx,重复步骤(1)~(4),提取n种基因的基因突变的表达谱核心标签。

【技术特征摘要】
1.一种基于多种癌症类型转录组数据整合分析、来构建无组织来源背景的单个人类编码基因突变的表达谱核心标签的方法,其特征在于,该方法包括:(1)以癌症转录组数据库为基础,在多种癌症类型中分别获取基因Gx的各种基因突变类型的表达谱标签;在每一癌症类型中的该基因Gx的各种突变类型,定义为该基因的不同表达谱核心标签;获得该基因的所有突变类型的表达谱核心标签合集;(2)对于(1)定义的表达谱核心标签合集,消除组织来源背景;(3)对于(2)的表达谱核心标签合集,移除癌症的背景效应;(4)排除非单基因突变的核心标签,使得每个表达谱核心标签代表单个基因的突变,以获得该基因的基因突变的表达谱核心标签;(5)依次变换基因Gx,重复步骤(1)~(4),提取n种基因的基因突变的表达谱核心标签。2.如权利要求1所述的方法,其特征在于,所整合分析的癌症是两种或两种以上的癌症,非单一一种癌症。3.如权利要求1所述的方法,其特征在于,步骤(1)中,将携带基因突变的癌症病人样本与同组织类型的正常样本进行比较,并且将不同突变类型的情况分别分析,从而获取各种基因突变类型的表达谱核心标签。4.如权利要求1所述的方法,其特征在于,步骤(1)中,所述的癌症转录组数据库包括:TheCancerGenomeAtlas数据库。5.如权利要求1所述的方法,其特征在于,步骤(2)中,所述的消除组织来源背景是:若基因Gx的一种突变类型只发生在两个组织内,该基因的该突变类型在这两组织内的差异表达基因的重叠部分,作为该基因的该突变类型的核心表达谱核心标签;如果基因Gx的一种突变类型发生在N个组织类型中且N>2,那么,出现在多于N/2个组织类型的差异表达基因集合作为核心表达谱核心标签。6.如权利要求1所述的方法,其特征在于,步骤(3)中,将在超过50%癌症类型中一致差异表达的基因作为癌症背景基因,并从表达谱核心标签中移除癌症背景基因,以消除癌症背景的影响。7.如权利要求1所述的方法,其特征在于,所述的基因包括信号通路基因,覆盖人类所有编码基因;较佳地是关键信号通路基因;更佳地是负责编码受体、酶、离子通道、信号级联因子以及转录因子的关键信号通路基因。8.如权利要求1所述的方法,其特征在于,步骤(5)中,使该方法应用于将近30,000个人类编码基因来依次获取它们的表达谱核心标签;依次变换基因Gx,重复步骤(1)~(4),提取n种基因的基因突变的表达谱核心标签。9.一种药物重定位的方法,其特征在于,所述方法包括:(a)以权利要求1~7任一所述的方法获得基因突变的表达谱核心标签;(b)以药物处理样本表达谱数据库为基础,获取药物处理表达谱标签;(c)将(a)的基因突变的表达谱核心标签与(b)的药...

【专利技术属性】
技术研发人员:韩敬东徐迟
申请(专利权)人:中国科学院上海生命科学研究院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1