一种非小细胞肺癌相关癌基因筛选与功能分析方法技术

技术编号:15501128 阅读:94 留言:0更新日期:2017-06-03 22:38
本发明专利技术公开了一种非小细胞肺癌相关癌基因筛选与功能分析方法,该方法包括以下步骤:从GEO数据库http://www.ncbi.nlm.nih.gov/geo/中寻找NSCLC相关的mRNA表达芯片结果,利用GEO2R数据库获得mRNA表达结果;利用Venn图寻找两个研究中结果相同mRNA基因表达结果;利用生物信息学技术进行基因富集功能分析。本发明专利技术利用多种在线数据库下载mRNA表达差异基因,寻找在不同研究系列中共同表达差异的基因,以及对共同表达差异基因进行生物信息学分析,为NSCLC的肿瘤标志物筛选、分子发病机制等提供有意义的探索和依据。

Screening and functional analysis of non-small cell lung cancer associated cancer genes

The invention discloses a screening of non-small cell lung cancer related oncogenes and function analysis method, the method includes the following steps: looking for NSCLC related mRNA expression microarray results from the GEO database http://www.ncbi.nlm.nih.gov/geo/, mRNA expression results using GEO2R database; using the Venn chart to find two of the same mRNA gene expression results of science and technology; analysis of gene function enrichment using biological information. The invention uses a variety of online databases to download the mRNA gene expression, find common differentially expressed genes in different research series, as well as the common differentially expressed genes by bioinformatic analysis, tumor marker for NSCLC provides meaningful exploration and basis for screening and molecular pathogenesis.

【技术实现步骤摘要】
一种非小细胞肺癌相关癌基因筛选与功能分析方法
本专利技术属于生物
,涉及一种非小细胞肺癌相关癌基因筛选与功能分析方法,具体地说,涉及一种基于大数据的非小细胞肺癌相关癌基因筛选与功能分析方法。
技术介绍
肺癌是中国,以及全球发病率及死亡率第一的恶性肿瘤。在过去的40年间,肺癌的5年生存率仅从12%上升至16%,最主要原因是诊断时已属晚期,相反,早期诊断的肺癌进行手术后生存率可提高到80%。可见,早发现、早期诊断对肺癌的治疗及预后具有重要的临床意义。当前广泛运用的检测手段包括无创检查(如X线、CT、钼靶摄片等)和有创检查(纤维支气管镜、支气管造影、B超或CT定位下穿刺活检等),但缺乏依从性和普及运用的可能。找寻新的肺癌分子标志物,尤其是血清分子标志物,让肺癌患者能够及时有效的早查、早诊、早治,是提高肺癌患者生存率、降低死亡率的关键科学问题。尽管目前有一些肿瘤标志物,如CA125(癌抗原125)、CA19-9(癌抗原19-9)、CEA(癌胚抗原)等可用于肺癌的检测,但敏感性和特异性均不高,所以目前为止,尚没有理想的可供临床使用的肺癌早期筛查和诊断标志物。不断地发现和鉴定新的肺癌相关癌基因/蛋白仍是一项重要的工作。基因的异常表达研究是进行肺癌早期诊断的一个重要环节。近年来,随着微阵列芯片技术尤其是基因芯片技术的广泛使用,产生了海量的数据,为基因研究提供了高通量的数据资料。基因芯片技术在肺癌发生机制研究中得到了广泛的应用,并为肺癌的早期诊断提供了有效的技术支持。然而另一方面,基因芯片获得的大量数据信息并未能得到充分利用,其中蕴含了大量未知的生物信息,并阻碍了疾病发生分子机制的研究进程。目前,基因芯片数据挖掘问题已引起国内外研究者的广泛关注,如何对这些数据进行有效挖掘已成为生物信息学研究中亟待解决的问题。基因表达数据库(GeneExpressionOmnibus,GEO)是当今最大、最全面的公共基因表达数据资源,包括高通量实验数据的广泛分类,有单通道和双通道以微阵列为基础的对mRNA丰度的测定;基因组DNA和蛋白质分子的实验数据。迄今为止,GEO数据库包含的数据含概10000个杂交实验和来自30种不同生物体。数据库操作简单,数据全面,免费共享,并为后期数据挖掘和信息推广提供了良好的平台。GEO数据库在分子生物学领域中有着广泛的应用前景,为肿瘤相关基因的挖掘与筛选提供了最佳平台。非小细胞肺癌(non-smallcelllungcancer,LSCLC)是肺癌的主要病理类型,本专利技术通过对GEO数据库中NSCLC的数据进行收集,利用生物信息学的方法对收集到的在NSCLC表达异常(上调或下调)的mRNA高通量转录组数据进行整合分析,从而对NSCLC的发病机理进行探究,并为其诊断与治疗提供一定的研究基础。
技术实现思路
本专利技术的目的在于提供一种非小细胞肺癌相关癌基因筛选与功能分析方法,通过对现有数据库中所有涉及非小细胞肺癌的数据进行收集,利用生物信息学方法对收集到非小细胞肺癌的mRNA转录组数据进行差异表达分析,基于大样本大数据处理得到适用于临床应用的非小细胞肺癌诊断标志物,包括研究系列的筛选,利用GEO2R在线工具下载mRNA表达差异基因,寻找在不同研究系列中共同表达差异的基因,以及对共同表达差异基因进行生物信息学分析,为NSCLC的肿瘤标志物筛选、分子发病机制等提供有意义的探索和依据。其具体技术方案为:一种非小细胞肺癌相关癌基因筛选与功能分析方法,包括以下步骤:1)利用GEO数据库筛选符合条件的研究系列:从GEO数据库http://www.ncbi.nlm.nih.gov/geo/中寻找NSCLC相关的mRNA表达芯片结果,经筛选,两个研究系列纳入研究:GSE44077和GSE43458。两个研究均为GPL6244平台,共纳入NSCLC标本135例和正常对照标本96例;2)利用GEO2R数据库获得mRNA表达结果:从GEO2R数据库https://www.ncbi.nlm.nih.gov/geo/geo2r/下载GSE44077和GSE43458两个研究系列中mRNA在NSCLC癌组织和正常肺组织差异表达的数据结果;3)利用Venn图寻找两个研究中结果相同的mRNA基因表达结果:选择两个研究系列中mRNA表达上调或下调超过4倍的基因,其中GSE44077中表达上调4倍以上的有81个基因,下调4倍以上的有24个基因;GSE43458中表达上调4倍以上的有74个基因,下调4倍以上的有13个基因,利用在线Venn图制作工具http://bioinformatics.psb.ugent.be/webtools/Venn/,生成Venn图,两个研究中共同表达上调的有55个基因,共同表达下调的有11个基因;4)利用生物信息学技术进行基因富集功能分析:利用DAVIDhttps://david.ncifcrf.gov/tools.jsp在线软件对差异表达基因进行生物信息学分析,为NSCLC标志物筛选及分子机制研究提供依据。操作步骤如下:提交基因列表并设置参数:进入DAVID网站分析界面(https://david.ncifcrf.gov/tools.jsp),在“upload”下的“step1:EnterGeneList”下面的方框内,将需要分析的66个基因名称粘贴进去,在“step2:SelectIdentifier”下选择”Official_Gene_Symbol”,“Step3:ListType”选择“GeneList”,然后点击“Step4:submitlist”。在“Background”下“PopulationManager--Selectabackground”中选择“Homosapiens”,点击“use”。在“List”下“GeneListManager--Selecttolimitannotationsbyoneormorespecies”中选择“Homesapiens”,点击“SelectSpecies”。即出现结果概要,结果显示64个基因进入功能富集分析模块。功能注释结果(AnnotationSummaryResults)中包括本研究所需要的Gene_Ontology(GO)和Pathway分析结果。进一步,步骤4中基因本体论GO包括了三级结构的标准语言,主要包括分子功能(molecularfunction,MF)、生物学途径(biologicalprocess,BP)和细胞学组件(cellcomponent,CC)。在GO模块下,选择默认参数设置:“count:2”,“EASE:0.1”,统计学显著性检验p值<0.05有意义,结果显示,差异表达的基因主要涉及受体内吞(receptorinternalization),血管生成(angiogenesis),蛋白水解过程(proteolysis),失巢凋亡的负调节(negativeregulationofanoikis),血管收缩(vasoconstriction),细胞表面受体信号通路(cellsurfacereceptorsignalingpathway),缺氧反应(responsetohypoxia),胶原分解代谢过程(collagenca本文档来自技高网
...
一种非小细胞肺癌相关癌基因筛选与功能分析方法

【技术保护点】
一种非小细胞肺癌相关癌基因筛选与功能分析方法,其特征在于,包括以下步骤:1)利用GEO数据库筛选符合条件的研究系列:从GEO数据库http://www.ncbi.nlm.nih.gov/geo/中寻找NSCLC相关的mRNA表达芯片结果,经筛选,两个研究系列纳入研究:GSE44077和GSE43458;两个研究均为GPL6244平台,共纳入NSCLC标本135例和正常对照标本96例;2)利用GEO2R数据库获得mRNA表达结果:从GEO2R数据库https://www.ncbi.nlm.nih.gov/geo/geo2r/下载GSE44077和GSE43458两个研究系列中mRNA在NSCLC癌组织和正常肺组织差异表达的数据结果;3)利用Venn图寻找两个研究中结果相同mRNA基因表达结果:选择两个研究系列中mRNA表达上调或下调超过4倍的基因,其中GSE44077中表达上调4倍以上的有81个基因,下调4倍以上的有24个基因;GSE43458中表达上调4倍以上的有74个基因,下调4倍以上的有13个基因,利用在线Venn图制作工具http://bioinformatics.psb.ugent.be/webtools/Venn/,生成Venn图,两个研究中共同表达上调的有55个基因,共同表达下调的有11个基因;4)利用生物信息学技术进行基因富集功能分析:利用DAVID在线软件对差异表达基因进行生物信息学分析,为NSCLC标志物筛选及分子机制研究提供依据,;操作步骤如下:提交基因列表并设置参数:进入DAVID网站分析界面https://david.ncifcrf.gov/tools.jsp,在“upload”下的“step1:Enter Gene List”下面的方框内,将需要分析的66个基因名称粘贴进去,在“step 2:Select Identifier”下选择”Official_Gene_Symbol”,“Step 3:List Type”选择“Gene List”,然后点击“Step 4:submit list”;在“Background”下“Population Manager‑‑Select a background”中选择“Homo sapiens”,点击“use”;在“List”下“Gene List Manager‑‑Select to limit annotations by one or more species”中选择“Home sapiens”,点击“Select Species”;即出现结果概要,结果显示64个基因进入功能富集分析模块,功能注释结果中包括本研究所需要的Gene_Ontology和Pathway分析结果。...

【技术特征摘要】
1.一种非小细胞肺癌相关癌基因筛选与功能分析方法,其特征在于,包括以下步骤:1)利用GEO数据库筛选符合条件的研究系列:从GEO数据库http://www.ncbi.nlm.nih.gov/geo/中寻找NSCLC相关的mRNA表达芯片结果,经筛选,两个研究系列纳入研究:GSE44077和GSE43458;两个研究均为GPL6244平台,共纳入NSCLC标本135例和正常对照标本96例;2)利用GEO2R数据库获得mRNA表达结果:从GEO2R数据库https://www.ncbi.nlm.nih.gov/geo/geo2r/下载GSE44077和GSE43458两个研究系列中mRNA在NSCLC癌组织和正常肺组织差异表达的数据结果;3)利用Venn图寻找两个研究中结果相同mRNA基因表达结果:选择两个研究系列中mRNA表达上调或下调超过4倍的基因,其中GSE44077中表达上调4倍以上的有81个基因,下调4倍以上的有24个基因;GSE43458中表达上调4倍以上的有74个基因,下调4倍以上的有13个基因,利用在线Venn图制作工具http://bioinformatics.psb.ugent.be/webtools/Venn/,生成Venn图,两个研究中共同表达上调的有55个基因,共同表达下调的有11个基因;4)利用生物信息学技术进行基因富集功能分析:利用DAVID在线软件对差异表达基因进行生物信息学分析,为NSCLC标志物筛选及分子机制研究提供依据,;操作步骤如下:提交基因列表并设置参数:进入DAVID网站分析界面https://david.ncifcrf.gov/tools.jsp,在“upload”下的“step1:EnterGeneList”下面的方框内,将需要分析的66个基因名称粘贴进去,在“step2:SelectIdentifier”下...

【专利技术属性】
技术研发人员:谢伟马跃伟王迪曲蕴慧刘红春代丽萍
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1