当前位置: 首页 > 专利查询>陈洪亮专利>正文

仅用于肝癌筛查的特异甲基化检测位点组合的选取方法技术

技术编号:20972505 阅读:93 留言:0更新日期:2019-04-29 17:48
本发明专利技术公开一种仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,本发明专利技术通过一系列的筛选步骤寻找处针对单一肝癌的特异甲基化位点,其主要通过设计不同样本类型的对比,校准个体甲基化差异、肝癌I期甲基化差异、不同组织甲基化差异和不同肿瘤间甲基化差异,从而获得一组特异甲基化位点作为诊断标志物来检测肝癌;本方法筛选出来肝癌特异甲基化位点的敏感性能达到92%以上,特异性能达到97%以上,能在诊断过程中表现为只针对肝癌这个癌种进行检测。

Selection of specific methylation detection site combinations for hepatocellular carcinoma screening only

The invention discloses a method for selecting the combination of specific methylation detection sites only for screening hepatocellular carcinoma. The method searches for specific methylation sites for single hepatocellular carcinoma through a series of screening steps. The method calibrates individual methylation differences, phase I methylation differences of hepatocellular carcinoma, methylation differences of different tissues and methylation differences among different tumors by designing comparison of different sample types. A group of specific methylation sites were obtained as diagnostic markers to detect hepatocellular carcinoma. The sensitivity and specificity of the selected specific methylation sites for hepatocellular carcinoma were over 92% and 97% respectively, and could be detected only for hepatocellular carcinoma in the diagnosis process.

【技术实现步骤摘要】
仅用于肝癌筛查的特异甲基化检测位点组合的选取方法
本专利技术涉及生物信息领域,尤其是涉及一种能通过一系列步骤筛选出一组特异甲基化位点作为肝癌筛查的标志物。
技术介绍
一般人们所说的“癌症”习惯上泛指所有恶性肿瘤。癌症具有细胞分化和增殖异常、生长失去控制、浸润性和转移性等生物学特征,其发生是一个多因子、多步骤的复杂过程,分为致癌、促癌、演进三个过程,与吸烟、感染、职业暴露、环境污染、不合理膳食、遗传因素密切相关。这些基因与基因、基因与环境的相互作用形成一个多层次的复杂生物网络,正是这些复杂网络的变异引起了癌症的发生与发展。也正因为如此,生物数据分析的一个难点就是数据之间存在复杂的关联性。DNA甲基化是一种常见的表观遗传(epigenetic)修饰,DNA甲基化与癌症的发生有着密切的关系,在许多癌症中都发现存在DNA甲基化异常的现象。DNA甲基化具有一定的稳定性,它是癌症发生中的复发事件。近年来许多研究证明,DNA的甲基化异常可以作为一种癌症诊断的生物标志物。通过研究肿瘤和正常样本甲基化数据来尝试找到一种肿瘤早筛,诊断和预后的方法,是目前研究人员的方向。目前,人们对甲基化数据研究大多从单一点分析,很少考虑点之间的关联;要么从特定区域比如启动子或者特定基因出发,根据现有生物学知识过滤很多位点,当然这样做是最有可能找到特异性标志物,但也很容易遗漏一些了解不多但确实相关的位点;近期也有研究利用机器学习来解决上述两个问题:中国专利申请号201711465834.X利用两个模型来分别选取特征甲基化位点和建立分类模型。但该方法列出所有数学模型,通过全部尝试后再根据结果选择最好的,参数也以10的倍数,对读者选用不同数据来试验没有指导意义。中国专利申请号201710785909.6专利提供一种方法,直接利用所有数据建模预测,没有考虑大部分位点与某种疾病不相关,同时选用模型是随机森林和支持向量机,这两个模型不能处理好这种大数据的分析。进而,如何设计并研发出一种更准确地筛选特征位点和建模预测的方法,则是本领域技术人员需要解决的重要技术问题之一。
技术实现思路
本专利技术解决的问题是如何针对肝癌获得一种更准确地筛选特征位点和建模预测的方法。为解决上述问题,本专利技术提供一种仅用于肝癌筛查的特异甲基化检测位点组合的选取方法的技术方案,该方法包括以下步骤:步骤1:从若干数据库中集中肝癌和其他癌症甲基化数据,其中,集中的数据包括正常人的样本及癌症患者的样本;步骤2:比较肝癌I期患者肝癌组织的甲基化数据与癌旁组织的数据,以及正常人血浆甲基化数据,以筛选处于I期肝癌特异性标志物,从而校准了肝组织特异性甲基化,过滤了血浆(体液)中差异小的甲基化位点;步骤3:比较肝癌I期患者肝癌组织和正常组织甲基化数据,找出肝癌和正常组织甲基化差异位点;步骤4:使用神经网络建模并验证。进一步优选的:所述步骤1中若干个数据库均为现有数据库,各现有数据库内下载大量肝癌和其他癌症甲基化数据,以及正常人的样本。进一步优选的:各数据库中的数据均是HumanMethylation450BeadChip(GPL13534)芯片数目,相同的格式数据才能进行对比分析,同时可以排除不同平台的偏差。进一步优选的:所述步骤1的具体操作步骤如下:(a)、从NIH网上进入GDC的TCGA数据库,下载带TCGA-LIHC标签的肝癌DNA甲基化、基因表达数据和临床信息注释文件;(b)、从TCGA数据库下载其他10种癌症的DNA甲基化数据,癌症包括:BLCA(409肿瘤,21正常),BRCA(774肿瘤,82正常),COAD(292肿瘤,38正常),GBM(126肿瘤,2正常),HNSC(523肿瘤,45正常),KIRC(316肿瘤,160正常),LUAD(455肿瘤,32正常),LUSC(365肿瘤,41正常),READ(95肿瘤,7正常)和UCEC(425肿瘤,46正常);(c)、从GEO数据库下载甲基化数据库GSE69270(184名年轻芬兰人的血液),GSE54503(66配对肿瘤和正常),GSE89852(37配对肿瘤和正常),GSE56588(224肿瘤,9个肝硬化,10个正常)。进一步优选的:所述步骤1的还包括表达谱差异基因准备,具体步骤如下:(a)、从步骤1中选出同时具有肿瘤甲基化和表达谱的肝癌1期的21对数据;(b)、将上述(a)选出的肝癌1期的21对数据的肝癌部位和正常部位的表达谱数据以配对方式整理成备用文件,文件行是基因名,列名是样本编号;(c)、将上述(b)的数据文件利用软件是BioconductorpackageedgeR,选用基于广义线性模型的统计方法模式鉴定表达差异基因。计算出每个表达基因的结果,这个结果作为21对肝癌I期和正常组织表达差异的衡量指标;(d)、将上述(c)的计算出的每个基因结果,筛选出FDR小于0.05且绝对值log2(foldchange)大于1的位点,筛选出的被认为是具有差异表达的基因。表达差异包括肝癌组织比正常组织高表达,或者正常组织比肝癌组织高表达两种情况;(e)、上述(d)中选取的条件不限于FDR小于0.05且绝对值log2(foldchange)大于1,是统计中表明两组数据有显著差异的条件。进一步优选的:所述步骤2包括以下步骤:(a)、在步骤1中选出肝癌I期患者肝癌组织和癌旁组织;(b)、根据(a)选的患者,将每个患者正常数据和肿瘤数据整理在一个文件,过滤掉缺失较多的位点,该文件的行是位点名字,列是样本编号;(c)、根据上述(b)文件计算正常和肝癌组织的甲基化差异,记作p值,同时用p.adjust命令对T-test结果进行校正,记作FDR;(d)、根据上述(c)计算的p值和FDR,用P值小于0.05,FDR大于0.2,作为筛选条件选出符合条件的位点备用;p值可选择小于0.05,0.01等统计上常用于作为有明显区别的阈值,FDR可选大于0.2,0.1等统计上常用于作为有明显区别的阈值;(e)、将注释后的差异位点所在基因与步骤(d)找出的差异表达基因统计分析,找出共同基因,这些基因可认为是甲基化差异导致基因表达有差异;这部分位点后续分析;(f)、根据步骤(e)的注释结果,选出位于启动子区的位点(TSS1500|TSS200)备用;(g)、将步骤1中175个1期患者数据和下载的数据库正常人血浆样本甲基化数据合并后,筛选出(e)找出的差异甲基化位点信息整理出一个文件,以找出61个特异性位点;如下:(chr1:119532773、chr1:119532655、chr1:119532189、chr1:119532542、chr1:119532352、chr1:47489195、chr1:119532925、chr1:119532195、chr1:119532320、chr2:9144246、chr2:31806234、chr2:87036626、chr2:207139445、chr2:31806275、chr2:207139197、chr2:10220886、chr2:232260305、chr2:9144605、chr2:207139431、chr3:123167770、chr3:123167522、chr3:123167507、chr3:16本文档来自技高网
...

【技术保护点】
1.仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:该方法包括以下步骤:步骤1:从若干数据库中集中肝癌和其他癌症甲基化数据,其中,集中的数据包括正常人的样本及癌症患者的样本;步骤2:比较肝癌I期患者肝癌组织的甲基化数据与癌旁组织的数据,以及正常人血浆甲基化数据,以筛选处于I期肝癌特异性标志物,从而校准了肝组织特异性甲基化,过滤了血浆(体液)中差异小的甲基化位点;步骤3:比较肝癌I期患者肝癌组织和正常组织甲基化数据,找出肝癌和正常组织甲基化差异位点;步骤4:使用神经网络建模并验证。

【技术特征摘要】
1.仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:该方法包括以下步骤:步骤1:从若干数据库中集中肝癌和其他癌症甲基化数据,其中,集中的数据包括正常人的样本及癌症患者的样本;步骤2:比较肝癌I期患者肝癌组织的甲基化数据与癌旁组织的数据,以及正常人血浆甲基化数据,以筛选处于I期肝癌特异性标志物,从而校准了肝组织特异性甲基化,过滤了血浆(体液)中差异小的甲基化位点;步骤3:比较肝癌I期患者肝癌组织和正常组织甲基化数据,找出肝癌和正常组织甲基化差异位点;步骤4:使用神经网络建模并验证。2.根据权利要求1所述的仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤1中若干个数据库均为现有数据库,各现有数据库内下载大量肝癌和其他癌症甲基化数据,以及正常人的样本。3.根据权利要求2中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:各数据库中的数据均是HumanMethylation450BeadChip(GPL13534)芯片数目,相同的格式数据才能进行对比分析,同时可以排除不同平台的偏差。4.根据权利要求2或3中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤1的具体操作步骤如下:(a)、从NIH网上进入GDC的TCGA数据库,下载带TCGA-LIHC标签的肝癌DNA甲基化、基因表达数据和临床信息注释文件;(b)、从TCGA数据库下载其他10种癌症的DNA甲基化数据,癌症包括:BLCA(409肿瘤,21正常),BRCA(774肿瘤,82正常),COAD(292肿瘤,38正常),GBM(126肿瘤,2正常),HNSC(523肿瘤,45正常),KIRC(316肿瘤,160正常),LUAD(455肿瘤,32正常),LUSC(365肿瘤,41正常),READ(95肿瘤,7正常)和UCEC(425肿瘤,46正常);(c)、从GEO数据库下载甲基化数据库GSE69270(184名年轻芬兰人的血液),GSE54503(66配对肿瘤和正常),GSE89852(37配对肿瘤和正常人),GSE56588(224肿瘤,9个肝硬化,10个正常)。5.根据权利要求4中所述仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤1的还包括表达谱差异基因准备,具体步骤如下:(a)、从步骤1中选出同时具有肿瘤甲基化和表达谱的肝癌1期的21对数据;(b)、将上述(a)选出的肝癌1期的21对数据的肝癌部位和正常部位的表达谱数据以配对方式整理成备用文件,文件行是基因名,列名是样本编号;(c)、将上述(b)的数据文件利用软件是BioconductorpackageedgeR,选用基于广义线性模型的统计方法模式鉴定表达差异基因;计算出每个表达基因的结果,这个结果作为21对肝癌I期和正常组织表达差异的衡量指标;(d)、将上述(c)的计算出的每个基因结果,筛选出FDR小于0.05且绝对值log2(foldchange)大于1的位点,筛选出的被认为是具有差异表达的基因;表达差异包括肝癌组织比正常组织高表达,或者正常组织比肝癌组织高表达两种情况;(e)、上述(d)中选取的条件不限于FDR小于0.05且绝对值log2(foldchange)大于1,是统计中表明两组数据有显著差异的条件。6.根据权利要求1所述的仅用于肝癌筛查的特异甲基化检测位点组合的选取方法,其特征在于:所述步骤2包括以下步骤:(a)、在步骤1中选出肝癌I期患者肝癌组织和癌旁组织;(b)、根据(a)选的患者,将每个患者正常数据和肿瘤数据整理在一个文件,过滤掉缺失较多的位点,该文件的行是位点名字,列是样本编号;(c)、根据上述(b)文件计算正常和肝癌组织的甲基化差异,记作p值,同时用p.adjust命令对T-test结果进行校正,记作FDR;(d)、根据上述(c)计算的p值和FDR,用P值小于0.05,FDR大于0.2,作为筛选条件选出符合条件的位点备用;p值可选择小于0.05,0.01等统计上常用于作为有明显区别的阈值,FDR可选大于0.2,0.1等统计上常用于作为有明显区别的阈值;(e)、将注释后的差异位点所在基因与步骤(d)找出的差异表达基因统计分析,找出共同基因,这些基因可认为是甲基化差异导致基因表达有差异;这部分位点后续分析;(f)、根据步骤(e)的注释结果,选出位于启动子区的位点(TSS1500|TSS200)备用;(g)、将步骤1中175个1期患者数据和下载的数据库正常人血浆样本甲基化数据合并后,筛选出(e)找出的差异甲基化位点信息整理出一个文件,以找出61个特异性位点;如下:(chr1:119532773、chr1:119532655、chr1:119532189、chr1:119532542、chr1:119532352、chr1:47489195、chr1:119532925、chr1:119532195、chr1:119532320、chr2:9144246、chr2:31806234、chr2:87036626、chr2:207139445、chr2:31806275、chr2:207139197、chr2:10220886、chr2:232260305、chr2:9144605、chr2:207139431、chr3:123167770、chr3:123167522、chr3:123167507、chr3:164915196、chr4:148652654、chr5:110406506、chr5:101632310、chr5:101632314、chr6:391189、chr6:391743、chr6:391208、chr7:117119963、chr7:50343883、chr7:98246006、chr7:117119637、chr7:98246001、chr7:50343361、chr7:117119601、chr7:117119611、chr7:50343869、chr7:50344331、chr7:117119938、chr7:117119424、chr8:98290372、chr8:98290229、chr8:98290310、chr8:26372879、chr9:95947146、chr12:6881595、chr12:6881601、chr12:57387318、chr12:6881590、chr12:6881624、chr12:6881629、chr16:68482809、chr16:68482715、chr17:8869136、chr17:4981610、chr17:8869155、chr19:54369571、chr19:54369556、chr19:54369576);(h)、上述...

【专利技术属性】
技术研发人员:陈洪亮
申请(专利权)人:陈洪亮
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1