【技术实现步骤摘要】
一种甲基化标志物分层筛选的方法及装置
[0001]本专利技术涉及生物信息学领域,具体涉及一种甲基化标志物分层筛选的方法及装置。
技术介绍
[0002]根据国家癌症中心统计,2016年我国新发癌症比例406.4万,世标发病率为186.46/10万。其中,新发病例排名前五的是:肺癌、结直肠癌、胃癌、肝癌以及乳腺癌。早筛、早诊、及时治疗是降低癌症死亡率的有效途径。欧洲医学肿瘤学会(ESMO)指出:西方国家的癌症发病率和致死率在逐年降低,主要是归功于癌症的早期筛查,早期良性腺瘤切除以及癌症病灶的早期治疗。
[0003]目前,临床上虽然有不少的肿瘤标志物,如癌胚抗原(CEA)、甲胎蛋白(AFP)、癌抗原125(CA125)、糖类抗原19
‑
9(CA19
‑
9)、前列腺特异抗原(PSA)等,但是其敏感性或特异性通常不能满足对临床诊断的需求。特别地,某些肿瘤标志物在某些生理情况下或者良性病变也会升高;如:月经期、妊娠早期,肝硬化和慢性活动性肝炎等,可能会使血清CA125升高;胆汁淤积可能导致血清 ...
【技术保护点】
【技术特征摘要】
1.一种对样本进行分层的方法,包括:数据获取步骤,包括获取样本的甲基化修饰数据;预处理步骤,包括对所述甲基化修饰数据进行预处理,获得预处理后的各个类型样本;降维处理步骤,包括对预处理后的各个类型样本分别进行降维处理;分层步骤,包括对经过降维处理之后的样本进行聚类,并确定最佳聚类数目,实现对样本的分层。2.如权利要求1所述的方法,其特征在于,所述降维处理步骤中,针对每一类型样本进行降维处理的方法包括:计算每个探针在目标类型样本中的离散程度,将探针按离散程度从大到小排序,取离散程度排位在预设排名前的探针作为有效特征,对样本进行聚类,根据指标确定最佳聚类数目,实现对各个类型样本的降维;所述降维处理步骤中,所述指标包括方差比准则、间隔统计量、轮廓系数中的至少两种;所述降维处理步骤中,如果有两种或者两种以上的指标的最佳聚类数目一致,则将该最佳聚类数目为最终的最佳聚类数目;否则选取以轮廓系数确定的最佳聚类数目作为最终的最佳聚类数目,实现对各个类型样本的降维;所述降维处理步骤中,对样本进行聚类的方法包括基于层次的聚类算法、基于密度的聚类算法中的至少一种。3.如权利要求1所述的方法,其特征在于,所述降维处理步骤中,还包括分别计算各类中所有样本在每个探针捕获区域的甲基化水平;优选地,所述甲基化水平包含平均甲基化率、甲基化熵、表观多态性、甲基化单倍体负荷或单倍体数目;优选地,所述甲基化水平包含beta值的均值。4.如权利要求1所述的方法,其特征在于,所述分层步骤中,计算每个探针在所有样本中的离散程度,将探针按离散程度从大到小排序,取离散程度排位在预设排名前的探针作为有效特征,对样本进行聚类,根据指标确定最佳聚类数目。5.如权利要求4所述的方法,其特征在于,所述分层步骤中,对样本进行聚类的方法包括如下方法中的至少一种:非加权组平均法、系统发育树邻接法、基于划分的聚类算法、基于层次的聚类算法、基于网络的聚类算法;所述分层步骤中,所述指标包括方差比准则、间隔统计量、轮廓系数中的至少两种。6.如权利要求4所述的方法,其特征在于,所述分层步骤中,若有两种或者两种以上的指标的最佳聚类数目一致,则将该最佳聚类数目为最终的最佳聚类数目;否则取以轮廓系数确定的最佳聚类数目N作为最终的最佳聚类数目;所述分层步骤中,多个类型的样本最终被分为N个分组,每个分组中包含至少一个类型的样本;优选地,所述类型包括癌种、发育谱系、组织类型或细胞类型。7.如权利要求1所述的方法,其特征在于,所述数据获取步骤中,所述样本的甲基化修饰数据来源于数据库;所述数据获取步骤中,所述样本包括组织样本、体液样本中的至少一种;所述数据获取步骤中,所述组织样本包括癌组织、正常组织中的至少一种;
所述数据获取步骤中,所述样本包括癌样本;所述数据获取步骤中,所述癌样本包括泛癌原发肿瘤组织样本;所述数据获取步骤中,所述肿瘤包括肝细胞癌、胆管癌、肺腺癌、肺鳞癌、胃癌、食管癌、结肠癌、直肠腺癌、胰腺癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌、子宫肉瘤、前列腺癌、膀胱尿路上皮癌、肾上腺皮质癌、肾嫌色细胞癌、肾透明细胞癌、肾乳头状细胞癌、头颈部鳞状细胞癌、甲状腺癌、胸腺瘤、间皮瘤、肉瘤、皮肤黑色素瘤、眼黑色素瘤、嗜铬细胞瘤、副神经节瘤、脑低级别胶质瘤、胶质母细胞瘤中的至少一种。8.如权利要求1所述的方法,其特征在于,所述预处理步骤中,所述预处理包括探针过滤、样本过滤所述预处理步骤中,所述探针过滤规则包括:如果探针上下游10bp内含有SNP位点,则剔除该探针;同时剔除性染色体上的探针以及样本缺失值比例超过预设阈值的探针;所述预处理步骤中,所述样本过滤规则包括:采用至少一种算法识别异常样本,如果采用的算法中至少一种算法的识别结果显示样本是异常的,则剔除该样本;用于识别异常样本的算法包括孤立森林、局部异常因子检测算法、基于密度的聚类算法、基于划分的聚类算法、基于层次的聚类算法、基于网络的聚类算法中的至少一种。9.一种分层筛选甲基化标志物的方法,其特征在于,包括:第一层筛选步骤,包括根据权利要求1~8任意一项所述的方法获得的样本的N个分组,筛选N个分组之间的甲基化标志物,即为第一层甲基化标志物;第二层筛选步骤,包括根据权利要求1~8任意一项所述的方法获得的样本的N个分组,分别筛选各个分组内部不同类型样本的甲基化标志物,即为第二层甲基化标志物。10.如权利要求9所述的...
【专利技术属性】
技术研发人员:曾秋红,李俊,黄毅,易鑫,杨玲,
申请(专利权)人:深圳吉因加医学检验实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。