一种基于组织器官分化层次关系的癌症类型预测系统和方法技术方案

技术编号:23151391 阅读:48 留言:0更新日期:2020-01-18 14:20
本发明专利技术提供了一种基于组织器官分化层次关系的癌症类型预测系统和方法。该方法包括:获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集;将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级;基于组织器官分化层次关系进行特征选取,即对于每个等级的每种组织器官类型或癌症类型,选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因;对上述基因表达数据进行归一化处理;将上述归一化处理的基因表达数据输入机器学习算法以构建双层机器学习分类模型;以及对将处理后的待检测样本数据输入到双层机器学习分类模型中进行预测。

A cancer type prediction system and method based on the hierarchical relationship of tissue and organ differentiation

【技术实现步骤摘要】
一种基于组织器官分化层次关系的癌症类型预测系统和方法
本专利技术涉及生物医学领域,尤其涉及一种基于组织器官分化层次关系的癌症类型预测系统和方法。
技术介绍
原发肿瘤不明的转移性癌是指通过组织学或细胞学检查,可以证实为转移癌,但病史和临床表现不能提供原发肿瘤的证据。在原发肿瘤不明的转移性癌中,腺癌占40%,原发肿瘤可能为:肺、胰腺、胃肠道、胆、肝、肾、乳腺、前列腺、甲状腺、肾上腺以及生殖细胞的肿瘤;未分化癌占40%,几乎任何部位皆可发生;鳞癌占13%,主要来自肺、头颈部、食管、宫颈、膀胱等部位的肿瘤;其它类型的肿瘤占7%。多原发性恶性肿瘤,是指同一患者的同一器官或多个器官、组织同时或先后发生2种及以上的原发性恶性肿瘤,全身各处均可发生。多处肿瘤同时存在的情况给医生的治疗带来困难。这种癌症一般无法准确判断各处肿瘤是在此处原发还是别的肿瘤转移过来的。对原发肿瘤不明的转移性癌和多原发性恶性肿瘤需要首先判断癌症类型,因此准确判断和分类癌症类型至关重要。现在认为,原发灶不明癌的特征与其假定来源肿瘤相同,采用已知肿瘤的处理方案治疗某些原发灶不明癌的亚型能够获益。目前临床上主要用于判断来源不明的转移癌症的方法有以下几个:(1)免疫组化:根据特定的蛋白标记物来确定细胞类型和组织来源。比如CK7主要存在于乳腺、胰腺、肺、胆道、甲状腺、子宫内膜癌;CK20主要在胃肠、泌尿道上皮。甲胎蛋白(AFP),与肝癌和非精原细胞的生殖细胞有关;前列腺特异性抗原(PSA),与前列腺癌有关,腺癌或有骨骼转移者PSA升高提示前列腺癌。(2)物理成像检查:如磁共振成像(MRI)、增强电脑断层扫描(CT)以及正电子发射计算机断层显像(PET-CT)(3)内窥镜检查:如纤支镜,胃镜,肠镜。(4)基于反转录酶-聚合酶链锁反应(reversetranscription-polymerasechainreaction,RT-PCR)技术的方法:比如美国RosettaGenomics公司的48个微小RNA(microRNA)RT-PCR的方法。(5)基于基因芯片的方法:比如荷兰AGENDIA公司的产品利用基因表达芯片的方法来对癌症类型分类。(6)基于转录组(RNA-Seq)的方法:2014年,IrisH.Wei(RNA-SeqAccuratelyIdentifiesCancerBiomarkerSignaturestoDistinguishTissueofOrigin)等人报道了一种基于RNA-Seq的癌症类型特征基因的选择方法,他们利用logistic回归算法,对8种癌症的分类准确率达到90%。2018年,WilliamF.Flynn等人(Pan-cancermachinelearningpredictorsoftissueoforiginandmolecularsubtype)利用TCGA的RNA-Seq数据和随机森林模型对癌症类型预测,在外部数据的表现上达到78%的敏感性。这些研究的特征基因选取和分类模型的构建方法都是基于所有不同癌症类型直接构建的,没有考虑到不同的癌症器官的分化关系。而上述现有的方法均存在缺点:(1)准确率低。免疫组化的准确率只有20%~30%。物理成像和内窥镜的检查成功率低于免疫组化的方法。虽然根据文献报道基于RT-PCR技术的方法和基于基因芯片的方法的准确率和达到75%~93%,但这些方法的准确率依然低,并且只能应用在在少数几种癌症类型上。(2)可检测的癌症类型有限。基于RT-PCR技术的方法利用几十个分子标记物如microRNA的表达量结合机器学习算法来预测癌症类型,但这种方法只能预测少数几种类型,无法覆盖全身的不同器官。(3)基因芯片技术固有的缺陷。现在公认地,基因芯片技术检测基因表达量不如转录组测序(RNA-seq)好。基因芯片技术所检测的基因表达倍数差异范围小,即无法准确地同时识别出表达量非常高和非常低的基因,可识别的基因表达动态范围小。RNA-seq具有更高的敏感性、更好的技术重复性和更小的技术波动。(4)基于RNA-Seq数据的特征基因选择算法和癌症分类算法的准确性有待提高。虽然目前的一些研究可以利用RNA-Seq数据进行癌症类型预测,但算法的准确性有待提高。尤其涉及到一些不易区分的癌症类型,比如肺鳞癌和肺腺癌的区分、食管癌和胃癌以及结直肠癌的区分。因此,需要一种基于转录组数据的、可以对多种癌症类型进行更加准确的特征基因选取和癌症类型预测的机器学习方法。
技术实现思路
针对现有技术的上述缺点,本专利技术提供了一种基于器官分化层次关系的癌症类型预测系统和方法,可以根据转录组(RNA-Seq)基因表达数据,基于组织器官分化层次关系来进行特征基因选取和多层次模型构建,准确地预测癌症类型,从而可以准确判断肿瘤是在此处原发还是从别的哪个肿瘤转移过来。因此,本专利技术的方法解决了原发肿瘤不明的转移性癌或者多原发性恶性肿瘤难以判断癌症类型的问题。本专利技术的一个方面提出了一种基于组织器官分化层次关系的癌症类型预测系统,包括:获取模块,用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集;组织器官分化层次关系定义模块,用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级;特征选取模块,用于基于所述组织器官分化层次关系进行特征选取,即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型),选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因,得到所选取的基因的每个的表达量的值作为特征值,基因表达量的值采用FPKM值;归一化处理模块,用于对上述基因表达数据进行归一化处理;双层分类模型构建模块,用于将上述归一化处理的基因表达数据输入机器学习算法以构建预测癌症类型的双层机器学习分类模型,即:对于第一等级而言构建出第一等级的分类模型;对于第二等级而言,分别构建出第二等级中每个等级癌症类型的分类模型;以及检测模块,用于对待检测样本,经过转录组测序和生物信息分析,获得整个基因组所有基因的表达数据,并进行特征选取和归一化处理,将处理后的数据输入到所构建的所述双层机器学习分类模型中,首先预测出第一等级的结果,根据第一等级的预测结果选择对应的第二等级的分类模型,再利用第二等级的模型预测出待检测样本的癌症类型。优选地,所述获取模块从公共数据库获取所述转录组基因表达量数据,或者利用自己收集的样本经过转录组测序和生物信息分析获取所述转录组基因表达量数据。优选地,所述公共数据库包括TCGA数据库、ICGC数据库、CPTAC数据库和NCBI数据库。优选地,所述特征选取模块中,对于第一等级,选取用于第一等级分类的特征基因,即对于第一等级的不同器官系统,选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因;对于第二等级的不同器官系统下的癌症类型,分别选取用于每种第二等级分类的特征基因,即选取该种癌症类型和训练集中其它所有癌症本文档来自技高网
...

【技术保护点】
1.一种基于组织器官分化层次关系的癌症类型预测系统,其特征在于,包括:/n获取模块,用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集;/n组织器官分化层次关系定义模块,用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级;/n特征选取模块,用于基于所述组织器官分化层次关系进行特征选取,即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型),选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因,得到所选取的基因的每个的表达量的值作为特征值,基因表达量的值采用FPKM值;/n归一化处理模块,用于对上述基因表达数据进行归一化处理;/n双层分类模型构建模块,用于将上述归一化处理的基因表达数据输入机器学习算法以构建预测癌症类型的双层机器学习分类模型,即:对于第一等级而言构建出第一等级的分类模型;对于第二等级而言,分别构建出第二等级中每个等级癌症类型的分类模型;以及/n检测模块,用于对待检测样本,经过转录组测序和生物信息分析,获得整个基因组所有基因的表达数据,并进行特征选取和归一化处理,将处理后的数据输入到所构建的所述双层机器学习分类模型中,首先预测出第一等级的结果,根据第一等级的预测结果选择对应的第二等级的分类模型,再利用第二等级的模型预测出待检测样本的癌症类型。/n...

【技术特征摘要】
1.一种基于组织器官分化层次关系的癌症类型预测系统,其特征在于,包括:
获取模块,用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集;
组织器官分化层次关系定义模块,用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级;
特征选取模块,用于基于所述组织器官分化层次关系进行特征选取,即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型),选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因,得到所选取的基因的每个的表达量的值作为特征值,基因表达量的值采用FPKM值;
归一化处理模块,用于对上述基因表达数据进行归一化处理;
双层分类模型构建模块,用于将上述归一化处理的基因表达数据输入机器学习算法以构建预测癌症类型的双层机器学习分类模型,即:对于第一等级而言构建出第一等级的分类模型;对于第二等级而言,分别构建出第二等级中每个等级癌症类型的分类模型;以及
检测模块,用于对待检测样本,经过转录组测序和生物信息分析,获得整个基因组所有基因的表达数据,并进行特征选取和归一化处理,将处理后的数据输入到所构建的所述双层机器学习分类模型中,首先预测出第一等级的结果,根据第一等级的预测结果选择对应的第二等级的分类模型,再利用第二等级的模型预测出待检测样本的癌症类型。


2.根据权利要求1所述的系统,其特征在于,所述获取模块从公共数据库获取所述转录组基因表达量数据,或者利用自己收集的样本经过转录组测序和生物信息分析获取所述转录组基因表达量数据。


3.根据权利要求2所述的系统,其特征在于,所述公共数据库包括TCGA数据库、ICGC数据库、CPTAC数据库和NCBI数据库。


4.根据权利要求2所述的系统,其特征在于,所述特征选取模块中,对于第一等级,选取用于第一等级分类的特征基因,即对于第一等级的不同器官系统,选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因;对于第二等级的不同器官系统下的癌症类型,分别选取用于每种第二等级分类的特征基因,即选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因。


5.根据权利要求1所述的系统,其特征在于,所述特征选取模块进一步包括如下子模块:
计算子模块,用于计算每种癌症和其它每种癌症在每个基因上的配对比较的表达差异性的p值,并且对每种癌症类型遍历计算该癌症类型和训练集中其它所有癌症在每个基因表达量上的平均值的比值的log2转换值并进行排序;
基因选取子模块,用于选取所述p值范围为0≤p≤0.05之间的基因,并且在前述选取的基因中进一步选取所述log2转换值大于一定数值X的基因或者该值前N个基因,所述X的范围为X≥1,所述N的范围为N≥20。


6.根据权利要求4所述的系统,其特征在于,所述计算子模块,利用limma软件所包含的F检验方法计算所述p值。


7.根据权利要求1所述的系统,其特征在于,所述归一化处理模块进一步包括如下子模块:
转换子模块,用于将所述FPKM值取log2转换,公式为:
y=log2(x+1)
标准化子模块,用于对所述转换子模块转换后的FPKM值进行Z-score标准化,即标准差标准化,公式为:



其中μ为所有样本数据的均值,σ为所有样本数据的标准差。


8.根据权利要求1所述的系统,其特征在于,所述双层机器学习分类模型构建模块中,机器学习算法包括随机森林、人工神经网络、K最邻近或其组合。


9.根据权利要求1所述的系统,其特征在于,所述双层机器学习分类模型构建模块中进一步包括模型优化模块:
将所述基因表达量数据的样本分为训练集和测试集,用训练集来按照上述方法进行训练、测试集进行测试,以进行交叉验证,从而获得最佳的模型参数。


10.根据权利要求1所述的系统,其特征在于,所述检测模块中,所述待检测样本进行高通量转录组测序并经过生物信息分析,从而获得整个基因组所有基因的表达数据。


11.一种基于组织器官分化层次关系的癌症类...

【专利技术属性】
技术研发人员:李鹏施巍炜王凯
申请(专利权)人:至本医疗科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1