一种基于组织器官分化层次关系的癌症类型预测系统和方法技术方案

技术编号：23151391 阅读：48 留言：0更新日期：2020-01-18 14:20

本发明专利技术提供了一种基于组织器官分化层次关系的癌症类型预测系统和方法。该方法包括：获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集；将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级；基于组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因；对上述基因表达数据进行归一化处理；将上述归一化处理的基因表达数据输入机器学习算法以构建双层机器学习分类模型；以及对将处理后的待检测样本数据输入到双层机器学习分类模型中进行预测。

A cancer type prediction system and method based on the hierarchical relationship of tissue and organ differentiation

全部详细技术资料下载

【技术实现步骤摘要】
一种基于组织器官分化层次关系的癌症类型预测系统和方法
本专利技术涉及生物医学领域，尤其涉及一种基于组织器官分化层次关系的癌症类型预测系统和方法。
技术介绍
原发肿瘤不明的转移性癌是指通过组织学或细胞学检查，可以证实为转移癌，但病史和临床表现不能提供原发肿瘤的证据。在原发肿瘤不明的转移性癌中，腺癌占40％，原发肿瘤可能为：肺、胰腺、胃肠道、胆、肝、肾、乳腺、前列腺、甲状腺、肾上腺以及生殖细胞的肿瘤；未分化癌占40％，几乎任何部位皆可发生；鳞癌占13％，主要来自肺、头颈部、食管、宫颈、膀胱等部位的肿瘤；其它类型的肿瘤占7％。多原发性恶性肿瘤，是指同一患者的同一器官或多个器官、组织同时或先后发生2种及以上的原发性恶性肿瘤，全身各处均可发生。多处肿瘤同时存在的情况给医生的治疗带来困难。这种癌症一般无法准确判断各处肿瘤是在此处原发还是别的肿瘤转移过来的。对原发肿瘤不明的转移性癌和多原发性恶性肿瘤需要首先判断癌症类型，因此准确判断和分类癌症类型至关重要。现在认为，原发灶不明癌的特征与其假定来源肿瘤相同，采用已知肿瘤的处理方案治疗某些原发灶不明癌的亚型能够获益。目前临床上主要用于判断来源不明的转移癌症的方法有以下几个：(1)免疫组化：根据特定的蛋白标记物来确定细胞类型和组织来源。比如CK7主要存在于乳腺、胰腺、肺、胆道、甲状腺、子宫内膜癌；CK20主要在胃肠、泌尿道上皮。甲胎蛋白(AFP)，与肝癌和非精原细胞的生殖细胞有关；前列腺特异性抗原(PSA)，与前列腺癌有关，腺癌或有骨骼转移者PSA升高提示...

【技术保护点】
1.一种基于组织器官分化层次关系的癌症类型预测系统，其特征在于，包括：/n获取模块，用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集；/n组织器官分化层次关系定义模块，用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级；/n特征选取模块，用于基于所述组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型)，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值作为特征值，基因表达量的值采用FPKM值；/n归一化处理模块，用于对上述基因表达数据进行归一化处理；/n双层分类模型构建模块，用于将上述归一化处理的基因表达数据输入机器学习算法以构建预测癌症类型的双层机器学习分类模型，即：对于第一等级而言构建出第一等级的分类模型；对于第二等级而言，分别构建出第二等级中每个等级癌症类型的分类模型；以及/n检测模块，用于对待检测样本，经过转录组测序和生物信息分析，获得整个基因组所有基因的表达数据，并进行特征选取和归一化处理，将处理后的数据输入到所构建的所述双层机器学习分类模型中...

【技术特征摘要】
1.一种基于组织器官分化层次关系的癌症类型预测系统，其特征在于，包括：
获取模块，用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集；
组织器官分化层次关系定义模块，用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级；
特征选取模块，用于基于所述组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型)，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值作为特征值，基因表达量的值采用FPKM值；
归一化处理模块，用于对上述基因表达数据进行归一化处理；
双层分类模型构建模块，用于将上述归一化处理的基因表达数据输入机器学习算法以构建预测癌症类型的双层机器学习分类模型，即：对于第一等级而言构建出第一等级的分类模型；对于第二等级而言，分别构建出第二等级中每个等级癌症类型的分类模型；以及
检测模块，用于对待检测样本，经过转录组测序和生物信息分析，获得整个基因组所有基因的表达数据，并进行特征选取和归一化处理，将处理后的数据输入到所构建的所述双层机器学习分类模型中，首先预测出第一等级的结果，根据第一等级的预测结果选择对应的第二等级的分类模型，再利用第二等级的模型预测出待检测样本的癌症类型。

2.根据权利要求1所述的系统，其特征在于，所述获取模块从公共数据库获取所述转录组基因表达量数据，或者利用自己收集的样本经过转录组测序和生物信息分析获取所述转录组基因表达量数据。

3.根据权利要求2所述的系统，其特征在于，所述公共数据库包括TCGA数据库、ICGC数据库、CPTAC数据库和NCBI数据库。

4.根据权利要求2所述的系统，其特征在于，所述特征选取模块中，对于第一等级，选取用于第一等级分类的特征基因，即对于第一等级的不同器官系统，选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因；对于第二等级的不同器官系统下的癌症类型，分别选取用于每种第二等级分类的特征基因，即选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因。

5.根据权利要求1所述的系统，其特征在于，所述特征选取模块进一步包括如下子模块：
计算子模块，用于计算每种癌症和其它每种癌症在每个基因上的配对比较的表达差异性的p值，并且对每种癌症类型遍历计算该癌症类型和训练集中其它所有癌症在每个基因表达量上的平均值的比值的log2转换值并进行排序；
基因选取子模块，用于选取所述p值范围为0≤p≤0.05之间的基因，并且在前述选取的基因中进一步选取所述log2转换值大于一定数值X的基因或者该值前N个基因，所述X的范围为X≥1，所述N的范围为N≥20。

6.根据权利要求4所述的系统，其特征在于，所述计算子模块，利用limma软件所包含的F检验方法计算所述p值。

7.根据权利要求1所述的系统，其特征在于，所述归一化处理模块进一步包括如下子模块：
转换子模块，用于将所述FPKM值取log2转换，公式为：
y＝log2(x+1)
标准化子模块，用于对所述转换子模块转换后的FPKM值进行Z-score标准化，即标准差标准化，公式为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

8.根据权利要求1所述的系统，其特征在于，所述双层机器学习分类模型构建模块中，机器学习算法包括随机森林、人工神经网络、K最邻近或其组合。

9.根据权利要求1所述的系统，其特征在于，所述双层机器学习分类模型构建模块中进一步包括模型优化模块：
将所述基因表达量数据的样本分为训练集和测试集，用训练集来按照上述方法进行训练、测试集进行测试，以进行交叉验证，从而获得最佳的模型参数。

10.根据权利要求1所述的系统，其特征在于，所述检测模块中，所述待检测样本进行高通量转录组测序并经过生物信息分析，从而获得整个基因组所有基因的表达数据。

11.一种基于组织器官分化层次关系的癌症类...

【专利技术属性】
技术研发人员：李鹏，施巍炜，王凯，
申请(专利权)人：至本医疗科技上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人