【技术实现步骤摘要】
一种基于RNA测序的癌症溯源方法
[0001]本专利技术涉及肿瘤溯源
,具体涉及一种基于RNA测序的癌症溯源方法。
技术介绍
[0002]不明原发性癌症(Cancerofunknownprimary,CUP)是一种转移性肿瘤,是指尽管进行了标准的诊断检查,但仍然无法找到原发部位的一种疾病。如果不能准确了解患者的原发癌症部位,就不能对患者采取针对性的治疗方法,导致患者不能得到有效的治疗,让患者处于不利地位。所以,准确识别出癌症的原发部位对于患者的治疗是至关重要的。
[0003]目前,各种癌症溯源的方法所采用的数据种类有很多,比如基因表达数据、DNA甲基化数据等等。其中,基于RNA测序数据的方法主要有SCOPE、CUP
‑
AI
‑
Dx、TOD
‑
CUP等等。由于RNA测序数据达到了上万维,这种具有高维特征的特性使得设计合适的机器学习方法变得困难。现有的多种机器学习方法存在模型简单或丢失原始基因信息的问题,比如SCOPE使用简单的全连接网络来预测癌症类别,而简单的 ...
【技术保护点】
【技术特征摘要】
1.一种基于RNA测序的癌症溯源方法,其特征在于,包括以下步骤:S1、获取癌症数据中的TCGA FRESH数据、TCGA FFPE数据和TCGA METASTATIC数据,并对癌症数据进行预处理;S2、基于transformer模型搭建癌症溯源网络模型;S3、采用预处理后的TCGAFRESH数据,对癌症溯源网络模型进行训练,得到训练后的癌症溯源网络模型;S4、将预处理后的TCGAFFPE数据和TCGAMETASTATIC数据作为测试数据,将两个测试数据集分别送入训练后的癌症溯源网络模型中,对癌症进行分类溯源。2.如权利要求1所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S1的具体过程为:S11、从肿瘤基因组图谱TCGA中,获取TCGAFRESH数据、TCGAFFPE数据和TCGAMETASTATIC数据,癌症类型一共为32种;其中,TCGAFRESH数据和TCGA FFPE数据采样来自原发灶,TCGAMETASTATIC数据采样来自转移灶,三种数据的格式都为FPKM;S12、对于每个基因g,如果有一半以上的样本的基因g的表达值为0,则将该基因g删除;再对处理后的所有样本的基因数据进行log转换,具体操作为log(t+1),得到转换后的数据,其中t为基因g的表达值;S13、对每个癌型分配一个标签,一共有32种癌型,标签数从0到31,每个癌型对应一个数字标签;S14、标签分配好后,根据每个样本所属的癌型为每个样本分配标签。3.如权利要求2所述的一种基于RNA测序的癌症溯源方法,其特征在于:步骤S11中所述TCGAFRESH数据、TCGAFFPE数据和TCGAMETASTATIC数据的样本数分别为9697、246和391。4.如权利要求3所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S2的具体过程为:S21、使用一维卷积对RNA测序数据进行处理,将原始RNA数据x转换为适合transformer模型处理的数据x
e
,其中,x∈R
1xW
,x
e
∈R
NxP...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。