肿瘤分子分型方法及装置、终端设备及可读存储介质制造方法及图纸

技术编号:28376421 阅读:14 留言:0更新日期:2021-05-08 00:03
本发明专利技术提供了一种肿瘤分子分型方法及装置、终端设备及可读存储介质,其中,方法包括:获取多个肿瘤组织样本的测序数据,并计算拷贝数数值;筛选各肿瘤组织样本中发生变异的基因;对发生变异的基因进行无监督聚类得到多个样本类别;筛选各样本类别样本间基因拷贝数变异显著的基因并无监督聚类得到多个基因类别;基于拷贝数变异计算第一主成分,并通过回归分析确定第一主成分对患者预后的影响;根据第一主成分对患者预后的影响计算各肿瘤组织样本的拷贝数变异分值,并根据该值对各样本类别的样本进行分类,完成对肿瘤的分子分型。其基于每个基因的拷贝数变异进行分子分型,分辨率高、分型精准,且可以显著区分不同分子分型肿瘤患者的预后。

【技术实现步骤摘要】
肿瘤分子分型方法及装置、终端设备及可读存储介质
本专利技术涉及生物医学
,尤其涉及一种肿瘤分子分型方法及装置、终端设备及可读存储介质。
技术介绍
肿瘤是人体中正在发育或成熟的正常细胞,在某些致瘤因素的作用下某些细胞群出现过度增殖或者异常分化而生成的局部肿块。与正常组织细胞相比,这些细胞的新陈代谢不符合正常规律,也不会正常死亡。这种不受约束的生长导致细胞形态和功能异常,从而破坏了正常组织器官的结构并影响其功能。肿瘤是一种由于基因改变导致的疾病。内部或者外部的致瘤因素诱发体细胞基因突变,而失常的基因引发一系列异常生物学途径,从而改变细胞形态与功能。研究表明肿瘤的发生是多基因,多步骤的复杂疾病。恶性肿瘤(癌症)已经成为严重威胁中国人群健康的主要公共卫生问题之一,根据最新的统计数据显示,恶性肿瘤死亡占居民全部死因的23.91%,且近十几年来恶性肿瘤的发病死亡均呈持续上升态势,每年恶性肿瘤所致的医疗花费超过2200亿,防控形势严峻。为了提肿瘤的诊疗水平及治愈率,基于基因组大数据和机器学习算法对肿瘤进行分子分型来推动精准医疗显得尤为重要。胰腺癌在中国是一种较为高发且难治的癌症,据2015年的癌症统计数据显示,胰腺癌的发病率在癌症领域排名第9,死亡率排名第6。以胰腺癌为例,虽然目前存在针对胰腺癌的分子分型的技术方案,但均存在各种缺陷,包括分子分型与预后关系不紧密、不同分子分型的基因组特征与癌变机制不明确、分子分型无法与特定的治疗方案建立联系等。例如,一类技术方案为基于同源重组修复基因(HomologousRecombinationRepair,HRR)是否突变将胰腺癌进行分子分型,但是该技术方案只能区分应用铂类化疗或PARP(poly(ADP-ribose)polymerase)抑制剂治疗患者的预后,对于接受其他治疗方式的胰腺癌患者的预后无法有效区分,可见该分子分型技术方案存在较大的局限性。还有一类技术方案为基于基因组大片段扩增和缺失对胰腺癌患者进行分子分型,但该技术用于进行分子分型的数据分辨率过低,无法获得精准的分子分型,且该结果与患者预后并不具有显著的相关性。再有一类技术方案为基于肿瘤组织的转录谱对胰腺癌患者进行分子分型,但该技术对肿瘤组织的质量要求较高,否则无法获取准确的转录谱数据,限制了该技术的临床应用,且该技术并不能区分所有分型之间的预后差异。
技术实现思路
针对上述问题,本专利技术提供了一种肿瘤分子分型方法及装置、终端设备及可读存储介质,有效解决现有分子分型方法对肿瘤组织的质量要求较高、不能区分所有分型之间的预后差异等技术问题。本专利技术提供的技术方案如下:一方面,本专利技术提供了一种肿瘤分子分型方法,包括:获取多个肿瘤组织样本的测序数据,并基于预先构建的覆盖深度基线计算各基因的拷贝数数值;根据预设的拷贝数变异数阈值和计算得到的拷贝数数值筛选各肿瘤组织样本中发生变异的基因;基于选定基因的拷贝数数值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别;筛选各样本类别样本间基因拷贝数变异达到预设差异的基因;针对筛选得到的基因进一步进行无监督聚类得到针对不同变异特征的多个基因类别;基于拷贝数变异分别计算各基因类别中基因的第一主成分,并通过回归分析的方法确定各基因类别第一主成分对患者预后的影响;根据基因第一主成分对患者预后的影响计算各肿瘤组织样本的拷贝数变异分值CNVscore,并根据无监督聚类结果和拷贝数变异分值CNVscore进一步对各样本类别的样本进行分类,完成对肿瘤的分子分型;其中,拷贝数变异分值CNVscore为:其中,PC1表示肿瘤组织样本中基因拷贝数变异的第一主成分,i表示不利于患者预后的第一主成分,j表示利于患者预后的第一主成分。进一步优选地,所述通过回归分析的方法确定各基因类别第一主成分对患者预后的影响中,包括:分别对各基因类别中包含基因的第一主成分进行回归分析确定相关方向;根据确定的相关方向确定回归系数方向;根据回归系数的方向确定各基因类别中基因拷贝数变异的第一主成分对患者预后的影响;其中,当回归系数为负方向,表示相应基因利于患者预后;当回归系数为正方向,表示相应基因不利于患者预后。进一步优选地,所述根据无监督聚类结果和拷贝数变异分值CNVscore进一步对各样本类别的样本进行分类,完成对肿瘤的分子分型中,包括:根据计算得到的拷贝数变异分值CNVscore、通过遍历的方法选定基因拷贝数变异分值阈值,使得同一样本类别中不同分组的肿瘤组织样本对应患者的预后差异最大;根据选定的基因拷贝数变异分值阈值分别对各样本类别中的肿瘤组织样本进行亚组细分,完成对肿瘤的分子分型。进一步优选地,在所述基于选定基因的拷贝数数值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别及在所述针对筛选得到的基因进一步进行无监督聚类得到针对不同变异特征的多个基因类别中,均采用PAM算法进行无监督聚类,并通过轮廓系数确定最优聚类数目;和/或在所述筛选各样本类别样本间基因拷贝数变异达到预设差异的基因中,采用秩和检验的方法筛选各样本类别样本间基因拷贝数变异达到预设差异的基因,其中,当秩和检验p值小于预设阈值,确定相应基因达到预设差异。进一步优选地,所述基于选定基因的拷贝数数值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别中,包括:对各选定基因的拷贝数数值进行z-score标准化处理;基于计算得到z-score值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别。进一步优选地,所述获取多个肿瘤组织样本的测序数据,基于预先构建的覆盖深度基线得到各基因的拷贝数数值中,包括:获取多个肿瘤组织样本的测序数据并对其进行预处理操作;根据健康人的白细胞测序数据为每个基因捕获区域构建覆盖深度基线;根据预处理操作后的肿瘤组织样本测序数据计算每个基因捕获区域的覆盖深度;依次计算各基因捕获区域的拷贝数数值,其中,针对一基因捕获区域,基于该基因捕获区域在肿瘤组织样本中的覆盖深度和构建的覆盖深度基线比值的log2转化值计算得到拷贝数数值;根据计算得到的基因捕获区域的拷贝数数值得到基因的拷贝数数值,其中,针对一基因,其拷贝数数值由该基因覆盖的所有基因捕获区域的拷贝数数值的集中趋势计算得到。本专利技术还提供了一种肿瘤分子分型装置,包括:基因拷贝数数值计算模块,用于获取多个肿瘤组织样本的测序数据,并基于预先构建的覆盖深度基线计算各基因的拷贝数数值;变异基因筛选模块,用于根据预设的拷贝数变异数阈值和基因拷贝数数值计算模块计算得到的拷贝数数值筛选各肿瘤组织样本中发生变异的基因;第一聚类模块,用于基于变异基因筛选模块选定基因的拷贝数数值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别;差异基因筛选模块,用于筛选第一聚类模块聚类后各样本类别样本间基因拷贝数变异达到预设差异的基因本文档来自技高网
...

【技术保护点】
1.一种肿瘤分子分型方法,其特征在于,包括:/n获取多个肿瘤组织样本的测序数据,并基于预先构建的覆盖深度基线计算各基因的拷贝数数值;/n根据预设的拷贝数变异数阈值和计算得到的拷贝数数值筛选各肿瘤组织样本中发生变异的基因;/n基于选定基因的拷贝数数值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别;/n筛选各样本类别样本间基因拷贝数变异达到预设差异的基因;/n针对筛选得到的基因进一步进行无监督聚类得到针对不同变异特征的多个基因类别;/n基于拷贝数变异分别计算各基因类别中基因的第一主成分,并通过回归分析的方法确定各基因类别第一主成分对患者预后的影响;/n根据基因第一主成分对患者预后的影响计算各肿瘤组织样本的拷贝数变异分值CNVscore,并根据无监督聚类结果和拷贝数变异分值CNV score进一步对各样本类别的样本进行分类,完成对肿瘤的分子分型;其中,拷贝数变异分值CNV score为:/n

【技术特征摘要】
1.一种肿瘤分子分型方法,其特征在于,包括:
获取多个肿瘤组织样本的测序数据,并基于预先构建的覆盖深度基线计算各基因的拷贝数数值;
根据预设的拷贝数变异数阈值和计算得到的拷贝数数值筛选各肿瘤组织样本中发生变异的基因;
基于选定基因的拷贝数数值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别;
筛选各样本类别样本间基因拷贝数变异达到预设差异的基因;
针对筛选得到的基因进一步进行无监督聚类得到针对不同变异特征的多个基因类别;
基于拷贝数变异分别计算各基因类别中基因的第一主成分,并通过回归分析的方法确定各基因类别第一主成分对患者预后的影响;
根据基因第一主成分对患者预后的影响计算各肿瘤组织样本的拷贝数变异分值CNVscore,并根据无监督聚类结果和拷贝数变异分值CNVscore进一步对各样本类别的样本进行分类,完成对肿瘤的分子分型;其中,拷贝数变异分值CNVscore为:



其中,PC1表示肿瘤组织样本中基因拷贝数变异的第一主成分,i表示不利于患者预后的第一主成分,j表示利于患者预后的第一主成分。


2.如权利要求1所述的肿瘤分子分型方法,其特征在于,所述通过回归分析的方法确定各基因类别第一主成分对患者预后的影响中,包括:
分别对各基因类别中包含基因的第一主成分进行回归分析确定相关方向;
根据确定的相关方向确定回归系数方向;
根据回归系数的方向确定各基因类别中基因拷贝数变异的第一主成分对患者预后的影响;其中,当回归系数为负方向,表示相应基因利于患者预后;当回归系数为正方向,表示相应基因不利于患者预后。


3.如权利要求1所述的肿瘤分子分型方法,其特征在于,所述根据无监督聚类结果和拷贝数变异分值CNVscore进一步对各样本类别的样本进行分类,完成对肿瘤的分子分型中,包括:
根据计算得到的拷贝数变异分值CNVscore、通过遍历的方法选定基因拷贝数变异分值阈值,使得同一样本类别中不同分组的肿瘤组织样本对应患者的预后差异最大;
根据选定的基因拷贝数变异分值阈值分别对各样本类别中的肿瘤组织样本进行亚组细分,完成对肿瘤的分子分型。


4.如权利要求1-3任意一项所述的肿瘤分子分型方法,其特征在于,
在所述基于选定基因的拷贝数数值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别及在所述针对筛选得到的基因进一步进行无监督聚类得到针对不同变异特征的多个基因类别中,均采用PAM算法进行无监督聚类,并通过轮廓系数确定最优聚类数目;
和/或在所述筛选各样本类别样本间基因拷贝数变异达到预设差异的基因中,采用秩和检验的方法筛选各样本类别样本间基因拷贝数变异达到预设差异的基因,其中,当秩和检验p值小于预设阈值,确定相应基因达到预设差异。


5.如权利要求1-3任意一项所述的肿瘤分子分型方法,其特征在于,所述基于选定基因的拷贝数数值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别中,包括:
对各选定基因的拷贝数数值进行z-score标准化处理;
基于计算得到z-score值对肿瘤组织样本进行无监督聚类得到针对不同变异特征的多个样本类别。


6.如权利要求1-3任意一项所述的肿瘤分子分型方法,其特征在于,所述获取多个肿瘤组织样本的测序数据,基于预先构建的覆盖深度基线得到各基因的拷贝数数值中,包括:
获取多个肿瘤组织样本的测序数据并对其进行预处理操作;
根据健康人的白细胞测序数据为每个基因捕获区域构建覆盖深度基线;
根据预处理操作后的肿瘤组织样本测序数据计算每个基因捕获区域的覆盖深度;
依次计算各基因捕获区域的拷贝数数值,其中,针对一基因捕获区域,基于该基因捕获区域在肿瘤组织样本中的覆盖深度和构建的覆盖深度基线比值的log2转化值计算得到拷贝数数值;
根据计算得到的基因捕获区域的拷贝数数值得到基因的拷贝数数值,其中,针对一基因,其拷贝数数值由该基因覆盖的所有基因捕获区域的拷贝数数值的集中趋势计算得到。


7.一种肿瘤分子分型装置,其特征在于,包括:

【专利技术属性】
技术研发人员:周杨赵义方璐杨滢何骥杜波
申请(专利权)人:臻和北京生物科技有限公司臻和精准医学检验实验室无锡有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1