同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用技术

技术编号:38675885 阅读:12 留言:0更新日期:2023-09-02 22:51
本发明专利技术公开了同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用,涉及生物医疗技术领域。本发明专利技术发现核小体分布、片段大小分布、末端序列分布、基因组不稳定性、基因表达预测和体细胞拷贝数变异能够作为标志物,用于鉴定待测样本是否存在肝癌、肠癌、食管癌、胰腺癌、肺癌、胃癌、卵巢癌和鼻咽癌中的任意一种或多种,并进行组织溯源,具有检测灵敏度高,特异性好,组织溯源准确度高和检测成本低等优势。势。势。

【技术实现步骤摘要】
同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用


[0001]本专利技术涉及生物医疗
,具体而言,涉及同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用。

技术介绍

[0002]肝癌、肠癌、食管癌、胰腺癌、肺癌、胃癌、卵巢癌和鼻咽癌均是发病率和死亡率较高的癌症。
[0003]肝癌,临床上常用的肝癌检测手段主要有肝癌标志物检测、影像学检查和组织病理学检查。肝癌标志物检测:主要检测血清中的肝癌标志物如AFP和DCP等。这种方法简单、方便、无创伤,但灵敏度和特异性较低,可能会出现误诊或漏诊的情况。影像学检查:如超声、CT和MRI等,可以帮助医生发现肝内肿瘤的存在、大小和位置等信息。这种方法可以发现肝癌的早期病变,但不同的检查方法之间的敏感性和特异性有所不同。组织病理学检查:通过活检等手段获得肿瘤组织,进行病理学检查和组织学分析。这种方法可以提供最为确切的诊断结果,但是需要进行切除或穿刺活检,有一定风险。
[0004]结直肠癌,是一种常见的恶性肿瘤,发病率逐年上升。据统计,全球每年有大约180万人被诊断出结直肠癌,其中,死亡人数高达90万人。结肠镜检查是目前最常用的结直肠癌筛查方法之一。它能够发现早期的结直肠癌或前癌病变,有助于提高治愈率。但结肠镜检查需要肠道准备,且检查过程中会给患者带来一定的不适。粪便隐血试验是一种简单的筛查方法,其可以检测到粪便中隐血的存在,但可能会错过一些早期的结直肠癌病变。
[0005]食管癌,在全球范围内仍然是一种常见的癌症。据统计,全球每年新发食管癌的病例数约为570,000,死亡人数约为509,000。食管癌通常分为两种类型:鳞状细胞癌和腺癌,其中鳞状细胞癌是最常见的类型。目前临床的检测手段和方法:食管镜检查是目前最常用的食管癌检测方法之一,可以直接观察食管内部的病变情况,并进行活组织检查以确定癌细胞的类型和程度。然而,这种方法需要患者接受内镜检查,有一定的风险和不适,另外内窥镜检查费用较高,一些地区的医疗设施和技术水平有限,无法提供这种检查方法。
[0006]胰腺癌,是一种高度恶性的肿瘤,起源于胰腺内的细胞,通常在肿瘤发展到晚期时才会出现症状。其发病率相对较低,但病死率极高,常被称为“沉默的杀手”。目前,临床上常用的检测手段和方法包括:腹部影像学检查:如B超、CT、MRI等。这些检查能够确定肿瘤的位置、大小和是否存在转移,但对于早期胰腺癌的检测并不敏感。血液标志物检测:如CEA、CA19

9等。这些检查可以辅助诊断,但缺乏特异性,误诊率较高。内窥镜检查:可通过口腔或鼻孔插入内窥镜,直接观察到胰腺的病变。这种方法对于早期病变有较高的检出率,但需要专业医生进行操作,对患者也有一定的创伤和不适。总的来说,目前临床上用于胰腺癌的检测手段和方法具有一定的局限性,很难在早期发现肿瘤。
[0007]肺癌,是全球范围内最常见的癌症之一,也是导致死亡的主要原因之一。据统计,全球每年约有200万人死于肺癌,其中中国占了相当大的比例。目前肺癌的主要检测手段包
括CT扫描、X线胸片和支气管镜检查等。其中CT扫描是最常用的检测手段之一,可以在早期发现肺癌。但是,CT也可能会发现一些不是肺癌的结节,这可能会导致不必要的担忧和进一步的检查。此外,一些生物标志物(如CEA、SCC等)也可以用于肺癌的筛查和诊断。此外,肺癌的生物标志物并不总是非常准确,可能会导致假阳性或假阴性的结果。
[0008]胃癌,是一种常见的消化系统恶性肿瘤,其发病率和死亡率在全球范围内较高。早期胃癌通常没有明显症状,晚期症状可能包括消化不良、腹痛、食欲不振和体重减轻等。胃癌通常可以通过胃镜检查或血液检测进行筛查。胃镜检查是目前最常用的胃癌筛查方法之一。它能够发现早期的胃癌或前癌病变,有助于提高治愈率。但胃镜检查需要在空腹状态下进行,且检查过程中会给患者带来一定的不适。血清学检测可以检测到某些肿瘤标志物(如CA72

4、CA19

9等),但其特异性和敏感性并不是很高,可能会导致一定程度的误诊或漏诊。CT扫描可以提供更详细的图像,有助于评估胃癌的大小和位置,但其对早期胃癌的筛查效果不是很理想。
[0009]卵巢癌,是女性生殖系统中最为致命的一种癌症,卵巢癌的发病率相对较高,且多发生在40岁以上的女性中。根据世界卫生组织的数据,卵巢癌是全球女性肿瘤死亡率排名第七的肿瘤。在美国,卵巢癌是导致女性死亡的第五大癌症,每年有超过2万名女性被诊断出患有卵巢癌。目前,卵巢癌的早期筛查和检测方法还不够成熟,临床上常用的方法包括肿瘤标志物检测:CA125是卵巢癌的标志物之一,但是它并不是特异性很高的标志物,有一定的假阳性率和假阴性率。彩超检查:彩超检查是一种非常常见的检查方法,但是它的准确性也比较有限,不能够对所有卵巢癌做出准确的判断。CT/MRI检查:CT/MRI检查能够更为准确地确定卵巢肿瘤的位置、大小和范围,但是它们的成本较高,不适合用于大规模的筛查。
[0010]鼻咽癌(nasopharyngeal carcinoma),是头颈部恶性肿瘤,严重威胁人民的生命健康。鼻咽镜检查是早期发现鼻咽癌的主要手段,具有无创、简便、准确等优点,但对于深部肿瘤、病灶不明显的病例,可能会漏诊。影像学检查能够提供较全面的肿瘤信息,但不能确定肿瘤的恶性程度。血清学检测可以辅助早期诊断,但并非所有鼻咽癌患者的血清中都能检测到相关标志物。
[0011]当前临床上使用的癌症或肿瘤检测产品大多限定为单个特定的癌种或肿瘤,多癌种早期检测(multi

cancer early detection,MCED)技术的兴起,对癌症或肿瘤筛查诊断领域的发展有着划时代意义。相较于单癌种或单一肿瘤检测,多癌种或多种肿瘤检测能够实现一次检测多种癌症(包括多种尚无推荐筛查方法的癌症或肿瘤),已成为行业未来的必然发展趋势。
[0012]鉴于此,特提出本专利技术。

技术实现思路

[0013]本专利技术的目的在于提供同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用。
[0014]本专利技术是这样实现的:
[0015]第一方面,本专利技术实施例提供了检测生物标志物或其组合的试剂组合在制备检测或辅助检测肿瘤的产品中的应用,所述生物标志物或其组合包括以下六类标志物中的任意一种或多种的组合:核小体分布类标志物、片段大小分布类标志物、末端序列分布类标志
物、基因组不稳定性类标志物、基因表达预测类标志物和体细胞拷贝数变异类标志物;其中,所述核小体分布类标志物将目的基因或其转录本对应的核小体分布特征作为标志物,包括表2所示1~247项中的任意一种或多种标志物的组合;所述片段大小分布类标志物将指定窗口内的片段大小分布特征作为标志物,包括表3所示1~335项中的任意一种或多种标志物的组合,其中,chr1:6000000:8000000_frac_P160_180代表chr1:6000000:8000000窗口内,长度在160~180bp内的读段的分布情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.检测生物标志物或其组合的试剂组合在制备检测或辅助检测肿瘤的产品中的应用,其特征在于,所述生物标志物或其组合包括以下六类标志物中的任意一种或多种的组合:核小体分布类标志物、片段大小分布类标志物、末端序列分布类标志物、基因组不稳定性类标志物、基因表达预测类标志物和体细胞拷贝数变异类标志物;其中,所述核小体分布类标志物将目的基因或其转录本对应的核小体分布特征作为标志物,包括下表所示1~247项中的任意一种或多种标志物的组合;
所述片段大小分布类标志物将指定窗口内的片段大小分布特征作为标志物,包括下表所示1~335项中的任意一种或多种标志物的组合,其中,Chr:X1~X2为指定窗口,frac_PX3_X4是指长度在X3~X4以内的读段的分布特征;
所述末端序列分布类标志物将序列长度≤170bp且比对至参考基因组的位置上游4bp的序列为目标末端序列的读段的分布特征作为标志物,包括下表所示1~77项中的任意一种或多种标志物的组合;
所述基因组不稳定性类标志物将目标窗口内的基因组不稳定性特征作为标志物,包括下表所示1~78项中的任意一种或多种标志物的组合;标志物序号标志物的目标窗口标志物序号标志物的目标窗口1chr1_8000000_1000000040chr7_52000000_540000002chr1_170000000_17200000041chr7_62000000_64000000
3chr1_172000000_17400000042chr7_106000000_1080000004chr1_186000000_18800000043chr7_116000000_1180000005chr1_214000000_21600000044chr7_152000000_1540000006chr2_12000000_1400000045chr7_154000000_1560000007chr2_14000000_1600000046chr8_30000000_320000008chr2_20000000_2200000047chr8_54000000_560000009chr2_32000000_3400000048chr8_72000000_7400000010chr2_110000000_11200000049chr9_66000000_6800000011chr2_118000000_12000000050chr9_102000000_10400000012chr2_124000000_12600000051chr10_36000000_3800000013chr2_130000000_13200000052chr10_74000000_7600000014chr2_136000000_13800000053chr11_50000000_5200000015chr2_168000000_17000000054chr11_90000000_9200000016chr2_226000000_22800000055chr11_100000000_10200000017chr3_6000000_800000056chr12_34000000_3600000018chr3_66000000_6800000057chr12_44000000_4600000019chr3_130000000_13200000058chr13_102000000_10400000020chr3_158000000_16000000059chr13_110000000_11200000021chr3_178000000_18000000060chr14_76000000_7800000022chr4_18000000_2000000061chr15_40000000_4200000023chr4_38000000_4000000062chr15_64000000_6600000024chr4_52000000_5400000063chr16_68000000_7000000025chr5_2000000_400000064chr16_82000000_8400000026chr5_22000000_2400000065chr17_1_200000027chr5_34000000_3600000066chr17_28000000_3000000028chr5_46000000_4800000067chr18_34000000_3600000029chr5_110000000_11200000068chr18_48000000_5000000030chr5_154000000_15600000069chr20_14000000_1600000031chr6_6000000_800000070chr20_16000000_1800000032chr6_54000000_5600000071chr20_18000000_2000000033chr6_86000000_8800000072chr20_24000000_2600000034chr6_90000000_9200000073chr20_26000000_2800000035chr6_114000000_11600000074chr20_52000000_5400000036chr6_116000000_11800000075chr19_24000000_2600000037chr7_2000000_400000076chr19_26000000_2800000038chr7_24000000_2600000077chr19_28000000_3000000039chr7_44000000_4600000078chr22_18000000_20000000所述基因表达预测类标志物将目的基因或其转录本的基因表达预测特征作为标志物,包括:下表所示1~258项中的任意一种或多种标志物的组合;
所述体细胞拷贝数变异类标志物将目的拷贝数变异区域的体细胞拷贝数变异特征作为标志物,所述目标拷贝数变异区域包括下表所示1~300项中的任意一种或多种CNV区域的组合;
序列信息以hg19为参考基因组。2.根据权利要求1所述的应用,其特征在于,所述生物标志物或其组合包括所述六类标志物中的任意三类、四类、五类或六类的组合;可选地,所述核小体分布特征的计算方式如
下:式中,Coverage
NDR
是指核小体丢失与核小体缺失区;NDR是指TSS上游200bp与TSS下游100bp之间的区域经过矫正后的覆盖度;Mean(Coverage
TSS1

Coverage
TSS2
)是指TSS上游2000bp和TSS上游200bp之间的区域经过矫正后的覆盖度与TSS下游100bp和TSS下游2000bp之间的区域的经过矫正后的覆盖度的平均值;TSSNDR Score为计算获得的用于量化基因或转录本核小体分布特点的分数;可选地,所述基因组不稳定性特征的计算方式如下:其中,Fragment
i
表示为第i个窗口内读段数目,TotalMappedFragments表示为待测样本所有比对到参考基因组的读段总数,优选为待测样本所有比对到参考基因组并排除比对到X、Y性染色体、线粒体以及其他contig的读段后剩余读段的总数;WindowLength
i
表示为第i个窗口长度;BinCount
i
为基因组不稳定性评分;可选地,所述基因表达预测特征的获取方式包括:对于任意目的基因或转录本,通过对该基因转录起始位点周围的读段长度和位置信息,预测该基因的表达情况为高表达或低表达;可选地,所述基因表达预测特征的获取方式包括:对于任意基因或转录本,提取TSS上游1250bp与TSS下游1250bp之间的区域各个位置的读段的位置信息以及读段的长度信息,构建三维向量,其中,第一维X

axis是TSS上游1250bp与TSS下游1250bp之间的区域各个位置相对TSS位点的位置索引,第二维Y

axis是从0bp到400bp之间的读段的长度信息,第三维Z

axis是以第二维为索引进行Z值缩放后可以表示任意...

【专利技术属性】
技术研发人员:杨浩张清政陈碧思杜凤霞孙福明郑璐白健王寅吴琳
申请(专利权)人:福建和瑞基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1