恶性肺结节筛查基因标志物、筛查模型的构建方法和检测装置制造方法及图纸

技术编号:37445983 阅读:19 留言:0更新日期:2023-05-06 09:17
本发明专利技术提供了恶性肺结节筛查基因标志物、筛查模型的构建方法和检测装置,通过对高通量测序结果进行影像表现为高风险的肺结节良恶性差异DNA的16bp肿瘤新短序列,利用自动机器学习构建模型,对在影像学表现为高风险的肺结节的良恶性进行预测,实现对恶性肺结节无创精准诊断,减少非必要的良性肺结节切除手术。减少非必要的良性肺结节切除手术。减少非必要的良性肺结节切除手术。

【技术实现步骤摘要】
恶性肺结节筛查基因标志物、筛查模型的构建方法和检测装置


[0001]本专利技术涉及对影像表现为高风险的肺结节(radiographically highly suspicious lung nodules)良恶性早筛, 属于分子生物医学


技术介绍

[0002]肺癌是其中一个世界上确证率最高的癌症,高风险人群包括65岁以上,具有下列一项以上的危险因素者。危险因素包括:重度吸烟,曾经拥有抽烟史,家庭病史,接受过胸腔放射性治疗,致癌物质。由于肺癌前期缺乏明显症状,患者一般于肺癌中后期(stage III, IV)被诊断出。然而,大量研究表明在早期被诊断出的肺癌患者能有更高的生存率。在肺癌一期(stage I)被诊断出的患者比在肺癌四期(stage IV)被诊断出的患者的五年存活率提高13倍。因此,肺部肿瘤早发现和早诊断对于提高肺癌患者的生存率至关重要。
[0003]低剂量胸腔电脑断层扫描(Low

Dose Computed Tomography Thorax, LDCT)检测肺结节是现今发现肺部肿瘤最常见的诊断方式。针对影像学判定的肺结节进行手术切除,能有效地减少20%

39% 的肺癌死亡率。然而,大约15%

35% 的肺结节,在初始LDCT影像表现判定为高风险的肺结节,在手术切除后,最后被确认为病理性无害。因此,影像学检测存在一定的局限性,仅依据影像检测结果进行恶性肺肿瘤诊断,增加了一些非必要的手术,造成患者非必要的手术风险和并发症风险,和增加了医疗支出负担。因此,对仅在影像学依据下判定为肺癌高危人群的肺结节良恶性判断工作尤为重要。

技术实现思路

[0004]本专利技术所要解决的技术问题是:现有技术中针对肺癌结节良恶性进行诊断过程中缺少无创方式的检测手段,导致了非必要的手术、增加了患者负担。
[0005]本专利的技术方案中,提供了一种对血浆样本cfDNA进行WGS测序,通过对高通量测序结果,获取片段信息,进行对良恶性肺结节差异DNA片段长度比值(Fragment size ratio), 读段5端断裂点序列读段占比(Breakpoint motif), 1MB 窗口拷贝数变化(1 Mb

bin copy number variant), 16bp肿瘤新短序列(16bp Neomers)和核小体覆盖模式 (Nucleosome coverage patterns),利用弹性网络逻辑回归模型(elastic net logistic regression, glm), 极致梯度提升(extreme gradient boosting,xgboost),随机森林(random forest)和神经网络(neural network)四种算法利用自动化机器学习构建多特征多算法整合模型,实现对恶性肺结节无创精准诊断。
[0006]具体的技术方案是:基因标志物在制备恶性肺结节筛查试剂中的应用;所述的基因标志物包括:第一标志物:cfDNA片段比对至参考基因组的不同窗口中的短读段数量占比和长读段数量占比;
第二标志物:不同种类的cfDNA片段比对至参考基因组的5

端的m个碱基片段在全部碱基片段中的占比;第三标志物:WGS数据中染色体上不同窗口中的拷贝数;第四标志物:肿瘤新短序列占比;第五标志物:核小体覆盖模式。
[0007]所述的第一标志物通过如下步骤获得:将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的短读段数量和超长读段数量占比。
[0008]所述的第二标志物通过如下步骤获得:将读段数据中的5

端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例。
[0009]所述的第三标志物通过如下步骤获得:将参考基因组划分为多个窗口,并分别获得WGS数据在1

22号染色体上不同窗口中的拷贝数数据。
[0010]所述的第四标志物通过如下步骤获得:穷举法生成长度为16bp的短序列集合A;在人类参考基因序列中穷举出所有的长度为16bp短序列集合B,从集合A中将集合B数据剔除后,定义为无效子;从癌症数据库中获得不同癌种的样本WGS测序结果,提取出多次出现的碱基替换突变; 根据碱基替换的位置,从无效子中找到包含这些碱基替换的无效子短序列集合C;获取东亚人群中频率大于0.01的碱基替换突变;根据碱基替换的位置,从无效子中找到包含这些碱基替换的无效子短序列集合D;从集合C中将集合D的无效子序列排除,定义为新短序列;统计出样本中能够读取到任意一个新短序列的样本数量,再针对每一个新短序列,搜索出包含这些新短序列的样本数量,将每一个新短序列的样本数量与所有能读取到任意新短序列的样本总数的比例。
[0011]所述的第五标志物通过如下步骤获得:从GTRD数据库中获得转录因子,并从中排除掉不在CIS

BP数据库中有已知转录位点的转录因子;将获得的转录因子的转录位点附近

5kb到+5kb范围作为窗口,获得可以比对至这些窗口中的长度为100

220bp的片段,对窗口中的读段数据依次进行GC校正和测序深度平滑处理,得到每个转录因子的覆盖模式曲线;对于每个转录因子,获得如下三个特征,共同作为核小体覆盖模式:1)对于转录因子的全部转录位点,求出转录位点的上端1kb到下端1kb的平均深度;2)对于获得的覆盖模式曲线,获得曲线波谷的幅度值,作为转录因子的中心深度;3)对于获得的覆盖模式曲线进行快速傅里叶变换,获得核小体振幅信号的最高点的振幅数值。
[0012]恶性肺结节筛查模型的构建方法,包括如下步骤:步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;步骤2,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的短读段数量占比和长读段数量占比,作为第一特征集合;
步骤3,将读段数据中的5

端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例作为第二特征集合;步骤4,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第三特征集合;步骤5,将读取到16bp新短序列的的样本数与所有能读取到任意新短序列的样本总数的比例,作为第四特征集合;步骤6,所选取的转录因子的核小体覆盖模式特征,作为第五特征集合;步骤7,以第一、第二、第三、第四和第五特征集合共同作为初始特征值,作为模型特征向量输入至分类模型中,并以肺结节良恶性作为输出值,对模型进行训练,获得早筛模型。
[0013]所述的步骤3中包括:步骤3

1,将参考基因组划分为多个窗口,并分别获得每个窗口范围内的长读段数量和短读段数量;步骤3

2,将步骤3

1的所有窗口的短读段数量和长读段数量标准化处理,标准化后的短读段数和长读段数的比例作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基因标志物在制备恶性肺结节筛查试剂中的应用,其特征在于,所述的基因标志物是核小体覆盖模式;所述的核小体覆盖模式通过如下步骤获得:穷举法生成长度为16bp的短序列集合A;在人类参考基因序列中穷举出所有的长度为16bp短序列集合B,从集合A中将集合B数据剔除后,定义为无效子;从癌症数据库中获得不同癌种的样本WGS测序结果,提取出多次出现的碱基替换突变; 根据碱基替换的位置,从无效子中找到包含这些碱基替换的无效子短序列集合C;获取东亚人群中频率大于0.01的碱基替换突变;根据碱基替换的位置,从无效子中找到包含这些碱基替换的无效子短序列集合D;从集合C中将集合D的无效子序列排除,定义为新短序列;统计出样本中能够读取到任意一个新短序列的样本数量,再针对每一个新短序列,搜索出包含这些新短序列的样本数量,将每一个新短序列的样本数量与所有能读取到任意新短序列的样本总数的比例。2.根据权利要求1所述的基因标志物在制备恶性肺结节筛查试剂中的应用,其特征在于,所述的癌症数据库是PCAWG数据库。3.根据权利要求1所述的基因标志物在制备恶性肺结节筛查试剂中的应用,其特征在于,不同癌种是指肠癌、肺癌、乳腺癌、胃癌、前列腺癌和肝癌。4.根据权利要求1所述的基因标志物在制备恶性肺结节筛查试剂中的应用,其特征在于,东亚人群中的碱基替换突变是通过gnomAD数据库获得。5.恶性肺结节筛查模型的构建方法,其特征在于,包括如下步骤:步骤1,对阳性组和对照组的样本进行cfDNA的提取并测序,获得读段数据;步骤2,将读取到16bp新短序列的样本数与所有能读取到任意新短序列的样本总数的比例,作为特征集合;步骤3,以特征集同作为初始特征值,作为模型特征向量输入至分类模型中,并以肺结节良恶性作为输出值,对模型进行训练,获得早筛模型;特征集合的获取步骤如下:步骤2

1,穷举法生成长度为16bp的短序列集合A;在人类参考基因序列中穷举出所有的长度为16bp短序列集合B,从集合A中将集合B数据剔除后,定义为无效子;步骤2

2,从癌症数据库中获得不同癌种的样本WGS测序结果,提取出多次出现的碱基替换突变; 根据碱基替换的位置,从无效子中找到包含这些碱基替换的无效子短序列集合C;步骤2

3,获取东亚人群中频率大于0.01的碱基替换突变;根据碱基替换的位置,从无效子中找到包含这些碱基替换的无效子短序列集合D;从集合C中将集合D的无效子序列排除,定义为新短序...

【专利技术属性】
技术研发人员:邵阳吴雪包华刘睿吴舒雨吴旻杨珊珊刘思思郑丽娟
申请(专利权)人:南京世和医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1