基于制造技术

技术编号:39846025 阅读:6 留言:0更新日期:2023-12-29 16:43
本申请实施例提供基于

【技术实现步骤摘要】
基于LP

WGS和DNA甲基化的肺癌早筛模型构建方法及电子设备


[0001]本申请涉及生物医学的
,具体涉及基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法及电子设备


技术介绍

[0002]肺癌是中国最常见的癌症,大多数肺癌患者在疾病发作初期没有明显的特定症状,通常情况下,
64.6
%的癌症病例在晚期
(III/IV

)
被诊断

因此,在肿瘤负担较低的阶段进行筛查对降低与肺癌相关的死亡率至关重要

低剂量计算机断层扫描
(LDCT)
常用于肺癌筛查,但辐射暴露和模糊的风险评估导致依从率较低
(35.6

),
并可能导致过度诊断

[0003]液体活检代表了一种有前景的癌症筛查方法,只需要少量生物液体

它的优势在于易于获取和成本效益高,可以进行重复采样,这有利于癌症筛查的依从性

多年来,血液标志物检测已被研究作为肺癌的潜在生物标志物,如细胞角蛋白
19
片段
(CYFRA 21

1)、
神经元特异性烯醇酶
(NSE)
和鳞状细胞癌抗原
(SCC

Ag)。
但这些生物标志物在早期诊断上的性能不尽人意,敏感性低,假阳性率高

肿瘤组织释放的循环游离
DNA(cfDNA)
具有与来源相似的独特遗传和表观遗传模式

[0004]与血液中可检测到的罕见体细胞突变相比,肿瘤发生过程中的表观遗传失调是一个早期事件,涉及基因组范围内
DNA
甲基化和染色质结构的广泛改变

甲基化修饰经常出现在特定的基因组区域,如
CpG
岛,这为通过靶向测序分析肿瘤发生过程中产生的大量改变提供了机会

最近的研究表明,在肺癌早期检测中,基于表观基因组的模型优于基于突变的模型
。DNA
甲基化与各种肿瘤的发生和进展密切相关

许多研究发现,不同的疾病甚至同一疾病的不同阶段可能具有特定的甲基化模式

肿瘤细胞中
CpG
岛高甲基化的频率远高于基因突变

因此,通过检测特定基因或整个基因组的甲基化水平,可以预测肺癌发生的风险

[0005]此外,使用全基因组测序
(WGS)
的研究发现,
cfDNA
在肿瘤发生过程中呈非随机断裂,断裂模式和末端基序等片段组学特征在不同病程中有很大的变化

片段模式的改变反映了
cfDNA
释放前染色质结构的变化,末端基序反映了染色质可及性和核酸酶活性的变化

到目前为止,已经有几种
cfDNA
片段特征用于肺癌筛查,包括片段大小覆盖,片段大小分布,末端基序,断点基序和拷贝数变异

酶消化实验的结果表明,较低的
DNA
甲基化水平预示着更高的核小体可及性,并允许核酸酶在核小体内切割生成缩短的
DNA
片段,这表明
DNA
甲基化可能是
cfDNA
断裂的重要调节因子

[0006]将这些和其他有前景的液体活检标志物检测与当前的筛查计划结合起来,可能极大地改善肺癌的早期筛查和诊断

据我们所知,尽管甲基化和片段特征分别用于肺癌早期检测,但很少有研究将这两种表观遗传特征集成起来,考虑到它们的互补贡献,这可能会表现出很高的性能

有鉴于此,提出本申请


技术实现思路

[0007]为了解决上述技术缺陷之一,本申请实施例中提供了一种无创的

能够对早期肺癌进行高准确率预测的基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法及电子设备

[0008]根据本申请实施例的第一个方面,提供了基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法,包括以下步骤:
[0009]S10
,采集肺癌患者和健康人的外周血,提取外周血中的
cfDNA
,建立样本集;
[0010]S20
,基于
cfDNA
,进行低深度全基因组及甲基化靶向的测序,构建测序文库;
[0011]S30
,对低深度全基因组测序数据

甲基化靶向测序数据进行特征提取,得到全基因组测序数据的片段特征

甲基化靶向测序数据的甲基化特征及甲基化数据的片段组特征;
[0012]S40
,根据全基因组测序数据的片段特征

甲基化靶向测序数据的甲基化特征,构建基于多特征交叉堆叠的肺癌早筛预测模型;
[0013]S50
,通过样本集对肺癌早筛预测模型进行训练和验证,得到最终的肺癌早筛预测模型和预测结果

[0014]优选地,所述
S40
,构建基于多特征交叉堆叠的肺癌早筛预测模型;包括:
[0015]S401
,建立单特征预测模型;
[0016]包括:利用机器学习模型对样本的多个测序数据的特征建立分类模型;
[0017]S402
,建立单个特征的集成模型;
[0018]包括:对每个特征的多个机器学习得分进行拼接组成一个新的特征向量,再建立以逻辑回归为基础的单个特征的集成模型;
[0019]S403
,建立多特征的联合集成模型;
[0020]包括:对每个样本的多个特征得分进行拼接组成一个新的特征向量,再建立以逻辑回归为基础的多特征的联合集成模型

[0021]优选地,所述机器学习模型包括:梯度提升机模型
、XGBoost
模型

随机森林模型

逻辑回归模型和多层感知机的至少一种

[0022]优选地,所述
S30
,对测序文库中的低深度全基因组测序数据

甲基化靶向测序数据进行特征提取,得到全基因组测序数据的片段特征

甲基化靶向测序数据的甲基化特征及甲基化数据的片段组特征;包括:
[0023]S301
,分别对低深度全基因组测序数据

甲基化靶向测序数据进行预处理;
[0024]S302
,对预处理后的低深度全基因组测序数据进行特征提取,得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法,其特征在于,包括以下步骤:
S10
,采集肺癌患者和健康人的外周血,提取外周血中的
cfDNA
,建立样本集;
S20
,基于
cfDNA
,进行低深度全基因组及甲基化靶向的测序,构建测序文库;
S30
,对低深度全基因组测序数据

甲基化靶向测序数据进行特征提取,得到全基因组测序数据的片段特征

甲基化靶向测序数据的甲基化特征及甲基化数据的片段组特征;
S40
,根据全基因组测序数据的片段特征

甲基化靶向测序数据的甲基化特征,构建基于多特征交叉堆叠的肺癌早筛预测模型;
S50
,通过样本集对肺癌早筛预测模型进行训练和验证,得到最终的肺癌早筛预测模型和预测结果
。2.
根据权利要求1所述的基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法,其特征在于,所述
S40
,构建基于多特征交叉堆叠的肺癌早筛预测模型;包括:
S401
,建立单特征预测模型;包括:利用机器学习模型对样本的多个测序数据的特征建立分类模型;
S402
,建立单个特征的集成模型;包括:对每个特征的多个机器学习得分进行拼接组成一个新的特征向量,再建立以逻辑回归为基础的单个特征的集成模型;
S403
,建立多特征的联合集成模型;包括:对每个样本的多个特征得分进行拼接组成一个新的特征向量,再建立以逻辑回归为基础的多特征的联合集成模型
。3.
根据权利要求2所述的基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法,其特征在于,所述机器学习模型包括:梯度提升机模型
、XGBoost
模型

随机森林模型

逻辑回归模型和多层感知机的至少一种
。4.
根据权利要求1所述的基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法,其特征在于,所述
S30
,对低深度全基因组测序数据

甲基化靶向测序数据进行特征提取,得到全基因组测序数据的片段特征

甲基化靶向测序数据的甲基化特征及甲基化数据的片段组特征;包括:
S301
,分别对低深度全基因组测序数据

甲基化靶向测序数据进行预处理;
S302
,对预处理后的低深度全基因组测序数据进行特征提取,得到全基因组测序数据的片段特征;
S303
,对预处理后的甲基化靶向测序数据进行特征提取,得到甲基化靶向测序数据的甲基化特征及甲基化数据的片段组特征
。5.
根据权利要求4所述的基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法,其特征在于,所述预处理后的低深度全基因组测序数据为测序片段信息,包括:每条片段在
hg19
人类参考基因组的染色体号

片段起始位置

片段终止位置,片段长度,
GC
含量及矫正后的权重值;所述全基因组测序数据的片段特征包括:全基因组拷贝数变异
、cfDNA
长短片段比
、cfDNA
片段大小分布
、cfDNA
核小体模式和
cfDNA4bp
基序末端占比
。6.
根据权利要求5所述的基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法,其特征在于,所述
S301
中,所述甲基化特征为:高甲基化异常片段占比

甲基化片段长短比和甲基化
片段
4bp
基序末端占比
。7.
根据权利要求6所述的基于
LP

WGS

DNA
甲基化的肺癌早筛模型构建方法,其特征在于,所述
S301<...

【专利技术属性】
技术研发人员:赵杰李晓敏薛茹月吴梦思杨梅佳邓望龙张旭张超李砺锋王小强祁闯段晓冉闫芮任用
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1