【技术实现步骤摘要】
一种基于血浆DNA片段分析评估患癌风险的方法和装置
本申请涉及患癌风险评估
,特别是涉及一种基于血浆DNA片段分析评估患癌风险的方法和装置。
技术介绍
早期发现是减少癌患者死亡的关键。当患者出现可疑的肿块或症状时,医生做的第一件事可能是进行组织活检-收集细胞进行仔细检查。然而,这个过程多半是侵入性的、危险的、疼痛的。于是,研究人员开始寻找替代或补充的方案。因此,液体活检(liquidbiopsy)应运而生。其中基于cfDNA(circulatingfreeDNA)的液体活检技术被越来越多的应用于肿瘤的早期筛查、治疗监测、预后评估等多个方面。一般认为cfDNA起源于坏死或凋亡的细胞,坏死的细胞被巨噬细胞等吞噬,然后释放经过消化的DNA到血液中形成循环游离DNA。在实体瘤中,肿瘤组织快速生长,因养分供应不足等原因导致细胞死亡,释放DNA到患者的外周血中,这些源于肿瘤细胞的cfDNA被称为ctDNA,它们可以作为是否患癌的标志。肝癌是一类高发性恶性肿瘤,在国家癌症中心2019发布的全国癌症统计数据中,肝癌的发病率位居 ...
【技术保护点】
1.一种基于血浆DNA片段分析评估患癌风险的方法,其特征在于:包括以下步骤,/n微观片段特征计算步骤,包括(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息,及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件,将其视为低深度WGS数据,分析其片段特征,以此评估患癌风险;(a2)从所述bam文件中提取芯片的off target DNA片段;(a3)对所述off target DNA片段根据质量进行筛选,保留mapping质量值大于或等于20的片段;(a4)使用samtools以leftmost coordinates方式对off targetDN ...
【技术特征摘要】
1.一种基于血浆DNA片段分析评估患癌风险的方法,其特征在于:包括以下步骤,
微观片段特征计算步骤,包括(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息,及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件,将其视为低深度WGS数据,分析其片段特征,以此评估患癌风险;(a2)从所述bam文件中提取芯片的offtargetDNA片段;(a3)对所述offtargetDNA片段根据质量进行筛选,保留mapping质量值大于或等于20的片段;(a4)使用samtools以leftmostcoordinates方式对offtargetDNA片段的bam文件排序然后建立索引;(a5)使用窗口大小为5Mb的bin,统计bam文件中每个bin含有的长片段和短片段的数量,所述短片段的长度为100-150bp,所述长片段的长度为151-220bp,计算每个bin中短片段数量与长片段数量的比值ratio,根据ratio计算Z-score;(a6)每条染色体分为长臂p和短臂q,以染色体臂为单位计算每条染色体臂的Z-score,获得22对常染色体39个臂的Z-score值;
宏观片段分布特征计算步骤,包括(b1)对所述微观片段特征计算步骤根据质量进行筛选获得的offtargetDNA片段区域内的reads数进行统计,如果reads数满足下采样要求,则对其进行下采样获得用于后续分析的bam文件;(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征,作为宏观片段分布特征;
患癌风险评估步骤,包括根据所述微观片段特征计算步骤获得的39个臂的Z-score值,以及所述宏观片段分布特征计算步骤获得的DNA片段长度分布特征,应用血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险;
所述血浆DNA片段模式辅助评估患癌风险模型由健康人和癌症病人的血浆DNA的微观片段特征和宏观片段分布特征经过机器学习pipeline进行训练,并通过交叉验证学习超参数,同时学习模型参数获得;所述微观片段特征为所述微观片段特征计算步骤获得的39个臂的Z-score值;所述宏观片段分布特征为所述宏观片段分布特征计算步骤获得的DNA片段长度分布特征,并且,在进行所述宏观片段分布特征计算步骤时,仅仅采用所述reads数满足下采样要求的健康人样本和癌症病人样本。
2.根据权利要求1所述的方法,其特征在于:所述微观片段特征计算步骤中,根据ratio计算Z-score具体包括,使用局部加权线性回归算法LOWESS对每条染色体多个bin的ratio列表进行校正,得到ratio2列表;然后根据ratio2列表计算其均值以及标准差,根据公式一计算获得Z-score;
公式一
公式一中,x为ratio2,为指定染色体臂的ratio2的均值,δ为指定染色体臂的ratio2的标准差;
优选的,所述39个臂的Z-score值具体包括1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、19p、19q、20p、20q、21q和22q的Z-score值。
3.根据权利要求1所述的方法,其特征在于:所述宏观片段分布特征计算步骤和所述血浆DNA片段模式辅助评估患癌风险模型中,下采样要求为reads数大于3000000;并且,统一将reads数下采样到3000000条,获得下采样后的bam文件用于后续分析;
优选的,提取长度在[95bp,420bp]区间的DNA片段进行片段长度分布特征分析,并将其作为宏观片段分布特征。
4.根据权利要求1-3任一项所述的方法,其特征在于:所述机器学习pipeline包括MaxMin归一化、PCA降维和多层感知机mlp模型训练。
5.一种基于血浆DNA片段分析评估患癌风险的装置,其特征在于:包括微观片段特征计算模块、宏观片段分布特征计算模块、模型训练模块和患癌风险评估模块;
所述微观片段特征计算模块,包括用于(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息,及其测序下机数据经过低质量read...
【专利技术属性】
技术研发人员:管彦芳,李敏,王科,刘涛,易玉婷,戴平平,易鑫,杨玲,
申请(专利权)人:北京吉因加医学检验实验室有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。