一种胚胎植入前染色体变异识别的方法及其应用技术

技术编号:39296005 阅读:29 留言:0更新日期:2023-11-07 11:03
本发明专利技术公开了一种胚胎植入前染色体变异识别的方法及其应用。所述方法包括:获取基因组分段结果的特征值,特征值标准化后进行分类模型构建,集成分类模型对新片段进行预测分类,对预测标签设定报警处理。本发明专利技术基于人工智能的方法并结合测序覆盖深度在内的47余种染色体片段的特征值,对染色体片段的变异类型进行识别,片段预测准确性与金标准(人工审核结果)对比,总体准确率最高可达99.9%以上,各种变异类型的预测准确性高于90%,利用本方法对片段进行变异类型识别,可大幅降低人工审核的工作量(约94%)。的工作量(约94%)。的工作量(约94%)。

【技术实现步骤摘要】
一种胚胎植入前染色体变异识别的方法及其应用


[0001]本专利技术属于生物
,涉及一种胚胎植入前染色体变异识别的方法及其应用。

技术介绍

[0002]染色体嵌合是胚胎植入前非整倍体(PGT

A)基因检测的一种常见现象,具体表现为待检测的单个样本中存在多个染色体不同的细胞系。在PGT

A滋养外胚层活检中,染色体嵌合的诊断不是通过直接观察整倍体和非整倍体单个细胞来计算得出的,而是通过下一代测序(NGS)对染色体中间拷贝数(在单倍体到二倍体之间,或是二倍体到三体之间)推断出来的。对于染色体拷贝数结果的解释,除了染色体嵌合,还包括统计上的变异、WGA扩增的偏差、样本污染、细胞有丝分裂状态、胚胎活检技术的异质性和胚胎学实验室条件的影响。目前尚不清楚滋养外胚层活检检测的染色体嵌合在多大程度上反映了囊胚的真实情况。基于NGS对滋养外胚层活检样本中嵌合体的识别和定量已变得越来越普遍。嵌合染色体的报出具体取决于所使用的NGS平台、用于将结果分类为嵌合染色体的阈值、技术人员和软件解释以及个别PGT<br/>‑
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种胚胎植入前染色体变异识别的方法,其特征在于,所述方法包括:获取基因组分段结果的特征值,特征值标准化后进行分类模型构建,集成分类模型对新片段进行预测分类,对预测标签设定报警处理。2.根据权利要求1所述的方法,其特征在于,所述获取基因组分段结果的特征值包括以下步骤:(1)覆盖深度获取:将整个基因组划分为固定大小的小窗口,统计每个窗口中覆盖的Reads数;(2)样本内校正:对每个小窗口覆盖的Reads数进行标准化与校正;(3)窗口合并:将小窗口按照设定的滑窗策略合并成大窗口;(4)样本间校正:结合处理样本与参考样本对应大窗口的值,计算每个大窗口的log2RR值,所述RR为窗口内处理样本与参考样本矫正后Reads的比值;(5)区域分段:基于大窗口的log2RR值,采用CBS算法对每条染色体的断点进行识别,获得区段的平均log2RR值;(6)区段特征值获取:标记每个区段的特征值。3.根据权利要求2所述的方法,其特征在于,步骤(1)中所述固定大小包括5

20kb;优选地,步骤(2)中所述标准化包括中位数标准化;优选地,步骤(2)中所述校正包括GC校正;优选地,步骤(6)中所述特征值包括:起始位置、终止位置、包含的大窗口的数目、该区段log2RR平均值、游程检验p值、该区段log2RR值与所有去除异常值后区段中位数的差值的绝对值、seg.dist/mad、seg.dist/sd、该区段包含的小窗口数目、该条染色体包含的小窗口数目、该区段包含的无效长度、该区段有效长度、该染色体有效长度、该区段非N碱基占比、该区段GC含量、所有区段的SD值、所有区段的MAPD值、该区段可比对性、该区段包含的大窗口的SD值、该区段包含的大窗口的MAPD值、该区段包含的大窗口GC含量与log2RR的相关系数、该区段包含的大窗口可比对性与log2RR的相关系数、该区段包含的大窗口的log2RR在整体中排秩的中位数、按照所有区段的排秩、按照所有区段的排秩,该区段与前一位区段的seg.mean的差值、按照所有区段的排秩,该区段与后一位区段的seg.mean的差值、该区段所处染色体包含的所有log2RR的中位数、按染色体排秩、按染色体排秩,该染色体与前一位区段的log2RR的差值、按染色体排秩,该染色体与后一位区段的log2RR的差值、该区段占整条染色体的比例、该样本包含的所有区段数、该样本log2RR的SD值、该样本log2RR的MAPD值、该样本GC含量与log2RR的相关系数或该样本可比对性与log2RR的相关系数中的任意一种或至少两种的组合。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述分类模型包括:CNV与noCNV的分类模型、noCNV片段中mosaic和normal分类模型或CNV和mosaic中dup的del的分类模型中的任意一种或至少两种的组合。5.根据权利要求4所述的方法,其特征在于,所述CNV与noCNV的分类模型的构建方法包括:使用机器学习的方法在训练集中基于片段特征构建CNV与noCNV分类模型,并使用10次10折交叉验证的方法对模型参数进行优化,确认最终分类模型;优选地,所述机器学习的方法包括贝叶斯统计、随机森林、支持向量机或广义线性模型
中的任意一种或至少两种的组合;优选地,所述CNV分类模型包括dup和/或del;优选地,所述noCNV分类模型包括mosaic dup、mosaic del或normal中的任意一种或至少两种的组合;优选地,所述mosaic和normal的分类模型的构建方法包括:使用机器学习的方法在训练集中基于noCNV片段特征构建mosaic和normal分类模型,并使用10次10折交叉验证的方法对模型参数进行优化,确认最终分类模型;优选地,所述dup的del的分类模型的构建方法包括:使用机器学习的方法在训练集中基于mosaic和CNV片段特征构建dup/mosaic dup和del/mosaic del分类模型,并使用10次...

【专利技术属性】
技术研发人员:邢彦如付永胜卢娜如吕仁杰张艳兵吴凯张军孔令印梁波
申请(专利权)人:苏州贝康医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1