一种差异性甲基化区域筛选方法及其装置制造方法及图纸

技术编号:32632718 阅读:22 留言:0更新日期:2022-03-12 18:07
一种差异性甲基化区域筛选方法及其装置,筛选方法包括:CpG簇的提取步骤;CpG簇的筛选步骤;肿瘤组织特异的差异性甲基化区域筛选步骤;肿瘤cfDNA特异的差异性甲基化区域筛选步骤,以健康样本的cfDNA测序数据和患病样本的cfDNA测序数据作为背景数据集,对高差异性甲基化区域、低差异性甲基化区域进行过滤,获得过滤后的高差异性甲基化区域、低差异性甲基化区域。本发明专利技术基于CpG位点距离与甲基化信号连锁性的高度相关性,动态地将基因组划分为具有连锁关系的CpG簇,结合数据库中的肿瘤群体数据和健康个体数据,筛选获得肿瘤cfDNA中特异的差异性甲基化区域,有效提高甲基化标记物筛选的灵敏性与特异性。选的灵敏性与特异性。选的灵敏性与特异性。

【技术实现步骤摘要】
一种差异性甲基化区域筛选方法及其装置


[0001]本专利技术涉及生物医学领域,具体涉及一种差异性甲基化区域筛选方法及其装置。

技术介绍

[0002]循环肿瘤DNA(circulating tumor DNA;ctDNA)是一种携带了肿瘤特异性遗传和表观遗传变异的生物标志物,由于无创以及低成本的优势,ctDNA标志物正在广泛应用于肿瘤诊断和预后预测,其中包括甲基化、拷贝数变异、体细胞突变、单核苷酸变异等。对比于其它ctDNA生物标志物,DNA甲基化作为肿瘤标志物的优势在于ctDNA的甲基化模式与它们来源的细胞或组织一致,同时在肿瘤基因组中,DNA甲基化具有高度的一致性,因此检测患者血浆中肿瘤特异性DNA的甲基化是一种可行的血液检测方法。
[0003]对于早期肿瘤来说,由于ctDNA含量很低,信号微弱,因此,在肿瘤早筛领域中,提高筛查结果的灵敏性是评价模型性能的重要指标,传统采用靶向WGBS策略与甲基化芯片平台的早筛技术所使用的甲基化标记物(即差异性甲基化区域)数量较少,只能捕获部分基因组区间的信息,并且其只关注了单个CpG位点的差异化特征,未考虑到CpG之间所具有的连锁效应,因此传统的甲基化标志物筛选方法影响了早筛模型应用时的灵敏度(亦称敏感性)。

技术实现思路

[0004]根据第一方面,在一实施例中,提供一种差异性甲基化区域筛选方法,包括:
[0005]CpG簇的提取步骤,包括从参考基因组中提取CpG簇;
[0006]CpG簇的筛选步骤,包括根据提取的CpG簇,对比对到参考基因组的肿瘤组织样本测序数据、相应的对照样本测序数据、健康样本的cfDNA测序数据、患病样本的cfDNA测序数据进行过滤;
[0007]肿瘤组织中特异的差异性甲基化区域筛选步骤,包括以过滤后的CpG簇为单位,在所述肿瘤组织样本测序数据与相应的对照样本测序数据中进行差异性甲基化分析,获得高差异性甲基化区域、低差异性甲基化区域;
[0008]肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤,包括以所述健康样本的cfDNA测序数据和所述患病样本的cfDNA测序数据作为背景数据集,对高差异性甲基化区域、低差异性甲基化区域进行过滤,获得过滤后的高差异性甲基化区域、低差异性甲基化区域。
[0009]根据第二方面,在一实施例中,提供一种差异性甲基化区域筛选装置,包括:
[0010]CpG簇的提取模块,用于从参考基因组中提取CpG簇;
[0011]CpG簇的筛选模块,用于根据提取的CpG簇,对比对到参考基因组的肿瘤组织样本测序数据、相应的对照样本测序数据、健康样本的cfDNA测序数据、患病样本的cfDNA测序数据进行过滤;
[0012]肿瘤组织中特异的差异性甲基化区域筛选模块,用于以过滤后的CpG簇为单位,在
肿瘤组织样本测序数据与相应的对照样本测序数据中进行差异性甲基化分析,获得高差异性甲基化区域、低差异性甲基化区域;
[0013]肿瘤患者cfDNA中特异的差异性甲基化区域筛选模块,用于以健康样本的cfDNA测序数据和患病样本的cfDNA测序数据作为背景数据集,对高差异性甲基化区域、低差异性甲基化区域进行过滤,获得过滤后的高差异性甲基化区域、低差异性甲基化区域。
[0014]根据第三方面,在一实施例中,提供一种预测癌症的装置,包括第二方面所述装置,以及预测模块,所述预测模块用于根据待测样本cfDNA测序数据,以及所述过滤后的高差异性甲基化区域、低差异性甲基化区域,预测待测样本所属生物体为患病个体或健康个体。
[0015]根据第四方面,在一实施例中,提供一种装置,包括:
[0016]存储器,用于存储程序;
[0017]处理器,用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。
[0018]根据第五方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面所述的方法。
[0019]依据上述实施例的差异性甲基化区域筛选方法及其装置,本专利技术基于CpG位点距离与甲基化信号连锁性的高度相关性,动态地将基因组划分为具有连锁关系的CpG簇,结合数据库中的肿瘤群体数据和健康个体数据,筛选获得肿瘤cfDNA中特异的差异性甲基化区域,有效提高甲基化标记物(即差异性甲基化区域)筛选的灵敏性与特异性。
附图说明
[0020]图1为一种实施例中全基因组范围内CpG簇窗口的划分流程图。
[0021]图2为一种实施例中全基因组范围内CpG簇窗口的筛选及质控流程图。
[0022]图3为一种实施例的DMR类型统计结果图。
具体实施方式
[0023]下面通过具体实施方式结合附图对本专利技术作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
[0024]另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
[0025]本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
[0026]根据第一方面,在一实施例中,提供一种甲基化标记物筛选方法,包括:
[0027]CpG簇的提取步骤,包括从参考基因组中提取CpG簇;
[0028]CpG簇的筛选步骤,包括根据提取的CpG簇,对比对到参考基因组的肿瘤组织样本测序数据、相应的对照样本测序数据、健康样本的cfDNA测序数据、患病样本的cfDNA测序数据进行过滤;
[0029]肿瘤组织中特异的差异性甲基化区域筛选步骤,包括以过滤后的CpG簇为单位,在所述肿瘤组织样本测序数据与相应的对照样本测序数据中进行差异性甲基化分析,获得高差异性甲基化区域、低差异性甲基化区域;
[0030]肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤,包括以所述健康样本的cfDNA测序数据和所述患病样本的cfDNA测序数据作为背景数据集,对高差异性甲基化区域、低差异性甲基化区域进行过滤,获得过滤后的高差异性甲基化区域、低差异性甲基化区域。健康样本相当于基线,将患病样本与健康样本对比,找出高差异、低差异的区域。...

【技术保护点】

【技术特征摘要】
1.一种差异性甲基化区域筛选方法,其特征在于,包括:CpG簇的提取步骤,包括从参考基因组中提取CpG簇;CpG簇的筛选步骤,包括根据提取的CpG簇,对比对到参考基因组的肿瘤组织样本测序数据、相应的对照样本测序数据、健康样本的cfDNA测序数据、患病样本的cfDNA测序数据进行过滤;肿瘤组织中特异的差异性甲基化区域筛选步骤,包括以过滤后的CpG簇为单位,在所述肿瘤组织样本测序数据与相应的对照样本测序数据中进行差异性甲基化分析,获得高差异性甲基化区域、低差异性甲基化区域;肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤,包括以所述健康样本的cfDNA测序数据和所述患病样本的cfDNA测序数据作为背景数据集,对高差异性甲基化区域、低差异性甲基化区域进行过滤,获得过滤后的高差异性甲基化区域、低差异性甲基化区域。2.如权利要求1所述的差异性甲基化区域筛选方法,其特征在于,CpG簇的提取步骤中,包括对每个CpG位点上下游延伸预设长度的区域,合并,获得合并的CpG簇;预设长度为100~125bp,优选为100bp;CpG簇的提取步骤中,获得合并的CpG簇后,筛选并保留至少包含m个CpG位点的窗口,获得CpG簇;m=3;CpG簇的提取步骤中,保留至少包含m个CpG位点的窗口,获得CpG簇后,还包括筛选并保留与测序芯片位点存在重叠的区域;筛选并保留与测序芯片位点存在重叠的区域时,保留至少包含1个测序芯片信号的CpG簇;所述测序芯片包括HM450K芯片、HM850K芯片中的至少一种。3.如权利要求1所述的差异性甲基化区域筛选方法,其特征在于,CpG簇的提取步骤中,还包括按预设的阈值对CpG簇进行第一次划分,获得>阈值的CpG簇以及≤阈值的CpG簇;对于>阈值的CpG簇,按照预设宽度和预设步长进行第二次划分,获得二次划分后的CpG簇;将≤阈值的CpG簇与第二次划分后的CpG簇汇总,获得汇总后的CpG簇。4.如权利要求3所述的差异性甲基化区域筛选方法,其特征在于,所述阈值为1kb;所述预设宽度为1kb;所述预设步长为500bp。5.如权利要求1所述的差异性甲基化区域筛选方法,其特征在于,CpG簇的筛选步骤中,按如下条件中的至少一种进行过滤:1)过滤在≥第一预设比例的患病样本中无法检测到的探针;2)过滤其所包含的探针信号中≥第二预设比例无法检测的CpG簇;3)过滤其所包含的探针信号中≥第三预设比例无法检测的患病样本;CpG簇的筛选步骤中,还包括对过滤后的CpG簇进行质控;对过滤后的CpG簇进行质控时,具体是根据黑名单对所述过滤后的CpG簇进行再次过滤,获得再次过滤后的CpG簇;所述黑名单包括存在多比对现象以及对应SNP热点区域的CpG位点。6.如权利要求5所述的差异性甲基化区域筛选方法,其特征在于,依次按照条件1)、2)、
3)进行过滤;第一预设比例为5%;第二预设比例为50%;第三预设比例为20%。7.如权利要求1所述的差异性甲基化区域筛选方法,其特征在于,肿瘤组织中特异的差异性甲基化区域筛选步骤中,高差异性甲基化区域是指肿瘤组织样本中的甲基化水平高于对照组织样本甲基化水平的差异性甲基化区域,低差异性甲基化区域是指肿瘤组织样本中的甲基化水平低于对照组织样本甲基化水平的差异性甲基化区域;肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤中,以中位值作为每一个CpG簇的特征值,对高差异性甲基化区域、低差异性甲基化区域进行过滤;肿瘤患者cfDNA中特异的差异性甲基化区域筛选步骤中,获得过滤后的高差异性甲基化区域、低差异性甲基化区域后,包括根据差异性甲基化区域窗口内相邻CpG的聚集密度进...

【专利技术属性】
技术研发人员:黄毅赵蔷李俊刘青峰朱彬彬易鑫杨玲
申请(专利权)人:深圳吉因加医学检验实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1