预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用技术方案

技术编号:30436094 阅读:14 留言:0更新日期:2021-10-24 17:36
本发明专利技术公开了一种预测cfDNA的组织特异性来源及相关疾病概率评估系统及其应用,系统包括全基因组测序单元;数据预处理单元,去除全基因组片段的接头进行序列比对,根据比对结果删除重复序列并进行序列排序并获得统计指标;数据分析单元,将数据预处理单元处理的序列与人类不同细胞组织来源的转录组表达谱数据库进行比对,根据比对的结果判断cfDNA的来源且将数据预处理单元处理的序列与细胞变异数据库进行比对,根据比对的结果判断犯相关疾病的风险;数据存储单元;基于cfDNA的全基因组测序可以达到超高灵敏的检测,可以在实体恶性肿瘤中观察到的数千个体细胞突变的累积信号。中观察到的数千个体细胞突变的累积信号。中观察到的数千个体细胞突变的累积信号。

【技术实现步骤摘要】
预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用


[0001]本专利技术属于生物
,具体涉及一种预测cfDNA的组织特异性来源及相关疾病概率评估系统及其应用。

技术介绍

[0002]循环核酸(cfDNA)主要存在于人的循环血浆,尿液和其他体液中。cfDNA包含双链DNA片段,这些片段非常短(小于200bp),并且浓度非常低。在健康个体中,血浆cfDNA被认为主要源自造血谱系正常细胞的凋亡。早期的研究发现cfDNA存在于循环系统中且半衰期很短,并有研究者提出了一种cfDNA从凋亡细胞中持续释放以及快速降解或过滤过程的统计分析模型。近年来,基于cfDNA的非侵入性诊断方法已经在妇幼医学领域实现,且商业化。例如,在孕妇中,约有10%

15%的cfDNA来自胎盘滋养细胞,在高危妊娠中普遍使用基于cfDNA的胎儿遗传异常筛查方法筛查唐氏综合征。在肿瘤学中,通过量化肿瘤脱落的cfDNA中的突变或非整倍性来监测晚期癌症越来越受到关注。在移植医学中,同种异体移植排斥事件可能与由移植的实体器官贡献的异常高水平的供体来源的cfDNA片段相关,从而凭借异常cfDNA信号评估排斥风险。尽管目前基于cfDNA的鉴别诊断疾病的方法取得一些进步,但都存在着共同的局限性,即需要遗传学差异的精准鉴别来达到实际的精准应用,例如需要比较胎儿与母亲,肿瘤与正常组织,供体与受体之间的cfDNA的差异性,这些方面的工作目前都是需要进一步完善并提升鉴别准确率的。
[0003]除上述领域外,研究者在慢性疾病(如心血管疾病,包括冠心病,心肌梗死,中风)患者和自身免疫性疾病患者中陆续发现cfDNA水平相对于健康对照人群普遍显著升高,这可能是由于组织损伤引起的,但是由于缺少遗传差异,目前无法通过cfDNA进行专门监测。而上述疾病在临床上还非常缺乏有效且快速的鉴别诊断和筛查的分子学方法,以至于广大患者群体处于缺乏精细化预判与管理的高危医学盲区,从而无法提升临床高告知率和降低死亡率。此外,即使在肿瘤学领域,cfDNA序列携带者的突变,并以此能够监控肿瘤来源和纯度,然而突变的含量比例在血浆分布及其微弱,因此难以稳定准确达到理想的起源组织分析的要求。
[0004]近期研究报道了cfDNA核酸片段可能携带着核小体或染色体的特征进入了血浆和循环系统,从而有可能凭借cfDNA片段大小推测出他所代表着的相对应的起源组织中核小体附着在基因组上的状态和物理占位分布特征。有研究报道了cfDNA能够对应到染色体上的核小体(约147bp)的峰分布特征和染色体(核小体+接头组蛋白;约167bp)对应的峰。目前,有一些假设或者间接的证据表明,与健康状态相比,特定的生理状况或疾病过程中的很大比例的cfDNA可能来自损伤疾病器官的凋亡细胞,cfDNA具有特定的损伤的组织特征与基因表达。因此,cfDNA具有一定潜能作为组织(包括肿瘤)损伤的无创非侵入性检测手段和技术应用于精准医学的临床实际工作指导,包括鉴别诊断和治疗方案指导和指定中。
[0005]测序技术的进步促进了个性化疾病风险分析和临床诊断。近年来,基于循环核酸
(cfDNA)的非侵入性诊断取得了一些重大进展。它利用了死细胞将DNA片段释放到循环中的事实,并且某些DNA片段带有指示其起源组织的信息。根据用于识别cfDNA溯源的信号,现有方法可分为三类:基于cfDNA突变的方法,基于甲基化模式的方法和基于cfDNA片段模式的方法。在基于cfDNA突变的方法中,某些疾病的驱动基因中的SNP信息或检测到的突变被用于识别cfDNA的组织起源。开发了基于甲基化模式的方法,以基于组织特异性甲基化模式识别cfDNA的组织溯源。在基于cfDNA突变的方法中,不同的SNP或遗传突变可以指示cfDNA的组织来源。SNP基因分型信息可以通过基于全血样本的SNP标记获得。一旦发现了疾病的独特SNP或致病突变,通常会使用基于PCR的技术和基于测序的方法来检测cfDNA中的突变。随着被评估靶标数量的增加,基于PCR的技术变得越来越不实用;但是二代高通量测序技术的敏感性和特异性会随患者携带突变的cfDNA的水平和疾病突变的异质性而变化而最终导致结果不稳定。尽管不同的错误抑制策略已经被提出,基于ctDNA突变的检测与分析方法仍然存在很大的挑战。有方法提出单分子标签(UMI)标记技术用于消减因为PCR扩增引入的假阳性测序片段,降低ctDNA突变测序错误率,但基于cfDNA的驱动突变来判别组织溯源从组织表达特征的全局性角度讲仍然是不充分的不可靠的,无法区分cfDNA片段来自哪个组织的细胞。另外,还有基于DNA甲基化的cfDNA组织溯源分析方法。甲基化是一种表观遗传修饰,它是在胞嘧啶残基上添加共价甲基,尤其是在CpG二核苷酸中。不同的组织或细胞类型,包括正常的和异常的,具有不同的DNA甲基化模式。此外,DNA甲基化的改变与疾病有着非常密切的关系。例如,肿瘤抑制基因(如MLH1)中异常的启动子高甲基化会导致基因沉默,并导致肿瘤的发生;DPP6,MRPL36和MEST等肿瘤基因中异常的启动子低甲基化激活基因表达并促进细胞的无限增殖。当cfDNA从死细胞中释放时,胞嘧啶残基上的DNA甲基化修饰不会消失。因此,组织特异性甲基化模式被提出有希望用于指示cfDNA的组织来源。目前有研究报道了根据公开的DNA甲基化数据提取组织特异性甲基化位点或区域的研究。在基于CpG位点的方法中,每个CpG位点的甲基化信号是平均信号,它掩盖了来自组织衍生的cfDNA的微小部分的甲基化信号。此外,通过疾病样本和正常样本的甲基化数据之间的比较选择的差异甲基化的CpG位点表现出不同程度的异质性,这损害了临床诊断的预测准确性。因此,需要一个更灵敏的指标来扩增来自组织的cfDNA的甲基化信号,并且在选择CpG并计算甲基化分数进行分类时,目前还没有方法充分考虑到CpG位点异质性的不同程度,大大影响了组织溯源的判别能力。其次,在基于区域甲基化分析方法中,有方法选择具有密集CpG位点或高度共甲基化CpG位点的区域作为潜在的甲基化标记,该方法假设预计在相邻CpG位点之间具有相似的甲基化状态,通过采用如“甲基化不一致”或“甲基化单倍型负荷”的度量标准来训练数据进而筛选潜在的甲基化信号。但是,大多数甲基化信号混杂着不同来源的组织,特征标记的甲基化信号通常是根据训练数据中不同组织或正常血浆和患病组织中甲基化信号的线性组合来建模的,参数代表其相应的比例贡献。联立方程中的参数通过反卷积或最大似然算法求解,因此,反卷积和近似求解的方法惠带来的偏差并降低预测精度。最后,基于cfDNA甲基化的方法中,甲基化检测主要采用亚硫酸氢盐的转化,其转化率以及亚硫酸氢盐测序数据的覆盖范围和深度对预测精度也有很大的影响。亚硫酸氢盐的转化率和偏差随不同的文库制备方法而变化。
[0006]综上所述,目前基于cfDNA突变或甲基化技术追溯组织起源的方法的技术不足,分别体现在cfDNA特征的稀疏性,低频率,稳定性不高,单一信号维度/变异类型不足以重构出
cfDNA的原始组织来源的全局性信号。另外甲基化检测本身也受制于亚硫本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测cfDNA的组织特异性来源及相关疾病概率评估系统,其特征在于,包括:全基因组测序单元,用于获取样品中的cfDNA,并对cfDNA进行全基因组测序,得到全基因组片段;数据预处理单元,用于去除全基因组片段的接头,获得统计指标,并对去除接头后的全基因组片段进行序列比对,根据此比对结果及统计指标删除重复序列并进行序列排序,得到排序后序列;数据分析单元,用于将排序后序列通过对核小体占位信号分布与人类不同细胞组织来源的转录组表达谱数据库进行比对,根据此比对的结果判断cfDNA的来源;还用于将数据排序后序列与细胞变异数据库进行比对,根据此比对的结果判断犯相关疾病的概率;数据存储单元,用于存储现有的人类不同细胞组织来源的转录组表达谱数据库、细胞变异数据库和由数据分析单元得到的犯相关疾病的概率。2.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统,其特征在于,所述统计指标包括基于cfDNA序列的比对质量指标参数和测序覆盖度。3.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统,其特征在于,所述数据预处理单元还用于染色体不稳定性CNA得分评估计算,核小体占位信号、细胞系和组织来源表达谱的关联相关性得分。4.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统,其特征在于,所述细胞变异数据库包括SNV,SV和CNV的数据,核小体占位信号数据。5.根据权利要求4所述预测cfDNA的组织特异性来源及相关疾病概率评估系统,其特征在于,所述数据分析单元将排序后序列与细胞变异数据库进行比对时,具体步骤包括:数据分析单元将排序后序列与细胞变异数据库进行比对,并使用pysam模块提取到包含变异的比对测序片段并提取所有唯一映射到目标变异信息,然后将所有提取的包含变异的比对测序片段进行后续肿瘤负荷模型构建训练与分类分析;所述数据分析单元基于SNV进行ctDNA定量检测,得到样品中检测到的SNV数量,其中,样品中检测到的SNV数量为:M=N(1

(1

TF)
cov
)+μR;其中,M代表样品中检测到的SNV数量,N代表患者特异性突变谱中SNV的总数,TF代表数据库中肿瘤比例,cov代表具有肿瘤特异性SNV的部位的局部覆盖率,μ代表与对照样本全基因组数据中评估的特定于患者的SNV谱相对应的平均噪声率,R表示涵盖特定于患者的突变体的读长read总数;所述数据分析单元在训练集样本中,对肿瘤组织、癌旁组织分析出CNA,依据训练集组织水平鉴定的CNA事件,鉴定cfDNA中ctDNA的CNV事件;采取动态滑动窗口bin技术,对bin区域内测序深度进行样本内标准化处理,bin内覆盖度/样本平均覆盖度;对cfDNA样本做z得分标准化处理:在每个500bp的基因组bin窗口区间内,计算统计覆盖度的中位数和中位数绝对偏差,最后按下述公式计算标准化后的覆盖度:标准化覆盖度=(bi

中位数)/MAD;其中,MAD代表统计覆盖度的中位数和中位数绝对偏差;所述数据分析单元将SNV与CNA特征整合,对于所述SNV维度的特征,采用>96%特异度,z值>4;对于所述CNA维度的特征,采用>90%特异度,z值>1.5、或

1....

【专利技术属性】
技术研发人员:崔健
申请(专利权)人:云康信息科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1