预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用技术方案

技术编号：30436094 阅读：14 留言：0更新日期：2021-10-24 17:36

本发明专利技术公开了一种预测cfDNA的组织特异性来源及相关疾病概率评估系统及其应用，系统包括全基因组测序单元；数据预处理单元，去除全基因组片段的接头进行序列比对，根据比对结果删除重复序列并进行序列排序并获得统计指标；数据分析单元，将数据预处理单元处理的序列与人类不同细胞组织来源的转录组表达谱数据库进行比对，根据比对的结果判断cfDNA的来源且将数据预处理单元处理的序列与细胞变异数据库进行比对，根据比对的结果判断犯相关疾病的风险；数据存储单元；基于cfDNA的全基因组测序可以达到超高灵敏的检测，可以在实体恶性肿瘤中观察到的数千个体细胞突变的累积信号。中观察到的数千个体细胞突变的累积信号。中观察到的数千个体细胞突变的累积信号。

全部详细技术资料下载

【技术实现步骤摘要】
预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用

[0001]本专利技术属于生物
，具体涉及一种预测cfDNA的组织特异性来源及相关疾病概率评估系统及其应用。

技术介绍

[0002]循环核酸(cfDNA)主要存在于人的循环血浆，尿液和其他体液中。cfDNA包含双链DNA片段，这些片段非常短(小于200bp)，并且浓度非常低。在健康个体中，血浆cfDNA被认为主要源自造血谱系正常细胞的凋亡。早期的研究发现cfDNA存在于循环系统中且半衰期很短，并有研究者提出了一种cfDNA从凋亡细胞中持续释放以及快速降解或过滤过程的统计分析模型。近年来，基于cfDNA的非侵入性诊断方法已经在妇幼医学领域实现，且商业化。例如，在孕妇中，约有10％
–
15％的cfDNA来自胎盘滋养细胞，在高危妊娠中普遍使用基于cfDNA的胎儿遗传异常筛查方法筛查唐氏综合征。在肿瘤学中，通过量化肿瘤脱落的cfDNA中的突变或非整倍性来监测晚期癌症越来越受到关注。在移植医学中，同种异体移植排斥事件可能与由移植的实体器官贡献的异常高水平的供体来源的cfDNA片段相关，从而凭借异常cfDNA信号评估排斥风险。尽管目前基于cfDNA的鉴别诊断疾病的方法取得一些进步，但都存在着共同的局限性，即需要遗传学差异的精准鉴别来达到实际的精准应用，例如需要比较胎儿与母亲，肿瘤与正常组织，供体与受体之间的cfDNA的差异性，这些方面的工作目前都是需要进一步完善并提升鉴别准确率的。
[0003]除上述领域外，研究者在慢性疾病(如心血管疾病...

【技术保护点】

【技术特征摘要】
1.一种预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，包括：全基因组测序单元，用于获取样品中的cfDNA，并对cfDNA进行全基因组测序，得到全基因组片段；数据预处理单元，用于去除全基因组片段的接头，获得统计指标，并对去除接头后的全基因组片段进行序列比对，根据此比对结果及统计指标删除重复序列并进行序列排序，得到排序后序列；数据分析单元，用于将排序后序列通过对核小体占位信号分布与人类不同细胞组织来源的转录组表达谱数据库进行比对，根据此比对的结果判断cfDNA的来源；还用于将数据排序后序列与细胞变异数据库进行比对，根据此比对的结果判断犯相关疾病的概率；数据存储单元，用于存储现有的人类不同细胞组织来源的转录组表达谱数据库、细胞变异数据库和由数据分析单元得到的犯相关疾病的概率。2.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述统计指标包括基于cfDNA序列的比对质量指标参数和测序覆盖度。3.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述数据预处理单元还用于染色体不稳定性CNA得分评估计算，核小体占位信号、细胞系和组织来源表达谱的关联相关性得分。4.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述细胞变异数据库包括SNV，SV和CNV的数据，核小体占位信号数据。5.根据权利要求4所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述数据分析单元将排序后序列与细胞变异数据库进行比对时，具体步骤包括：数据分析单元将排序后序列与细胞变异数据库进行比对，并使用pysam模块提取到包含变异的比对测序片段并提取所有唯一映射到目标变异信息，然后将所有提取的包含变异的比对测序片段进行后续肿瘤负荷模型构建训练与分类分析；所述数据分析单元基于SNV进行ctDNA定量检测，得到样品中检测到的SNV数量，其中，样品中检测到的SNV数量为：M＝N(1
‑
(1
‑
TF)
cov
)+μR；其中，M代表样品中检测到的SNV数量，N代表患者特异性突变谱中SNV的总数，TF代表数据库中肿瘤比例，cov代表具有肿瘤特异性SNV的部位的局部覆盖率，μ代表与对照样本全基因组数据中评估的特定于患者的SNV谱相对应的平均噪声率，R表示涵盖特定于患者的突变体的读长read总数；所述数据分析单元在训练集样本中，对肿瘤组织、癌旁组织分析出CNA，依据训练集组织水平鉴定的CNA事件，鉴定cfDNA中ctDNA的CNV事件；采取动态滑动窗口bin技术，对bin区域内测序深度进行样本内标准化处理，bin内覆盖度/样本平均覆盖度；对cfDNA样本做z得分标准化处理：在每个500bp的基因组bin窗口区间内，计算统计覆盖度的中位数和中位数绝对偏差，最后按下述公式计算标准化后的覆盖度：标准化覆盖度＝(bi
‑
中位数)/MAD；其中，MAD代表统计覆盖度的中位数和中位数绝对偏差；所述数据分析单元将SNV与CNA特征整合，对于所述SNV维度的特征，采用>96％特异度，z值>4；对于所述CNA维度的特征，采用>90％特异度，z值>1.5、或
‑
1....

【专利技术属性】
技术研发人员：崔健，
申请(专利权)人：云康信息科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人