基于cfDNA全基因组测序数据识别染色质开放区域的方法、癌症预测模型及系统技术方案

技术编号:38670915 阅读:15 留言:0更新日期:2023-09-02 22:48
本发明专利技术提供了一种cfDNA片段模式的分析方法,根据样本cfDNA全基因组测序数据在人类参考基因组上的位置,结合区间划分,计算该区间的片段离散度,片段离散度的计算方法为:其中,n是区间的cfDNA端点总数量,对于第j个端点,其周围20bp内的端点总数量为m

【技术实现步骤摘要】
基于cfDNA全基因组测序数据识别染色质开放区域的方法、癌症预测模型及系统


[0001]本专利技术涉及生物医学
,具体涉及一种cfDNA片段模式的分析方法、基于cfDNA全基因组测序数据识别染色质开放区域的方法、基于片段离散度的癌症预测模型及其构建方法以及一种癌症预测系统。

技术介绍

[0002]癌症的早期诊断对于其预后至关重要,而具有超高特异性(>99%)和高灵敏度的非侵入性生物标志物的挖掘依旧是一个严峻的挑战。液体活检技术由于具有低侵入性,能够提供较全面信息等特点而受到广泛关注,其中细胞游离DNA(cell free DNA,cfDNA)图谱已被建立用于实体器官移植后组织排斥反应的检测、妊娠期间胎儿非整倍体的无创产前检查和非侵入性肿瘤诊断。使用cfDNA携带的突变信息或者cfDNA的甲基化信息来做癌症的早期诊断虽然是当前的主流方法,但这类方法的主要瓶颈在于早期癌症病人中的灵敏度不能够满足要求。
[0003]过去几年,cfDNA片段模式研究作为一种新兴起的技术受到越来越多的关注。血浆中循环的细胞游离DNA(cfDNA)分子很大程度上是由于在全身不同组织的稳态中伴随细胞死亡产生的,这些片段上携带者人体的很多信息,尤其是核小体位置的信息,和开放染色质甚至基因表达有很大的关系,通过全基因组测序能得到一个人的cfDNA片段谱。一些研究已经确定了特定的开放染色质片段模式,这些“片段模式”的特征包括较低的测序覆盖深度和在转录起始位点(TSS)附近的核小体的缺失。
[0004]目前已有一些大维度的cfDNA片段模式,比如2019年Stephen Cristiano等人提出了DELFI的方法,是基因组每5MB内的短片段比例,这种方法在7种癌症上取得了不错的分类效果,被普遍认为是经典的方法,但该方法没有将片段模式信息定位到具体的调控区间,极大影响了其生物学可解释性和医学应用前景。另一类是定位在特定区域的片段模式。2016年Snyder等人提出了一种WPS(Windowed Protected Score窗口保护分数)的片段模式,一个区间内所有端点数量

片段中心点数量,这个分数越低,说明区间被保护的程度越低。这也是区域片段模式里很经典的方法,但该片段模式的癌症诊断性能没有得到验证,且准确的核小体推断在很大程度上取决于深度测序;2019年孙坤等人提出了一种OCF的片段模式,利用区间特定位置的片段起点终点差值计算,OCF值越大说明区间越开放,该方法依赖于已知的开放染色质区域;2022年Mohammad Shahrokh Esfahani等人提出了一种PFE片段模式,一个区间的PFE值为这个区间片段长度香农熵,用来衡量已知的基因的表达情况,称为启动子片段熵,缺点是依赖于已知的基因,忽略了潜在的未知调控区域的信息。2022年周雄辉等人提出了一种IFS的片段模式,其信号主要来自于低覆盖度区域,该值越低说明区间越开放,且该工作使用IFS值鉴定了基因组的开放区域。然而,低测序深度区域可能来自于测序偏差,导致其依然不能精确描述基因组特定区域的染色质开放性。
[0005]需要一种新的cfDNA片段模式,准确描区域染色质开放性,并能够有效挖掘癌症病
人和健康人中的开放区域,实现精准医疗,实现癌症的早期诊断。

技术实现思路

[0006]为解决
技术介绍
中存在的问题,本专利技术提供了一种新的cfDNA片段模式——片段离散度的分析方法,并提供了基于cfDNA全基因组测序数据识别染色质开放区域的方法,基于片段离散度的癌症预测模型及其构建方法以及一种癌症预测系统。基于片段离散度能够更好的进行染色质开放区域的挖掘,以此为特征进行癌症的早期诊断,预测精度高。
[0007]本专利技术解决上述技术问题的技术方案如下:
[0008]第一方面,本专利技术提供了cfDNA片段模式的分析方法,包括以下步骤:
[0009]根据样本cfDNA全基因组测序数据在人类参考基因组上的位置,结合区间划分,计算该区间的片段离散度(FDI),所述片段离散度的计算方法为:
[0010][0011]其中,n是区间的cfDNA端点总数量,对于第j个端点,其周围20bp内的端点总数量为m
j
,Std(coverage)为该区间的片段覆盖度标准差。
[0012]第二方面,本专利技术提供了一种基于cfDNA全基因组测序数据识别染色质开放区域的方法,包括以下步骤:
[0013](1)将样本cfDNA全基因组测序数据匹配到人类参考基因组,得到cfDNA在基因组上的位置信息;
[0014](2)结合区间划分,计算每个区间的片段离散度(FDI),所述片段离散度的计算方法为:
[0015][0016]其中,n是区间的cfDNA端点总数量,对于第j个端点,其周围20bp内的端点总数量为m
j
,Std(coverage)为该区间的片段覆盖度标准差;
[0017](3)筛选基因组中片段离散度高于一定阈值的区域作为离散区域,即染色质开放区域。
[0018]进一步,所述步骤(2)中,以120~400bp为区间、15~25bp为间隔对全基因组进行扫描,计算所有区间的片段离散度。
[0019]进一步,步骤(3)采用贝塔分布检验筛选得到离散区域。
[0020]进一步,步骤(3)的具体步骤为:以贝塔分布拟合所有区间的片段离散度数据,以p值和FDR阈值筛选在当前染色体和该区域局部2000

10000bp内片段离散度高的区域,合并重叠区域,筛选得到最终的离散区域,即染色质开放区域。
[0021]第三方面,本专利技术还提供了一种基于片段离散度的癌症预测模型的构建方法,包括如下步骤:
[0022](1)获取训练集的步骤,包括获取癌症人群样本和健康人群样本的cfDNA全基因组测序数据,采用上述基于cfDNA全基因组测序数据识别染色质开放区域的方法测定得到每个样本的所有离散区域及片段离散度;
[0023](2)构建步骤,包括根据每个样本的离散区域的片段离散度和类标签,使用分类器
构建癌症预测模型。
[0024]进一步,还包括通过验证集对上述癌症预测模型进行性能测定的过程。
[0025]进一步,上述癌症预测模型为泛癌预测模型或单一癌症预测模型,上述癌症人群为患有乳腺癌、肝癌、胆管癌、结直肠癌、胃癌、肺癌、卵巢癌、胰腺癌中的任一种或多种。
[0026]第四方面,本专利技术还提供了上述构建方法构建得到的基于片段离散度的癌症预测模型。
[0027]第五方面,本专利技术提供了一种癌症预测系统,包括:
[0028]比对模块,用于将健康人群样本的cfDNA基因组测序数据匹配到人类参考基因组,得到cfDNA在基因组上的位置信息;用于将癌症人群样本的cfDNA基因组测序数据匹配到人类参考基因组上,得到cfDNA在基因组上的位置信息;
[0029]计算模块,用于根据上述基于cfDNA全基因组测序数据识别染色质开放区域的方法,分别计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种cfDNA片段模式的分析方法,其特征在于,包括以下步骤:根据样本cfDNA全基因组测序数据在人类参考基因组上的位置,结合区间划分,计算该区间的片段离散度(FDI),所述片段离散度的计算方法为:其中,n是区间的cfDNA端点总数量,对于第j个端点,其周围20bp内的端点总数量为m
j
,Std(coverage)为该区间的片段覆盖度标准差。2.基于cfDNA全基因组测序数据识别染色质开放区域的方法,其特征在于,包括如下步骤:(1)将样本cfDNA全基因组测序数据匹配到人类参考基因组,得到cfDNA在基因组上的位置信息;(2)结合区间划分,计算每个区间的片段离散度(FDI),所述片段离散度的计算方法为:其中,n是区间的cfDNA端点总数量,对于第j个端点,其周围20bp内的端点总数量为m
j
,Std(coverage)为该区间的片段覆盖度标准差;(3)筛选基因组中片段离散度高于一定阈值的区域作为离散区域,即染色质开放区域。3.根据权利要求2所述的基于cfDNA全基因组测序数据识别染色质开放区域的方法,其特征在于,所述步骤(2)中,以120~400bp为区间、15~25bp为间隔对全基因组进行扫描,计算所有区间的片段离散度。4.根据权利要求2所述的基于cfDNA全基因组测序数据识别染色质开放区域的方法,其特征在于,所述步骤(3),采用贝塔分布检验筛选得到离散区域。5.根据权利要求4所述的基于cfDNA全基因组测序数据识别染色质开放区域的方法,其特征在于,所述步骤(3)的具体步骤为:以贝塔分布拟合所有区间的片段离散度数据,以p值和FDR阈值筛选在当前染色体和该区域局部2000

10000b...

【专利技术属性】
技术研发人员:周雄辉王运泽
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1