【技术实现步骤摘要】
一种模拟高深度测序TSS特征的方法
[0001]本专利技术属于生物
,涉及一种模拟高深度测序TSS特征的方法。
技术介绍
[0002]游离DNA(cfDNA)是游离于血液循环系统中的来自细胞的DNA片段,主要来自于细胞凋亡进程中片段化的DNA、坏死细胞的DNA碎片、细胞分泌的外泌体。cfDNA片段长度约为166bp,对应的是核小体DNA(145
‑
147bp)的长度加上连接DNA的长度(约20bp),它由于核小体的保护得以稳定存在而不被降解。cfDNA的分析是液体活检一个快速发展的领域。RNA聚合酶II与基因组的结合会影响核小体在转录起始位点(TSSs)的分布,一般来说基因启动子的转录核心区通常没有核小体的分布,全基因组图谱也显示表达活跃和沉默的基因的核小体分布显著不同,这些结果提示核小体的分布与真核生物的基因表达相关。因此,通过对cfDNA进行高通量测序,分析TSS区测序序列的分布可以预测基因表达。一般来说,cfDNA在TSS的覆盖深度与基因表达呈负相关,即基因TSS区域具有越低的cfDNA片段覆盖,则该基因表达越丰富。
[0003]目前对游离DNA的应用多是低深度测序(尤其是无创产前诊断),低深度测序一方面导致某些TSS区域没有测序片段的覆盖,另一方面导致某些TSS区域的覆盖具有随机性。对cfDNA进行高深度测序可以扩大基因组的覆盖范围,增加TSS区域测序片段覆盖的稳定性,但也增加了测序成本,难以在无创领域中直接推广。
[0004]CN113160889A公开了一种基于cf
【技术保护点】
【技术特征摘要】
1.一种模拟高深度测序TSS特征的方法,其特征在于,所述方法包括以下步骤:(1)获取参考基因组捕获的游离DNA样本测序数据和每个基因TSS的上下游区域的序列覆盖情况;(2)基于游离DNA的低深度测序结果获取构建模拟高深度测序结果TSS值的特征;(3)基于游离DNA的低深度测序结果获取的特征构建模拟高深度测序结果的TSS值模型。2.根据权利要求1所述的模拟高深度测序TSS特征的方法,其特征在于,所述步骤(1)具体包括以下步骤:(1
‑
1)获取样本的高通量测序原始数据与参考基因组进行比对,统计每个基因TSS上下游区域的序列每个位点的覆盖深度;(1
‑
2)对每个基因的TSS按照式(1)进行标准化分别得到每个基因TSS上下游的特征;TSS
inormalized
=TSS
idepth
/total TSS
depth
*106ꢀꢀꢀꢀ
式(1);其中TSS
inormalized
为基因i的转录起始位点区域上下游区域覆盖深度标准化后的值,TSS
idepth
为基因i的转录起始位点区域上下游区域的覆盖深度,total TSS
depth
为所有基因的转录起始位点区域上下游区域的覆盖深度加和;优选地,所述区域选自距离基因转录起始位点上下游0.5
‑
1.5kb、1.5
‑
2.5kb、2.5
‑
3.5kb、3.5
‑
4.5kb、4.5
‑
5.5kb或5.5
‑
6.5kb的位点中的至少三个的组合。3.根据权利要求1或2所述的模拟高深度测序TSS特征的方法,其特征在于,所述步骤(2)具体包括以下步骤:(2
‑
1)提取每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、上一个邻近基因和下一个邻近基因;(2
‑
2)根据(1
‑
2)和(2
‑
1)获得的每个基因的信息,构建每个基因用于预测高深度TSS结果的特征工程,作为模型构建的输入特征。4.根据权利要求3所述的模拟高深度测序TSS特征的方法,其特征在于,所述特征值包括:每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、上一个邻近基因的基因间隔、每个基因的三个TSS
normalized
值、每个基因的三个TSS
normalized
的rank、上一个邻近基因的三个TSS
normalized
值、上一个邻近基因的三个TSS
normalized
值的rank、下一个邻近基因的三个TSS
normalized
值和下一个邻近基因的三个TSS
normalized
值的rank;所述三个TSS
normalized
值包括:TSS
0.5
‑
1.5kb normalized
、TSS
1.5
‑
2.5kb normalized
、TSS
2.5
...
【专利技术属性】
技术研发人员:邢彦如,付永胜,刘欢,孔令印,梁波,
申请(专利权)人:苏州贝康医疗器械有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。