一种模拟高深度测序TSS特征的方法技术

技术编号:38972125 阅读:37 留言:0更新日期:2023-09-28 09:36
本发明专利技术公开了一种模拟高深度测序TSS特征的方法。所述方法包括以下步骤:(1)获取参考基因组捕获的游离DNA样本测序数据和每个基因的TSS上下游区域的序列覆盖情况;(2)基于游离DNA的低深度测序结果获取构建模拟高深度测序结果TSS值的特征;(3)基于游离DNA的低深度测序结果的特征构建模拟高深度测序结果的TSS值模型。本发明专利技术基于低深度测序结果提取特征工程并构建模型便可获得与高深度测序相当的TSS特征,能够有效增加可分析基因TSS区域的个数,增加可分析基因TSS区域测序片段覆盖的稳定性,在保证TSS值计算准确度的同时大大降低了测序成本。成本。成本。

【技术实现步骤摘要】
一种模拟高深度测序TSS特征的方法


[0001]本专利技术属于生物
,涉及一种模拟高深度测序TSS特征的方法。

技术介绍

[0002]游离DNA(cfDNA)是游离于血液循环系统中的来自细胞的DNA片段,主要来自于细胞凋亡进程中片段化的DNA、坏死细胞的DNA碎片、细胞分泌的外泌体。cfDNA片段长度约为166bp,对应的是核小体DNA(145

147bp)的长度加上连接DNA的长度(约20bp),它由于核小体的保护得以稳定存在而不被降解。cfDNA的分析是液体活检一个快速发展的领域。RNA聚合酶II与基因组的结合会影响核小体在转录起始位点(TSSs)的分布,一般来说基因启动子的转录核心区通常没有核小体的分布,全基因组图谱也显示表达活跃和沉默的基因的核小体分布显著不同,这些结果提示核小体的分布与真核生物的基因表达相关。因此,通过对cfDNA进行高通量测序,分析TSS区测序序列的分布可以预测基因表达。一般来说,cfDNA在TSS的覆盖深度与基因表达呈负相关,即基因TSS区域具有越低的cfDNA片段覆盖,则该基因表达越丰富。
[0003]目前对游离DNA的应用多是低深度测序(尤其是无创产前诊断),低深度测序一方面导致某些TSS区域没有测序片段的覆盖,另一方面导致某些TSS区域的覆盖具有随机性。对cfDNA进行高深度测序可以扩大基因组的覆盖范围,增加TSS区域测序片段覆盖的稳定性,但也增加了测序成本,难以在无创领域中直接推广。
[0004]CN113160889A公开了一种基于cfDNA组学特性的癌症无创早筛方法,包括cfDNA组学特征模型和机器学习训练模型,包括建立cfDNA组学特征模型;通过血液采集提取cfDNA;将提取的cfDNA进行建库和测序;并提取cfDNA组学特征,用于比对。结合cfDNA长度分布特征,拷贝数变异密度分布特征以及cfDNA启动子周围开放性特征,通过cfDNA低深度的全基因组测序方式,全面地刻画cfDNA在胃癌病人中的特征,准确地识别早期胃癌病人。但此方法为低深度测序,存在基因组覆盖范围小、TSS区域测序片段覆盖不稳定等问题。
[0005]CN113838533A公开了一种癌症检测模型及其构建方法和试剂盒,通过对血浆游离DNA的全基因组测序,挖掘出了可应用于癌症检测的核小体分布特征、末端序列特征以及片段大小分布特征,通过构建这三个指标的分类模型,得到每个指标对于样本的预测得分,然后使用逻辑回归模型,对这些得分进行整合并加入拷贝数变异特征信息,得到最终分类预测模型,该癌症检测模型显著提高了癌症检测的效率和准确性。
[0006]综上所述,目前游离DNA的应用多为低深度测序,存在基因组覆盖范围小、TSS区域测序片段覆盖不稳定等问题。如何提供一种经济方便且具备高准确性和高稳定性的测序方法,已成为目前生物
亟待解决的问题之一。

技术实现思路

[0007]针对现有技术的不足和实际需求,本专利技术提供一种模拟高深度测序TSS特征的方法,解决了目前游离DNA低深度测序存在的可分析TSS区域少、TSS区域测序片段覆盖不稳定
等问题,达到了增加可分析TSS区域的个数,增加TSS区域测序片段覆盖的稳定性的效果。
[0008]为达到此专利技术目的,本专利技术采用以下技术方案:
[0009]第一方面,本专利技术提供了一种模拟高深度测序TSS特征的方法,所述方法包括以下步骤:
[0010](1)获取参考基因组捕获的游离DNA样本测序数据和每个基因TSS的上下游区域的序列覆盖情况;
[0011](2)基于游离DNA的低深度测序结果获取构建模拟高深度测序结果TSS值的特征;
[0012](3)基于游离DNA的低深度测序结果获取的特征构建模拟高深度测序结果的TSS值模型。
[0013]本专利技术基于低深度测序结果提取特征工程并构建模型,不需要对cfDNA进行高深度测序便可获得与高深度测序相当的TSS特征,能够有效扩大可分析TSS区域,增加TSS区域测序片段覆盖的稳定性,降低测序成本。
[0014]优选地,所述步骤(1)具体包括以下步骤:
[0015](1

1)获取样本的高通量测序原始数据与参考基因组进行比对,统计每个基因TSS上下游区域的序列每个位点的覆盖深度;
[0016](1

2)对每个基因的TSS按照式(1)进行标准化分别得到每个基因TSS上下游的特征;
[0017]TSS
inormalized
=TSS
idepth
/total TSS
depth
*106ꢀꢀꢀ
式(1);
[0018]其中TSS
inormalized
为基因i的转录起始位点区域上下游区域覆盖深度标准化后的值,TSS
idepth
为基因i的转录起始位点区域上下游区域的覆盖深度,total TSS
depth
为所有基因的转录起始位点区域上下游区域的覆盖深度加和。
[0019]优选地,所述区域选自距离基因转录起始位点上下游0.5

1.5kb、1.5

2.5kb、2.5

3.5kb、3.5

4.5kb、4.5

5.5kb或5.5

6.5kb的位点中的至少三个的组合。
[0020]例如区域长度可以为上下游1kb、2kb和3kb;可以为上下游1kb、2kb和4kb;可以为上下游1kb、3kb和6kb。
[0021]上述0.5

1.5中的具体点值可以选择0.5、0.6、0.7、0.9、1、1.2、1.3、1.4、1.5等。
[0022]上述1.5

2.5中的具体点值可以选择1.5、1.6、1.7、1.9、2、2.2、2.3、2.4、2.5等。
[0023]上述2.5

3.5中的具体点值可以选择2.5、2.6、2.7、2.9、3、3.2、3.3、3.4、3.5等。
[0024]上述3.5

4.5中的具体点值可以选择3.5、3.6、3.7、3.9、4、4.2、4.3、4.4、4.5等。
[0025]上述4.5

5.5中的具体点值可以选择4.5、4.6、4.7、4.9、5、5.2、5.3、5.4、5.5等。
[0026]上述5.5

6.5中的具体点值可以选择5.5、5.6、5.7、5.9、6、6.2、6.3、6.4、6.5等。
[0027]优选地,所述步骤(2)具体包括以下步骤:
[0028](2

1)提取每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、上一个邻近基因和下一个邻近基因;
[0029](2

...

【技术保护点】

【技术特征摘要】
1.一种模拟高深度测序TSS特征的方法,其特征在于,所述方法包括以下步骤:(1)获取参考基因组捕获的游离DNA样本测序数据和每个基因TSS的上下游区域的序列覆盖情况;(2)基于游离DNA的低深度测序结果获取构建模拟高深度测序结果TSS值的特征;(3)基于游离DNA的低深度测序结果获取的特征构建模拟高深度测序结果的TSS值模型。2.根据权利要求1所述的模拟高深度测序TSS特征的方法,其特征在于,所述步骤(1)具体包括以下步骤:(1

1)获取样本的高通量测序原始数据与参考基因组进行比对,统计每个基因TSS上下游区域的序列每个位点的覆盖深度;(1

2)对每个基因的TSS按照式(1)进行标准化分别得到每个基因TSS上下游的特征;TSS
inormalized
=TSS
idepth
/total TSS
depth
*106ꢀꢀꢀꢀ
式(1);其中TSS
inormalized
为基因i的转录起始位点区域上下游区域覆盖深度标准化后的值,TSS
idepth
为基因i的转录起始位点区域上下游区域的覆盖深度,total TSS
depth
为所有基因的转录起始位点区域上下游区域的覆盖深度加和;优选地,所述区域选自距离基因转录起始位点上下游0.5

1.5kb、1.5

2.5kb、2.5

3.5kb、3.5

4.5kb、4.5

5.5kb或5.5

6.5kb的位点中的至少三个的组合。3.根据权利要求1或2所述的模拟高深度测序TSS特征的方法,其特征在于,所述步骤(2)具体包括以下步骤:(2

1)提取每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、与上一个邻近基因的基因间隔、上一个邻近基因和下一个邻近基因;(2

2)根据(1

2)和(2

1)获得的每个基因的信息,构建每个基因用于预测高深度TSS结果的特征工程,作为模型构建的输入特征。4.根据权利要求3所述的模拟高深度测序TSS特征的方法,其特征在于,所述特征值包括:每个基因的染色体信息、起始位点、终止位点、正负链、基因长度、上一个邻近基因的基因间隔、每个基因的三个TSS
normalized
值、每个基因的三个TSS
normalized
的rank、上一个邻近基因的三个TSS
normalized
值、上一个邻近基因的三个TSS
normalized
值的rank、下一个邻近基因的三个TSS
normalized
值和下一个邻近基因的三个TSS
normalized
值的rank;所述三个TSS
normalized
值包括:TSS
0.5

1.5kb normalized
、TSS
1.5

2.5kb normalized
、TSS
2.5
...

【专利技术属性】
技术研发人员:邢彦如付永胜刘欢孔令印梁波
申请(专利权)人:苏州贝康医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1