一种评估基因组重复区探针捕获安全性的方法及其装置制造方法及图纸

技术编号:37745924 阅读:13 留言:0更新日期:2023-06-05 23:32
本发明专利技术公开了一种评估基因组重复区风险探针的方法及其装置。该方法包括下述步骤:构建重复区探针集R、中靶率高探针集A及混合探针集R+A,藉由探针集A和R+A对实验样本测序数据的差异构建风险探针影响力表格,分析高脱靶和低脱靶探针的序列差异并得到高危模体,最后利用高危模体集去筛选重复区探针集R或同重复类型的探针集R

【技术实现步骤摘要】
一种评估基因组重复区探针捕获安全性的方法及其装置


[0001]本专利技术涉及生物信息
,具体而言,涉及一种评估基因组重复区探针捕获安全性的方法及其装置。

技术介绍

[0002]随着NGS(Next Generation Sequencing,NGS)的蓬勃发展,科研及医疗人员对人类基因组研究愈发深入,靶向测序技术可以将感兴趣的基因组区域富集出来进行测序,可以大规模应用于科研、临床诊断、健康筛查等领域。人类基因组大约31.6亿个碱基,其中约50%属于基因组重复区,约110万个重复区域,共1395种重复区域类型,同种重复区域间序列相似度很高。当靶向测序技术设计的探针涉及重复区域时,该探针可能会在全基因组捕获与之相似的核酸片段,从而造成“脱靶”,由此带来的数据浪费和数据分析难题一直困扰着从业人员。
[0003]考虑到基因组重复区探针带来的弊端,市场上绝大多数公司均尽量避免在此区域设计探针,即使设计后投入使用也无法判断其是否会造成脱靶以及是否会严重降低捕获效率,然而随科研及医学的发展,在基因组重复区域设计探针的情况在所难免,但重复区探针风险程度仍未得到有效评估,使后续实验与分析充满不确定性。因此,推出一种评估基因组重复区探针捕获安全性的方法显得尤为重要。

技术实现思路

[0004]本专利技术旨在提供一种评价基因组重复区探针捕获安全性的方法及装置,以区分涉及基因组重复区的探针中的高风险探针和低风险探针,以此来解决现有技术的探针在基因组重复区域容易脱靶、低捕获效率等问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:
[0006]在一实施方式中,提供一种评估探针捕获安全性的方法,包括以下步骤:
[0007](1)注释待评估探针集中的每一条探针;
[0008](2)对添加了上述待评估探针的探针集和另一未添加上述待评估探针的探针集进行测序和实际捕获情况进行统计;
[0009](3)依据统计结果研究构建探针的脱靶影响力模型;
[0010](4)利用上述脱靶影响力模型和实际脱靶数据对基因组不同重复区的探针进行脱靶等级划分;
[0011](5)对经过等级划分的探针进行差异模体分析,得到高危模体库;
[0012](6)利用高危模体库对所有待评估探针进行捕获安全性评估。
[0013]在一实施方式中,提供一种评估基因组重复区探针捕获安全性的方法,包括以下步骤:
[0014](1)构建基因组重复区探针集,注释每种重复区域类型的探针并统计其探针数。
[0015](2)构建中靶率在85%以上的高中靶探针集,对实验样本测序并注释在每种重复
区域类型的脱靶探针,统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数。
[0016](3)将上述高中靶探针集与上述基因组重复区探针集混合形成混和探针集,对上述实验样本测序并注释每种重复区域类型的脱靶探针,统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数。
[0017](4)计算每种重复区域类型中的探针的脱靶影响力并排序;
[0018]依据排序结果对在重复区域类型中的探针,划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集不同脱靶影响力,前述高影响力重复类型集、前述中影响力重复类型集、前述低影响力重复类型集分别与上述高中靶探针集混合,得到高中靶

高影响力重复类型集、高中靶

中影响力重复类型集、高中靶

低影响力重复类型集。
[0019](5)上述高影响力重复类型集、上述中影响力重复类型集、上述低影响力重复类型集的探针依据所属的重复区域类型进行一次以上的划分,得到多个高影响力重复类型集组、多个中影响力重复类型集组、多个低影响力重复类型集组;前述多个高影响力重复类型集组、前述多个中影响力重复类型集组、前述多个低影响力重复类型集组分别与上述高中靶探针集混合得到第一探针集组、第二探针集组、以及第三探针集组。
[0020](6)上述高中靶

高影响力重复类型集、上述高中靶

中影响力重复类型集、上述高中靶

低影响力重复类型集探针集分别对上述实验样本进行捕获测序,计算每条探针的脱靶读段数并进行划分,得到高脱靶探针、较高脱靶探针、
[0021]低脱靶探针、无脱靶探针。
[0022](7)上述高脱靶探针、上述较高脱靶探针组成高风险序列集,上述无脱靶探针组成低风险序列集。以上述低风险序列集作为对照,使用吉布斯采样(Gibbs sampling)算法对上述高风险序列集和上述低风险序列集进行差异模体
[0023](motif)分析,得到重复区域类型的高危模体集。
[0024](8)依次分析上述基因组重复区探针集的所有重复区域类型,每个重复区域类型分析得到对应的基因组高风险序列集和基因组低风险序列集,上述基因组高风险序列集对照上述基因组低风险序列集,得到基因组重复区高危模体集;合并多个前述基因组重复区高危模体集,并合并上
[0025]述重复区域类型的高危模体集,以得到高危模体数据库。
[0026](9)使用上述高危模体数据库对上述基因组重复区探针集或另一基因组重复区探针集中的每一条探针进行分类。若某探针含有高危模体数据库中任意一种模体,则此探针为高危探针,否则则为安全探针。
[0027]进一步地,上述基因组重复区中探针数量应大于50条。当以人类为参考基因组时,全基因组重复区域类型注释文件来自于加州大学圣克鲁兹分校UCSC数据库(UCSC Genome Database)。
[0028]进一步地,上述高中靶探针集内探针条数建议范围=2000
±
1500,中靶率建议范围85%~95%。
[0029]更进一步地,上述脱靶读段数计算原理为:将脱靶读段的序列与探针序列进行比对,当成功比对时,该脱靶读段属于该探针的脱靶读段。
[0030]进一步地,上述高风险序列集与上述低风险序列集具有相同的重复区域类型。
[0031]更进一步地,上述高影响力重复类型集、上述中影响力重复类型集、上述低影响力重复类型集中的探针可以出现在多个重复类型集组。进一步地,每种重复区域类型中的探针的上述脱靶影响力计算方法为:
[0032][0033];其中重复类型集划分方式具有一定的弹性,优选排序后数列中数值变化率较大的拐点作为划分的边界。
[0034]进一步地,上述第一探针集组、第二探针集组、以及第三探针集组的数量应均大于2,优选地每个探针集组数量大于3。
[0035]进一步地,上述高脱靶探针、上述较高脱靶探针、上述低脱靶探针、上述无脱靶探针划分方法为:
[0036]a.当一探针的脱靶读段数的条数高于其所在探针集总脱靶读段数的条数的1%时,将该探针判定为前述高脱靶探针;
[0037]b.当一探针在各探针集中均无脱靶读段时或均为零,将该探针判定为前述无本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种评估基因组重复区探针捕获安全性的方法,其特征在于,包括以下步骤:构建基因组重复区探针集,注释每种重复区域类型的探针并统计其探针数;构建中靶率在85%以上的高中靶探针集,对实验样本测序并注释在每种重复区域类型的脱靶探针,统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数;将所述高中靶探针集与所述基因组重复区探针集混合形成混和探针集,对所述实验样本测序并注释每种重复区域类型的脱靶探针,统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数;计算每种重复区域类型中的探针的脱靶影响力并排序;依据排序结果对在重复区域类型中的探针,划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集,所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集分别与所述高中靶探针集混合,得到高中靶

高影响力重复类型集、高中靶

中影响力重复类型集、高中靶

低影响力重复类型集;所述高中靶

高影响力重复类型集、所述高中靶

中影响力重复类型集、所述高中靶

低影响力重复类型集分别对所述实验样本进行捕获测序,计算每条探针的脱靶读段数并进行划分,得到高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针;所述高脱靶探针、所述较高脱靶探针组成高风险序列集,所述无脱靶探针组成低风险序列集;将所述高风险序列集对照所述低风险序列集,分析差异模体,得到重复区域类型的高危模体集;依次分析所述基因组重复区探针集的所有重复区域类型,每个重复区域类型分析得到对应的基因组高风险序列集和基因组低风险序列集,所述基因组高风险序列集对照所述基因组低风险序列集,得到基因组重复区高危模体集;合并多个所述基因组重复区高危模体集,并合并所述重复区域类型的高危模体集,以得到高危模体数据库;使用所述高危模体数据库对所述基因组重复区探针集或另一基因组重复区探针集中的每一条探针进行分类。2.根据权利要求1所述的方法,其特征在于,所述高风险序列集与所述低风险序列集具有相同的重复区域类型。3.根据权利要求1所述的方法,其特征在于,所述基因组重复区探针集的探针数量大于50条。4.根据权利要求1所述的方法,其特征在于,所述高中靶探针集的探针条数为2000
±
1500。5.根据权利要求1所述的方法,其特征在于,所述高中靶探针集的中靶率为85%~95%。6.根据权利要求1所述的方法,其特征在于,每种重复区域类型中的探针的所述脱靶影响力计算方法为:
7.根据权利要求1所述的方法,其特征在于,所述方法还包含将所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集中的探针依据所属的重复区域类型进行一次以上的划分,得到多个高影响力重复类型集组、多个中影响力重复类型集组、多个低影响力重复类型集组;所述多个高影响力重复类型集组、所述多个中影响力重复类型集组、所述多个低影响力重复类型集组分别与所述高中靶探针集混合得到第一探针集组、第二探针集组、以及第三探针集组。8.根据权利要求7所述的方法,其特征在于,所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集中的探针可以出现在多个重复类型集组。9.根据权利要求7所述的方法,其特征在于,所述第一探针集组、第二探针集组、第三探针集组的数量均须大于2。10.根据权利要求9所述的方法,其特征在于,所述第一、第二、第三探针集组的数量均须大于3。11.根据权利要求1所述的方法,其特征在于,划分所述高脱靶探针的方法为:当一探针的所述脱靶读段...

【专利技术属性】
技术研发人员:蒋才尹书剑程陶然朱文鑫
申请(专利权)人:纳昂达南京生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1