【技术实现步骤摘要】
一种评估基因组重复区探针捕获安全性的方法及其装置
[0001]本专利技术涉及生物信息
,具体而言,涉及一种评估基因组重复区探针捕获安全性的方法及其装置。
技术介绍
[0002]随着NGS(Next Generation Sequencing,NGS)的蓬勃发展,科研及医疗人员对人类基因组研究愈发深入,靶向测序技术可以将感兴趣的基因组区域富集出来进行测序,可以大规模应用于科研、临床诊断、健康筛查等领域。人类基因组大约31.6亿个碱基,其中约50%属于基因组重复区,约110万个重复区域,共1395种重复区域类型,同种重复区域间序列相似度很高。当靶向测序技术设计的探针涉及重复区域时,该探针可能会在全基因组捕获与之相似的核酸片段,从而造成“脱靶”,由此带来的数据浪费和数据分析难题一直困扰着从业人员。
[0003]考虑到基因组重复区探针带来的弊端,市场上绝大多数公司均尽量避免在此区域设计探针,即使设计后投入使用也无法判断其是否会造成脱靶以及是否会严重降低捕获效率,然而随科研及医学的发展,在基因组重复区域设计探针的情况在所难免,但重复区探针风险程度仍未得到有效评估,使后续实验与分析充满不确定性。因此,推出一种评估基因组重复区探针捕获安全性的方法显得尤为重要。
技术实现思路
[0004]本专利技术旨在提供一种评价基因组重复区探针捕获安全性的方法及装置,以区分涉及基因组重复区的探针中的高风险探针和低风险探针,以此来解决现有技术的探针在基因组重复区域容易脱靶、低捕获效率等问题。
[0005]为实现 ...
【技术保护点】
【技术特征摘要】
1.一种评估基因组重复区探针捕获安全性的方法,其特征在于,包括以下步骤:构建基因组重复区探针集,注释每种重复区域类型的探针并统计其探针数;构建中靶率在85%以上的高中靶探针集,对实验样本测序并注释在每种重复区域类型的脱靶探针,统计每种重复区域类型的第一总脱靶读段数和第一脱靶读段涉及的区域数;将所述高中靶探针集与所述基因组重复区探针集混合形成混和探针集,对所述实验样本测序并注释每种重复区域类型的脱靶探针,统计每种重复区域类型的第二总脱靶读段数和第二脱靶读段涉及的区域数;计算每种重复区域类型中的探针的脱靶影响力并排序;依据排序结果对在重复区域类型中的探针,划分为高影响力重复类型集、中影响力重复类型集、低影响力重复类型集,所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集分别与所述高中靶探针集混合,得到高中靶
‑
高影响力重复类型集、高中靶
‑
中影响力重复类型集、高中靶
‑
低影响力重复类型集;所述高中靶
‑
高影响力重复类型集、所述高中靶
‑
中影响力重复类型集、所述高中靶
‑
低影响力重复类型集分别对所述实验样本进行捕获测序,计算每条探针的脱靶读段数并进行划分,得到高脱靶探针、较高脱靶探针、低脱靶探针、无脱靶探针;所述高脱靶探针、所述较高脱靶探针组成高风险序列集,所述无脱靶探针组成低风险序列集;将所述高风险序列集对照所述低风险序列集,分析差异模体,得到重复区域类型的高危模体集;依次分析所述基因组重复区探针集的所有重复区域类型,每个重复区域类型分析得到对应的基因组高风险序列集和基因组低风险序列集,所述基因组高风险序列集对照所述基因组低风险序列集,得到基因组重复区高危模体集;合并多个所述基因组重复区高危模体集,并合并所述重复区域类型的高危模体集,以得到高危模体数据库;使用所述高危模体数据库对所述基因组重复区探针集或另一基因组重复区探针集中的每一条探针进行分类。2.根据权利要求1所述的方法,其特征在于,所述高风险序列集与所述低风险序列集具有相同的重复区域类型。3.根据权利要求1所述的方法,其特征在于,所述基因组重复区探针集的探针数量大于50条。4.根据权利要求1所述的方法,其特征在于,所述高中靶探针集的探针条数为2000
±
1500。5.根据权利要求1所述的方法,其特征在于,所述高中靶探针集的中靶率为85%~95%。6.根据权利要求1所述的方法,其特征在于,每种重复区域类型中的探针的所述脱靶影响力计算方法为:
7.根据权利要求1所述的方法,其特征在于,所述方法还包含将所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集中的探针依据所属的重复区域类型进行一次以上的划分,得到多个高影响力重复类型集组、多个中影响力重复类型集组、多个低影响力重复类型集组;所述多个高影响力重复类型集组、所述多个中影响力重复类型集组、所述多个低影响力重复类型集组分别与所述高中靶探针集混合得到第一探针集组、第二探针集组、以及第三探针集组。8.根据权利要求7所述的方法,其特征在于,所述高影响力重复类型集、所述中影响力重复类型集、所述低影响力重复类型集中的探针可以出现在多个重复类型集组。9.根据权利要求7所述的方法,其特征在于,所述第一探针集组、第二探针集组、第三探针集组的数量均须大于2。10.根据权利要求9所述的方法,其特征在于,所述第一、第二、第三探针集组的数量均须大于3。11.根据权利要求1所述的方法,其特征在于,划分所述高脱靶探针的方法为:当一探针的所述脱靶读段...
【专利技术属性】
技术研发人员:蒋才,尹书剑,程陶然,朱文鑫,
申请(专利权)人:纳昂达南京生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。