基于外源遗传物质插入位点的整合热点快速检测方法技术

技术编号:38140026 阅读:15 留言:0更新日期:2023-07-08 09:53
本发明专利技术公开了基于外源遗传物质插入位点的整合热点快速检测方法,对所有IS的染色体

【技术实现步骤摘要】
基于外源遗传物质插入位点的整合热点快速检测方法


[0001]本专利技术涉及生物信息领域二代测序数据分析相关
,具体为基于外源遗传物质插入位点的整合热点快速检测方法。

技术介绍

[0002]基因治疗是指利用分子生物学手段将外源DNA导入基因缺陷细胞的基因组中以恢复细胞正常功能的一种治疗方法。整合载体是一类在基因治疗中常用的载体DNA序列,用来装载外源DNA片段并以插入的方式整合到宿主基因组中。当整合载体在整合到宿主基因组的某个位点后,有可能影响该位点附近基因的正常功能。特别是当整合位点附近存在癌症相关基因时,整合事件可能引起原癌基因激活从而导致癌症的发生。
[0003]目前在临床前研究和一些使用病毒载体的临床试验中,已观察到由于载体整合在基因组中而产生的各种副作用和致癌现象。因此,在进入临床治疗前和临床试验过程中,以及基因治疗产品上市后,针对载体插入突变的安全性评价都是基因治疗的重要环节。
[0004]一般情况下,整合性载体会以随机的方式插入宿主基因组中,而癌症相关基因在宿主基因组中的区域占比极小,因此一次整合导致细胞癌变的概率极低。但不同类型的整合载体会表现出一定的区域偏好性,这意味着在宿主基因组的某些特定的区域,整合事件会频繁发生,使这些基因组区域的突变风险增高。这样的区域被定义为整合热点区域(Common integration sites,CIS)。如果CIS附近存在癌症相关基因,就会增加患者在原有疾病的基础上受到二次伤害的风险。
[0005]NGS技术可以实现在一次实验中对数十万个病毒整合位点(Integration site,IS)进行检测,从而高效确定整合载体的区域偏好性,在用药早期避免因系统性的插入偏好而引入的致癌风险。2011年,Ulrich首次对CIS进行了严谨的数学定义,并从统计学的角度对2种不同的整合载体的CIS的分布模式进行了比较,该方法聚焦在宏观层面对整合载体的区域偏好性的统计分析,没有在CIS个体层面进行描述,2016年,Raffaele和同事开发了一种基于网络图提取CIS的方法,这个方法对IS进行排序,降低了CIS检测所需时间,并且并且以可视化的方式呈现CIS内部位点间的关系。
[0006]其中该算法检测CIS的具体方法为:步骤1、对每个染色体进行操作,步骤2;对所有IS所对应的Y进行排序,步骤3、对于有序插入位点数据集中的每个IS,步骤3.1、记录该IS为一个CIS节点C,步骤3.2、对于有序插入位点数据集中的其他节点Vi;步骤3.2.1如果C与Vi的距离小于阈值TH;记录Vi添加到当前CIS,成为该CIS的一个节点;将C与Vi边缘连接;如果C与Vi的距离大于阈值TH;从步骤3.2、继续(下一个IS);从步骤2(下一个IS)继续;最后下一个染色体继续。由于底层网络结构的局限,该方法只适用于在少量整合位点中寻找所有CIS,并不能高效地依据大小对CIS进行筛选。而在实际应用中,需要依据CIS的大小对趋势性的聚集和IS的随机重叠进行区分。
[0007]另外,目前的方法均没有从功能性的角度对CIS的潜在致癌风险和网络拓扑学特征进行分析,没有完全挖掘CIS分析的临床价值。目前的方法在寻找CIS时的运算量会随着
整合位点的增加而呈指数增加。在一次20万个IS的CIS检测中,目前方法的耗时超过24小时,在实际应用中存在一定的局限性。目前的方法没有比较CIS与关键基因及其功能区域的位置关系,因此无法对具体CIS事件对基因组的影响程度或致癌风险进行量化评估,限制了CIS的临床有用性。剖析CIS的内部结构并且对其特征进行归纳对于更进一步认识CIS至关重要,并且有助于对CIS的致癌机制进行预测,但目前还没有方法涉及到CIS的内部结构特征的分析和归纳。

技术实现思路

[0008]为解决现有技术存在目前的方法均没有从功能性的角度对CIS的潜在致癌风险和网络拓扑学特征进行分析,没有完全挖掘CIS分析的临床价值。目前的方法在寻找CIS时的运算量会随着整合位点的增加而呈指数增加。在一次20万个IS的CIS检测中,目前方法的耗时超过24小时,在实际应用中存在一定的局限性。目前的方法没有比较CIS与关键基因及其功能区域的位置关系,因此无法对具体CIS事件对基因组的影响程度或致癌风险进行量化评估,限制了CIS的临床有用性。剖析CIS的内部结构并且对其特征进行归纳对于更进一步认识CIS至关重要,并且有助于对CIS的致癌机制进行预测,但目前还没有方法涉及到CIS的内部结构特征的分析和归纳的缺陷,本专利技术提供基于外源遗传物质插入位点的整合热点快速检测方法。
[0009]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0010]本专利技术基于外源遗传物质插入位点的整合热点快速检测方法,包括以下步骤,
[0011]步骤1、对所有IS的染色体

位点信息进行唯一性编码,得到一个同时代表染色体和整合位置的数字Y;
[0012]步骤2、对所有IS所对应的Y进行排序;
[0013]步骤3、对于有插入位点数据集中的每个IS;首先记录该IS为一个CIS节点C;记录有插入位点数据集中的其他节点Vi;如果C与Vi的距离小于阈值TH,记录Vi添加到当前CIS,成为该CIS的一个节点;同时将C与Vi边缘连接;然后继续回到步骤2,继续下一个IS,依次类推得到CIS网络;
[0014]步骤4、基于所有IS

IS间的连接形成CIS网络搜索符合条件的CIS。
[0015]作为本专利技术的一种优选技术方案,所述的对所有IS的染色体

位点信息进行唯一性编码的方法是,将24个染色体号码用一个长度为24的数字向量A代替,并且保证A中任意两个数字间的差值远大于任意染色体上最大的位点数;然后,对每个整合位点,将换算后的染色体数A与染色体上整合位置的位点数相加,得到一个同时代表染色体和整合位置的数字Y。
[0016]作为本专利技术的一种优选技术方案,所述的基于所有IS

IS间的连接关系寻找符合条件的CIS的方法是,
[0017]步骤4.1、根据形成的CIS网络结构找到连接次数大于某个阈值n的IS位点,作为种子位点S;
[0018]步骤4.2、则对某个种子位点S,寻找所有与该种子位点S直接连接的位点S1并记录;记录连接内所有的IS,得到(S+S1);
[0019]步骤4.3、则对S1中的每个位点,寻找所有与S1直接连接的位点S2并记录,如果所
有S2已经存在于(S+S1)中;则完成搜索;
[0020]步骤4.4、如果至少有1个S2不存在于(S+S1)中;寻找所有与S1直接连接的位点S2并记录...;依次类推,直到新增位点数不再增加为止,完成CIS搜索。
[0021]步骤5、在找到所有CIS后,CISAT对CIS在基因组上的聚集位置,以及CIS发生位置所附近的基因及其功能区域进行分析,以确定CIS对基因组的影响程度及致癌风险。
[0022]作为本专利技术的一种优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于外源遗传物质插入位点的整合热点快速检测方法,其特征在于:包括以下步骤,步骤1、对所有IS的染色体

位点信息进行唯一性编码,得到一个同时代表染色体和整合位置的数字Y;步骤2、对所有IS所对应的Y进行排序;步骤3、对于有插入位点数据集中的每个IS;首先记录该IS为一个CIS节点C;记录有插入位点数据集中的其他节点Vi;如果C与Vi的距离小于阈值TH,记录Vi添加到当前CIS,成为该CIS的一个节点;同时将C与Vi边缘连接;然后继续回到步骤2,继续下一个IS,依次类推得到CIS网络;步骤4、基于所有IS

IS间的连接形成CIS网络搜索符合条件的CIS。2.根据权利要求1所述的基于外源遗传物质插入位点的整合热点快速检测方法,其特征在于,所述的对所有IS的染色体

位点信息进行唯一性编码的方法是,将24个染色体号码用一个长度为24的数字向量A代替,并且保证A中任意两个数字间的差值远大于任意染色体上最大的位点数;然后,对每个整合位点,将换算后的染色体数A与染色体上整合位置的位点数相加,得到一个同时代表染色体和整合位置的数字Y。3.根据权利要求1所述的基于外源遗传物质插入位点的整合热点快速检测方法,其特征在于,所述的基于所有IS

IS间的连接关系寻找符合条件的CIS的方法是,步骤4.1、根据形成的CIS网络结构找到连接次数大于某个阈值n的IS位点,作为种子位点S;步骤4.2、则对某个种子位点S,寻找所有与该种子位点S直接连接的位点S1并记录;记录连接内所有的IS,得到(S...

【专利技术属性】
技术研发人员:倪帅侯宇宸何峰吴宁
申请(专利权)人:上海唯可生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1