基因编辑酶脱靶位点的检测方法、装置和电子设备制造方法及图纸

技术编号:38132605 阅读:22 留言:0更新日期:2023-07-08 09:41
本申请涉及一种基因编辑酶脱靶位点的检测方法、检测装置和电子设备。该基因编辑酶脱靶位点的检测方法包括:对待检测的样本数据进行数据质控;对经过数据质控的待检测的样本数据进行读段去重;对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。这样,实现了高通量、高灵敏度、快速和低资源消耗的基因编辑酶脱靶位点的检测。检测。检测。

【技术实现步骤摘要】
基因编辑酶脱靶位点的检测方法、装置和电子设备


[0001]本申请涉及基因编辑
,更为具体地说,涉及一种基因编辑酶脱靶位点的检测方法、检测装置和电子设备。

技术介绍

[0002]基因编辑技术作为一种重要的基因序列修饰手段,正在不断地被开发用于一系列基因缺陷相关疾病的治疗中。在一系列的基因编辑技术开发中,有两个重要的指标需要评估,即编辑效果和脱靶效应。对基因编辑酶潜在脱靶位点的评估,是脱靶效应评估中必不可少的一个环节。
[0003]目前评估潜在脱靶位点的方法主要分为,通过计算模拟(in silico)和湿实验法。湿实验法主要是基于编辑酶的核酸内切酶功能,在适当条件下,将基因组进行细胞内或者胞外切割,对切割信号进行聚类富集并过滤得到可能的脱靶位点。
[0004]通过细胞内编辑酶的切割,对切割产生的双链断裂末端插入短序列标记,对标记产物采用标记序列特异引物进行扩增,采用二代测序分析扩增产物,因为信噪比高而备受重视。然而对于海量插入标记序列的有效富集,以及进一步聚类挖掘出可能的脱靶位点是一个计算量大且复杂的工程。现有的处理这类数据的软件或流程存在一系列的缺陷,主要如下:
[0005]处理数据的通量小(最多仅能处理一百万左右的读段);
[0006]灵敏度低(仅支持碱基错配的潜在脱靶位点检测);
[0007]运行速度很慢(动辄数小时甚至数天的运行时间);和
[0008]资源消耗大(内存消耗较高)。
[0009]因此,期望提供一种改进的用于检测基因编辑酶脱靶位点的方案。<br/>
技术实现思路

[0010]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基因编辑酶脱靶位点的检测方法、检测装置和电子设备,其通过对待检测的样本数据进行数据质控和读段去重,并基于引导信号与由插入信号获得的候选脱靶位点所在的序列的比对过滤,实现了高通量、高灵敏度、快速和低资源消耗的基因编辑酶脱靶位点的检测。
[0011]根据本申请的一方面,提供了一种基因编辑酶脱靶位点的检测方法,包括:对待检测的样本数据进行数据质控;对经过数据质控的待检测的样本数据进行读段去重;对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。
[0012]在上述基因编辑酶脱靶位点的检测方法中,所述数据质控包括一般性质控和实验特异性质控。
[0013]在上述基因编辑酶脱靶位点的检测方法中,所述实验特异性质控包括以下的至少
一个:确定连接插入短序列的一段读段是否与相应的插入序列以及可能的额外序列相匹配;确定一对读段是否均能够唯一地匹配到基因组的位置上;确定一对读段是否比对到同一条染色体上且比对距离在预定模板长度大小的范围内;以及,确定读段与基因组的匹配相似度是否大于预定阈值。
[0014]在上述基因编辑酶脱靶位点的检测方法中,对经过数据质控的待检测的样本数据进行读段去重包括:在大于候选模板长度的预定区间内对所有的双端读段分区间去重。
[0015]在上述基因编辑酶脱靶位点的检测方法中,对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点包括:确定携带短序列的读段中发生堆叠的位置集合;对于相邻的堆叠峰,确定是否存在正反向分类信号以确定是否为配对峰;合并预定范围内的堆叠峰和配对峰;以及,确定堆叠峰形支持的读段数量超过预定阈值的相应脱靶位点为候选脱靶位点。
[0016]在上述基因编辑酶脱靶位点的检测方法中,所述比对过滤允许单碱基错配和插入缺失。
[0017]在上述基因编辑酶脱靶位点的检测方法中,基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤包括:根据预设的错配允许量,基于初步确定的比对位置和分值进行初步比对;以及,响应于所述初步比对未达到预定阈值允许的范围,直接放弃后续详细比对。
[0018]在上述基因编辑酶脱靶位点的检测方法中,进一步包括:对所述脱靶位点进行基因信息注释。
[0019]在上述基因编辑酶脱靶位点的检测方法中,进一步包括:输出报告文件。
[0020]根据本申请的另一方面,提供了一种基因编辑酶脱靶位点的检测装置,包括:数据质控单元,用于对待检测的样本数据进行数据质控;读段去重单元,用于对经过数据质控的待检测的样本数据进行读段去重;信号聚类单元,用于对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及,位点筛选单元,用于基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。
[0021]根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如上所述的基因编辑酶脱靶位点的检测方法。
[0022]根据本申请的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的基因编辑酶脱靶位点的检测方法。
[0023]本申请实施例提供的基因编辑酶脱靶位点的检测方法、检测装置和电子设备,能够通过对待检测的样本数据进行数据质控和读段去重,并基于引导信号与由插入信号获得的候选脱靶位点所在的序列的比对过滤,实现高通量、高灵敏度、快速和低资源消耗的基因编辑酶脱靶位点的检测。
附图说明
[0024]通过阅读下文优选的具体实施方式中的详细描述,本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,
而并不认为是对本申请的限制。显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。
[0025]图1图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的流程图;
[0026]图2图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的一致性验证图;
[0027]图3图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的速度验证图;
[0028]图4图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的内存消耗验证图;
[0029]图5图示了根据本申请实施例的基因编辑酶脱靶位点的检测装置的框图;
[0030]图6图示了根据本申请实施例的电子设备的框图。
具体实施方式
[0031]下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
[0032]示例性方法
[0033]图1图示了根据本申请实施例的基因编辑酶脱靶位点的检测方法的流程图。
[0034]如图1所示,根据本申请实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因编辑酶脱靶位点的检测方法,其特征在于,包括:对待检测的样本数据进行数据质控;对经过数据质控的待检测的样本数据进行读段去重;对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点;以及基于sgRNA与所述候选脱靶位点所在的序列进行比对过滤以筛选所述候选脱靶位点,而获得脱靶位点的检测结果。2.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,所述数据质控包括一般性质控和实验特异性质控。3.如权利要求2所述的基因编辑酶脱靶位点的检测方法,其特征在于,所述实验特异性质控包括以下的至少一个:确定连接插入短序列的一段读段是否与相应的插入序列以及可能的额外序列相匹配;确定一对读段是否均能够唯一地匹配到基因组的位置上;确定一对读段是否比对到同一条染色体上且比对距离在预定模板长度大小的范围内;以及,确定读段与基因组的匹配相似度是否大于预定阈值。4.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,对经过数据质控的待检测的样本数据进行读段去重包括:在大于候选模板长度的预定区间内对所有的双端读段分区间去重。5.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,对从待检测的样本数据读取的插入信号进行聚类以确定候选脱靶位点包括:确定携带短序列的读段中发生堆叠的位置集合;对于相邻的堆叠峰,确定是否存在正反向分类信号以确定是否为配对峰;合并预定范围内的堆叠峰和配对峰;以及,确定堆叠峰形支持的读段数量超过预定阈值的相应脱靶位点为候选脱靶位点。6.如权利要求1所述的基因编辑酶脱靶位点的检测方法,其特征在于,所述比对过滤...

【专利技术属性】
技术研发人员:张永建伍林军袁鹏飞
申请(专利权)人:博雅缉因北京生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1