基因编辑效率检测方法、装置和电子设备制造方法及图纸

技术编号:37505785 阅读:29 留言:0更新日期:2023-05-07 09:42
本申请涉及一种基因编辑效率检测方法、基因编辑效率检测装置和电子设备。该基因编辑效率检测方法包括:通过基于引物和扩增子的匹配对所述待检测基因编辑数据进行数据拆分;对拆分后的数据进行基于动态最小重叠下限的双端读段合并;对合并后的数据进行重复标记;基于局部比对对重复标记后的数据和未进行双端读段合并的数据进行比对,和对局部对比结果进行全局重比对;基于局部对比结果和全局重比对结果进行编辑事件识别和序列过滤;以及,基于过滤后的合格序列计算基因编辑效率。这样,可以在保持基因编辑效率检测准确性的同时提高基因编辑效率的检测效率。因编辑效率的检测效率。因编辑效率的检测效率。

【技术实现步骤摘要】
基因编辑效率检测方法、装置和电子设备


[0001]本申请涉及基因编辑
,更为具体地说,涉及一种基因编辑效率检测方法、基因编辑效率检测装置和电子设备。

技术介绍

[0002]随着基因编辑技术的广泛使用,尤其是以基因编辑作为技术手段的药物开发方面的研究越来越深入,对于目标位点以及潜在脱靶位点编辑事件的快速准确检测变得越来越重要。基因编辑的具体检测方面主要包括编辑效率、编辑产物形式、脱靶效应、编辑结果一致性等。
[0003]目前,基因编辑效率的检测主要有以下几种方案。
[0004]传统湿实验法可以通过对编辑区域进行一代测序或者其他酶学反应来评估编辑前后编辑位点的变化情况。该方法的缺点是灵敏度低且通量低。
[0005]基于二代测序的方法通过使用高深度二代测序,能够极大地提高检测灵敏度和检测通量,但是同时也存在一系列的问题,如PCR错误,测序错误等。这里,DNA测序指的是对DNA分子的核苷酸排列顺序的测定,也就是测定组成DNA分子的A、T、G、C的排列顺序。并且,二代测序技术是大规模平行测序,核心思想是用成百上千万条短读长的同时测定来测序DNA分子。
[0006]目前,主流的基因编辑效率检测技术都是以扩增子的二代测序为基础。基于扩增子测序结果,已经发布了一些计算方法和流程,但是这些方法往往都只是侧重于某一方面的性能优化,结果并不很理想。这些方法的主要的实现例如包括:R包Amplican(Labun et al.,2019),其对大的indel支持较好,且对于数据有较为严格的质控,但数据损失较多且运行资源耗费大;Python流程包CRISPResso/2(Clement et al.,2019;Pinello et al.,2016),其采用了编辑酶活性位点导向的比对,但数据拆分合并处理方面有明显缺陷;Python流程包CrispRvariant(Lindsay et al.,2016),其首次对等位基因水平的编辑结果进行了解析,所用方法都是基于开源工具的串联。以上方法对于基因编辑效率的检测受限于流程设计、模块算法和整体兼容性等原因,存在检测结果随机或组成性偏离、数据兼容性差、转换过程彼此隔离、转换结果混乱等问题,对于数据分析和一致性管理带来挑战。
[0007]因此,期望提供一种改进的基因编辑效率检测方法。

技术实现思路

[0008]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基因编辑效率检测方法、基因编辑效率检测装置和电子设备,其通过优化基因编辑效率检测过程中的数据拆分、数据合并、重复标记、比对方式、序列过滤和计算方式,在保持基因编辑效率检测准确性的同时提高了基因编辑效率的检测效率。
[0009]根据本申请的一方面,提供了一种基因编辑效率检测方法,包括:通过基于引物和扩增子的匹配对所述待检测基因编辑数据进行数据拆分;对拆分后的数据进行基于动态最
小重叠下限的双端读段合并;对合并后的数据进行重复标记;基于局部比对对重复标记后的数据和未进行双端读段合并的数据进行比对,和对局部对比结果进行全局重比对;基于局部对比结果和全局重比对结果进行编辑事件识别和序列过滤;以及,基于过滤后的合格序列计算基因编辑效率。
[0010]在上述基因编辑效率检测方法中,通过基于引物和扩增子的匹配对所述待检测基因编辑数据进行数据拆分包括:以引物为基础构建索引;使用哈希表查询以预定精度匹配基因编辑数据的每条读段与扩增子的参考库;响应于基因编辑数据的预定读段未能以预定精度匹配扩增子的参考库,使用所述预定读段的一部分进行基于所述索引的查询匹配;以及,基于匹配结果将所述待检测基因编辑数据拆分为多个第一序列。
[0011]在上述基因编辑效率检测方法中,对拆分后的数据进行基于动态最小重叠下限的双端读段合并包括:使用扩增子序列特异性预先估计用于所述双端序列合并的动态最小重叠下限,所述动态最小重叠下限的长度大于所述扩增子序列中的重复部分的长度;以及,基于所述动态最小重叠下限对所述多个第一序列进行双端序列合并以获得多个第二序列。
[0012]在上述基因编辑效率检测方法中,对合并后的数据进行重复标记包括:使用哈希算法对所述多个第二序列进行重复标记以获得多个第三序列。
[0013]在上述基因编辑效率检测方法中,使用哈希算法对所述多个第二序列进行重复标记以获得多个第三序列包括:响应于所述多个第二序列具有包含方向性的序列,将反向互补的序列标记为重复;和/或,响应于所述多个第二序列包含单细胞的标记序列,在单细胞层面进行序列的重复标记。
[0014]在上述基因编辑效率检测方法中,对局部对比结果进行全局重比对包括:对所述局部对比结果进行基于编辑酶切割位点敏感性的全局重比对以获得多个第四序列。
[0015]在上述基因编辑效率检测方法中,基于局部对比结果和全局重比对结果进行编辑事件识别和序列过滤包括以下的至少其中之一:基于每个序列中的碱基匹配数目和匹配部分错误率确定不可靠序列;基于每个序列中的插入和缺失以及其间的匹配序列间隔确定不可靠序列;对于每个序列按照比对分值和变异数量两个维度进行聚类,并将质量较低且变异数量最多的一类序列确定为不可靠序列;基于背景样品将支持数大于或等于预定阈值的序列确定为过滤序列;和,基于用户自定义的变异数量阈值和支持数阈值将变异数量和支持数分别低于所述变异数量阈值和支持数阈值的序列确定为过滤序列。
[0016]在上述基因编辑效率检测方法中,基于过滤后的合格序列计算基因编辑效率包括:将与参考序列相比无任何变异的过滤后的合格序列确定为参考型序列;将在预设检测范围内相比所述参考序列发生了预设突变类型的序列确定为编辑型序列;将所述过滤后的合格序列中的其它序列确定为其它型序列;以及,基于编辑型序列的数目与参考性序列、编辑型序列和其它型序列的总数目的比值确定基因编辑效率。
[0017]在上述基因编辑效率检测方法中,所述待检测基因编辑数据是以sgRNA+PAM两侧任意区域为中心的任意限定窗口内的基因编辑数据。
[0018]在上述基因编辑效率检测方法中,进一步包括:生成基因编辑效率的报告结果。
[0019]根据本申请的另一方面,提供了一种基因编辑效率检测装置,包括:数据拆分单元,用于通过基于引物和扩增子的匹配对所述待检测基因编辑数据进行数据拆分;双端合并单元,用于对拆分后的数据进行基于动态最小重叠下限的双端读段合并;重复标记单元,
用于对合并后的数据进行重复标记;数据比对单元,用于基于局部比对对重复标记后的数据和未进行双端读段合并的数据进行比对,和对局部对比结果进行全局重比对;识别过滤单元,用于基于局部对比结果和全局重比对结果进行编辑事件识别和序列过滤;以及,效率计算单元,用于基于过滤后的合格序列计算基因编辑效率。
[0020]根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如上所述的基因编辑效率检测方法。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因编辑效率检测方法,其特征在于,包括:通过基于引物和扩增子的匹配对所述待检测基因编辑数据进行数据拆分;对拆分后的数据进行基于动态最小重叠下限的双端读段合并;对合并后的数据进行重复标记;基于局部比对对重复标记后的数据和未进行双端读段合并的数据进行比对,和对局部对比结果进行全局重比对;基于局部对比结果和全局重比对结果进行编辑事件识别和序列过滤;以及基于过滤后的合格序列计算基因编辑效率。2.如权利要求1所述的基因编辑效率检测方法,其特征在于,通过基于引物和扩增子的匹配对所述待检测基因编辑数据进行数据拆分包括:以引物为基础构建索引;使用哈希表查询以预定精度匹配基因编辑数据的每条读段与扩增子的参考库;响应于基因编辑数据的预定读段未能以预定精度匹配扩增子的参考库,使用所述预定读段的一部分进行基于所述索引的查询匹配;以及基于匹配结果将所述待检测基因编辑数据拆分为多个第一序列。3.如权利要求2所述的基因编辑效率检测方法,其特征在于,对拆分后的数据进行基于动态最小重叠下限的双端读段合并包括:使用扩增子序列特异性预先估计用于所述双端序列合并的动态最小重叠下限,所述动态最小重叠下限的长度大于所述扩增子序列中的重复部分的长度;以及基于所述动态最小重叠下限对所述多个第一序列进行双端序列合并以获得多个第二序列。4.如权利要求3所述的基因编辑效率检测方法,其特征在于,对合并后的数据进行重复标记包括:使用哈希算法对所述多个第二序列进行重复标记以获得多个第三序列。5.如权利要求4所述的基因编辑效率检测方法,其特征在于,使用哈希算法对所述多个第二序列进行重复标记以获得多个第三序列包括:响应于所述多个第二序列具有包含方向性的序列,将反向互补的序列标记为重复;和/或响应于所述多个第二序列包含单细胞的标记序列,在单细胞层面进行序列的重复标记。6.如权利要求4所述的基因编辑效率检测方法,其特征在于,对局部对比结果进行全局重比对包括:对所述局部对比结果进行基于编辑酶切割位点敏感性的全局重比对以获得多个第四序列。7.如权利要求6所述的基因编辑效率检测方法,其特征在于,基于局部对比结果和全局重比对结果进行编辑事件识别和序列过滤包括以下的至少其中之一:基于每个序列中的碱基匹配数目和匹配部分错误率确定不可靠序列;基于每个序列中的插入和缺失以及...

【专利技术属性】
技术研发人员:张永建伍林军袁鹏飞
申请(专利权)人:博雅缉因北京生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1