【技术实现步骤摘要】
基因序列处理方法、装置、存储介质及电子设备
[0001]本申请涉及生物信息
,尤其涉及一种基因序列处理方法、装置、存储介质及电子设备。
技术介绍
[0002]基因是生物生存、延续和发展的重要物质基础,具有重大的科学价值和社会价值。目前,基因的研究广泛应用于生物学、医学、遗传科学等诸多重要领域,如通过收集和保存基因信息以保护濒临灭绝的生物物种、基于人类基因序列的信息预测以及找到基因变异规律以治疗癌症肿瘤等。为这些学科研究提供基础实验数据的各种基因序列处理手段已成为各国重点发展的研究项目。
[0003]然而,由于基因序列的数据量庞大,导致基因序列处理起来效率非常低。
技术实现思路
[0004]本申请实施例提供一种基因序列处理方法、装置、存储介质及电子设备,能够提高基因序列的处理效率。
[0005]本申请实施例提供一种基因序列处理方法,包括:
[0006]获取第一序列集,第一序列集中包含多个待处理序列;
[0007]通过对比多个待处理序列中各类碱基的数量,对第一序列集进行过滤,得到第二序列集;
[0008]根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;
[0009]通过对比第二序列集中各待处理序列的子序列,对第二序列集进行过滤,得到目标序列集。
[0010]本申请实施例还提供了一种基因序列处理装置,包括:
[0011]获取模块,用于获取第一序列集,第一序列集中包含多个待处理序列;
[0012]第一过滤模块,用于通过 ...
【技术保护点】
【技术特征摘要】
1.一种基因序列处理方法,其特征在于,包括:获取第一序列集,所述第一序列集中包含多个待处理序列;通过对比所述多个待处理序列中各类碱基的数量,对所述第一序列集进行过滤,得到第二序列集;根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;通过对比所述第二序列集中各待处理序列的子序列,对所述第二序列集进行过滤,得到目标序列集。2.根据权利要求1所述的基因序列处理方法,其特征在于,所述多个待处理序列中包括参考序列和多个非参考序列,所述通过对比所述多个待处理序列中各类碱基的数量,对所述第一序列集进行过滤,得到第二序列集还包括:从所述多个待处理序列中确定出参考序列;将除所述参考序列以外的待处理序列确定为非参考序列。3.根据权利要求2所述的基因序列处理方法,其特征在于,所述通过对比所述多个待处理序列中各类碱基的数量,对所述第一序列集进行过滤,得到第二序列集包括:统计所述参考序列中各类碱基的数量;对于所述第一序列集中的每一个所述非参考序列,统计所述非参考序列中各类碱基的数量;根据所述非参考序列与所述参考序列中各类碱基的数量确定所述非参考序列与所述参考序列的碱基相似度;根据各非参考序列与所述参考序列的碱基相似度对所述第一序列集进行过滤,得到第二序列集。4.根据权利要求3所述的基因序列处理方法,其特征在于,所述根据所述非参考序列与所述参考序列中各类碱基的数量确定所述非参考序列与所述参考序列的碱基相似度包括:根据所述非参考序列与所述参考序列中各类碱基的数量确定所述非参考序列与所述参考序列中重叠碱基的数量;确定所述非参考序列的碱基长度;将所述重叠碱基的数量占所述碱基长度的比例确定为所述非参考序列与所述参考序列的碱基相似度。5.根据权利要求3所述的基因序列处理方法,其特征在于,所述根据各非参考序列与所述参考序列的碱基相似度对所述第一序列集进行过滤,得到第二序列集包括:将所述第一序列集中碱基相似度大于或等于第一相似度阈值的非参考序列进行保留,将碱基相似度小于第一相似度阈值的非参考序列进行滤除,得到所述第二序列集。6.根据权利要求2所述的基因序列处理方法,其特征在于,所述第二序列集中包括参考序列和多个非参考序列,所述通过对比所述第二序列集中各待处理序列的子序列,对所述第二序列集进行过滤,得到目标序列集包括:按照预设规则对所述参考序列的子序列进行排序;对于所述第二序列集中的每一个所述非参考序列,按照所述预设规则对所述非参考序列的子序列进行排序;根据所述非参考序列与所述参考序列的子序列的排序结果,确定所述非参考序列与所
述参考序列的子序列相似度;根据各非参考序列与所述参考序列的子序列相似度对所述第二序列集进行过滤,得到目标序列集。7.根据权利要求6所述的基因序列处理方法,其特征在于,所述根据所述非参考序列与所述参考序列的子序列的排序结果,确定所述非参考序列与所述参考序列的子序列相似度包括:根据所述非参考序列与所述参考序列的子序列的排序结果,确定出所述非参考序列与所述参...
【专利技术属性】
技术研发人员:鞠震,
申请(专利权)人:上海智峪生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。