基因序列处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37159695 阅读:15 留言:0更新日期:2023-04-06 22:23
本申请提供了一种基因序列处理方法、装置、存储介质及电子设备。其中基因序列处理方法首先获取第一序列集,第一序列集中包含多个待处理序列;然后通过对比多个待处理序列中各类碱基的数量,对第一序列集进行过滤,得到第二序列集;根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;进而通过对比第二序列集中各待处理序列的子序列,对第二序列集进行过滤,得到目标序列集。本申请实施例根据包含的各类碱基的数量对多个待处理序列进行了一重过滤,根据各待处理序列生成的子序列对一重过滤后的多个待处理序列进行了二重过滤,从而滤除了大量冗余的基因序列,能够提高基因序列的处理效率。高基因序列的处理效率。高基因序列的处理效率。

【技术实现步骤摘要】
基因序列处理方法、装置、存储介质及电子设备


[0001]本申请涉及生物信息
,尤其涉及一种基因序列处理方法、装置、存储介质及电子设备。

技术介绍

[0002]基因是生物生存、延续和发展的重要物质基础,具有重大的科学价值和社会价值。目前,基因的研究广泛应用于生物学、医学、遗传科学等诸多重要领域,如通过收集和保存基因信息以保护濒临灭绝的生物物种、基于人类基因序列的信息预测以及找到基因变异规律以治疗癌症肿瘤等。为这些学科研究提供基础实验数据的各种基因序列处理手段已成为各国重点发展的研究项目。
[0003]然而,由于基因序列的数据量庞大,导致基因序列处理起来效率非常低。

技术实现思路

[0004]本申请实施例提供一种基因序列处理方法、装置、存储介质及电子设备,能够提高基因序列的处理效率。
[0005]本申请实施例提供一种基因序列处理方法,包括:
[0006]获取第一序列集,第一序列集中包含多个待处理序列;
[0007]通过对比多个待处理序列中各类碱基的数量,对第一序列集进行过滤,得到第二序列集;
[0008]根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;
[0009]通过对比第二序列集中各待处理序列的子序列,对第二序列集进行过滤,得到目标序列集。
[0010]本申请实施例还提供了一种基因序列处理装置,包括:
[0011]获取模块,用于获取第一序列集,第一序列集中包含多个待处理序列;
[0012]第一过滤模块,用于通过对比多个待处理序列中各类碱基的数量,对第一序列集进行过滤,得到第二序列集;
[0013]生成模块,用于根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;
[0014]第二过滤模块,用于通过对比第二序列集中各待处理序列的子序列,对第二序列集进行过滤,得到目标序列集。
[0015]本申请实施例还提供一种计算机可读的存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行,以实现本申请实施例提供的任一种基因序列处理方法中的步骤。
[0016]本申请实施例还提供一种电子设备,电子设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序,以实现本申请实施例提供的任一种基因序列处理方法中的步骤。
[0017]本申请实施例提供的基因序列处理方法首先获取第一序列集,第一序列集中包含多个待处理序列;然后通过对比多个待处理序列中各类碱基的数量,对第一序列集进行过滤,得到第二序列集;根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;进而通过对比第二序列集中各待处理序列的子序列,对第二序列集进行过滤,得到目标序列集。本申请实施例根据包含的各类碱基的数量对多个待处理序列进行了一重过滤,根据各待处理序列生成的子序列对一重过滤后的多个待处理序列进行了二重过滤,从而滤除了大量冗余的基因序列,能够提高基因序列的处理效率。
附图说明
[0018]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本申请实施例提供的基因序列聚类示意图。
[0020]图2为本申请实施例提供的打分方法示意图。
[0021]图3为本申请实施例提供的基因序列处理方法的第一种流程示意图。
[0022]图4为本申请实施例提供的前置过滤原理示意图。
[0023]图5为本申请实施例提供的子序列生成原理示意图。
[0024]图6为本申请实施例提供的短词过滤算法示意图。
[0025]图7为本申请实施例提供的基因序列处理方法的第二种流程示意图。
[0026]图8为本申请实施例提供的基因序列处理方法的第三种流程示意图。
[0027]图9为本申请实施例提供的数据打包算法示意图。
[0028]图10为本申请实施例提供的第一种试验结果图。
[0029]图11为本申请实施例提供的第二种试验结果图。
[0030]图12为本申请实施例提供的基因序列处理装置的第一种结构示意图。
[0031]图13为本申请实施例提供的基因序列处理装置的第二种结构示意图。
[0032]图14为本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0033]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有实施例,都属于本专利技术保护的范围。
[0034]本专利技术的说明书和权利要求书以及上述附图中的术语“第一”、“第二”、“第三”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应当理解,这样描述的对象在适当情况下可以互换。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤的过程、方法或包含了一系列模块或单元的装置、终端、系统不必限于清楚地列出的那些步骤或模块和单元,还可以包括没有清楚地列出的步骤或模块或单元,也可以包括对于这些过程、方法、装置、终端或系统固有的其
它步骤或模块或单元。
[0035]原始的基因序列数据集中存在大量冗余序列,这些冗余序列在后续的分析过程中不提供有效信息,反而要消耗计算资源,因此需要去除。去除数据集中冗余序列的过程,也被称作序列聚类。
[0036]例如,如果将所有序列分为参考序列与未聚类序列两个部分,则聚类的过程可以理解为将未聚类序列向参考序列迁移的过程。请参阅图1,图1为本申请实施例提供的基因序列聚类示意图。首先,将所有序列归入未聚类部分并按照长度递减排序;取出未聚类部分中的第一条序列,如果这条序列与所有参考序列都不相似,则作为新的参考序列归入,否则丢弃这条序列;重复上述步骤,直到未聚类部分为空。
[0037]其中,判断两条基因序列是否相似的过程,称为比对。例如,可以采用如下的比对算法:
[0038]设要比对的两个序列为A=a1a2…
a
n
和B=b1b2…
b
m
,其中n和m分别为序列A和B的长度。
[0039]1.确定置换矩阵和空位罚分方法。
[0040]S(a,b)表示组成序列的元素之间的相似性得分。
[0041]Wk表示长度为k的空位罚分。
[0042]2.创建得分矩阵H并初始化其首行和首列。该矩阵的大小为n+1行m+1列(从0开始计数)。
[0043]H
k0
=H
0l
=0,(0≤k≤n,0≤l≤m)
[0044]3.从左到右,从上到下进行打分,填充得分矩阵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因序列处理方法,其特征在于,包括:获取第一序列集,所述第一序列集中包含多个待处理序列;通过对比所述多个待处理序列中各类碱基的数量,对所述第一序列集进行过滤,得到第二序列集;根据所述第二序列集中的每个待处理序列生成多个连续重叠的子序列;通过对比所述第二序列集中各待处理序列的子序列,对所述第二序列集进行过滤,得到目标序列集。2.根据权利要求1所述的基因序列处理方法,其特征在于,所述多个待处理序列中包括参考序列和多个非参考序列,所述通过对比所述多个待处理序列中各类碱基的数量,对所述第一序列集进行过滤,得到第二序列集还包括:从所述多个待处理序列中确定出参考序列;将除所述参考序列以外的待处理序列确定为非参考序列。3.根据权利要求2所述的基因序列处理方法,其特征在于,所述通过对比所述多个待处理序列中各类碱基的数量,对所述第一序列集进行过滤,得到第二序列集包括:统计所述参考序列中各类碱基的数量;对于所述第一序列集中的每一个所述非参考序列,统计所述非参考序列中各类碱基的数量;根据所述非参考序列与所述参考序列中各类碱基的数量确定所述非参考序列与所述参考序列的碱基相似度;根据各非参考序列与所述参考序列的碱基相似度对所述第一序列集进行过滤,得到第二序列集。4.根据权利要求3所述的基因序列处理方法,其特征在于,所述根据所述非参考序列与所述参考序列中各类碱基的数量确定所述非参考序列与所述参考序列的碱基相似度包括:根据所述非参考序列与所述参考序列中各类碱基的数量确定所述非参考序列与所述参考序列中重叠碱基的数量;确定所述非参考序列的碱基长度;将所述重叠碱基的数量占所述碱基长度的比例确定为所述非参考序列与所述参考序列的碱基相似度。5.根据权利要求3所述的基因序列处理方法,其特征在于,所述根据各非参考序列与所述参考序列的碱基相似度对所述第一序列集进行过滤,得到第二序列集包括:将所述第一序列集中碱基相似度大于或等于第一相似度阈值的非参考序列进行保留,将碱基相似度小于第一相似度阈值的非参考序列进行滤除,得到所述第二序列集。6.根据权利要求2所述的基因序列处理方法,其特征在于,所述第二序列集中包括参考序列和多个非参考序列,所述通过对比所述第二序列集中各待处理序列的子序列,对所述第二序列集进行过滤,得到目标序列集包括:按照预设规则对所述参考序列的子序列进行排序;对于所述第二序列集中的每一个所述非参考序列,按照所述预设规则对所述非参考序列的子序列进行排序;根据所述非参考序列与所述参考序列的子序列的排序结果,确定所述非参考序列与所
述参考序列的子序列相似度;根据各非参考序列与所述参考序列的子序列相似度对所述第二序列集进行过滤,得到目标序列集。7.根据权利要求6所述的基因序列处理方法,其特征在于,所述根据所述非参考序列与所述参考序列的子序列的排序结果,确定所述非参考序列与所述参考序列的子序列相似度包括:根据所述非参考序列与所述参考序列的子序列的排序结果,确定出所述非参考序列与所述参...

【专利技术属性】
技术研发人员:鞠震
申请(专利权)人:上海智峪生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1