当前位置: 首页 > 专利查询>深圳大学专利>正文

一种面向SSD的基因对比方法及系统技术方案

技术编号:21774651 阅读:44 留言:0更新日期:2019-08-03 22:24
本发明专利技术公开了一种面向SSD的基因对比方法及基于此方法的比对系统。本发明专利技术所述的方法主要包括获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。本发明专利技术结合SSD,一方面减少了数据读写次数;另一方面通过对齐,递进式对比等手段将数据作了一个粗略的筛选,大大减少了需要编辑距离计算的数据的比例,提升了效率,缩短了计算时间。

A SSD-Oriented Gene Contrast Method and System

【技术实现步骤摘要】
一种面向SSD的基因对比方法及系统
本专利技术涉及数据处理领域,尤其涉及一种面向SSD的基因对比方法及系统。
技术介绍
在生物学中,基因序列分析是非常关键的一部分。就目前的技术来说,测出某DNA片段的序列已非常高效,目前的基因序列分析瓶颈在于readmapping环节,亦就是基因序列对比环节。而在基因序列对比中,一般使用编辑距离来判断两个DNA的相似度,但是编辑距离的计算非常耗费时间。其次,DNA片段数据量非常庞大,当某个DNA片段需要和百万级别或以上的DNA片段进行对比时,频繁的DNA数据读写所耗费的时间非常庞大。在DNA基因对比这方面,已经有前人提出了过滤算法,如GRIM-Filters,他们旨在先通过一个简单算法过滤掉一些不需要进行编辑距离计算的DNA片段,通过减少编辑距离的计算次数来达到加速DNA对比的目的。因此开发一种新的基因比对方法解决原有方法对基因数据处理效率低时间长的问题具有十分重要的意义。
技术实现思路
本专利技术的主要目的在于提供一种面向SSD的基因对比方法,旨在解决现有技术中对基因数据处理效率低、时间长的技术问题。为实现上述目的,本专利技术第一方面提供面向SSD的基因对比方法,包括:获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。为实现上述目的,本专利技术第二方面提供一种面向SSD的基因对比系统,所述系统包括:DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。本专利技术结合SSD,一方面减少了数据读写次数;另一方面通过对齐策略,递进式对比等手段将数据先进行一个粗略的筛选,大大减少了需要编辑辑距离计算的数据的比例,提升了效率,缩短了计算时间。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中面向SSD的基因对比方法的流程示意图;图2为本专利技术实施例中面向SSD的基因对比系统的结构示意图。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,为本专利技术实施例面向SSD的基因对比方法的流程示意图,该方法包括:步骤101、获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;本专利技术实施例中,具体的可以获取DNA片段的数据,确定N块连续空闲的物理块;所述DNA片段包括第一DNA片段和第二DNA片段;对于第n个物理块,n的初始值为1,n为小于或等于N的正整数,将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满,若未被放满则代表数据放置完毕,记录下最后一块物理块页数num_final_page;计算总物理页数num_total_page,将DNAid、N、num_total_page这三个数据形成一个节点放在链表DNAinfo的尾部;其中总页数的计算公式为:num_total_page=(N-1)*num_each_block+num_final_pagenum_each_block为每个物理块的页数;若该物理块被放满则将剩余数据放入下一块空闲物理块,直至某一块未放满执行上述操作。步骤102、从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;本专利技术实施例中,具体的可以从链表DNAinfo中找到第一DNA片段的节点及第二DNA片段的节点,将第一DNA片段的节点及第二DNA片段的数据读取到内存,并计算第一DNA片段及第二DNA片段的大小dna_a_length、dna_b_length;比较所述两个DNA片段大小,得到最小值dna_min_length;确定精度参数scale_1、scale_2、scale_3得到起始比较次数compare_times,以下用C表示;其中compare_times=dna_min_length*scale_1;dna_length=num_total_page*每页的大小。精度参数scale_1、scale_2、scale_3在0-1之间。步骤103、基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果;本专利技术实施例中,具体的可以从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count;若count<C*scale_2则两个DNA片段相似度低于阈值;;若count≥C*scale_2则将compare_times调整为2倍,若2C≤dna_min_length*scale_3则说明这两个DNA相似度达到阈值;若2C>dna_min_length*scale_3则回到本步骤的第一步。直到判定出两个DNA片段的相似度。步骤104、若结果高于或等于相似度阈值则进行编辑距离计算以得到精确结果;若结果低于相似度阈值则无需进行编辑距离计算。通过前三个步骤可以筛选出差别较大的DNA,最后一步通过准确度更高的距离编辑计算最终确定数据的准确性。请参阅图2,为本专利技术实施例中面向SSD的基因对比系统的结构示意图,包括:DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果;编辑距离计算模块,用于对高于或等于相似度阈值的两个DNA片段进行进编辑距离计算。需要说明的是,图2所示实施例中各个模块的内容与图1所示实施例中各个步骤的内容相似,具体可参阅图1所示实施例中的内容,此处不做赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作本文档来自技高网...

【技术保护点】
1.一种面向SSD的基因对比方法,其特征在于,所述方法包括:获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。

【技术特征摘要】
1.一种面向SSD的基因对比方法,其特征在于,所述方法包括:获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若结果高于或等于相似度阈值则进行编辑距离计算以得到精确结果;若结果低于相似度阈值则无需进行编辑距离计算。3.根据权利要求1所述的方法,其特征在于,所述步骤A中具体包括:获取DNA片段的数据,确定N块连续空闲的物理块;所述DNA片段包括第一DNA片段和第二DNA片段;对于第n个物理块,n的初始值为1,n为小于或等于N的正整数,将DNA片段的数据放入第n个物理块,确认第n个物理块是否被放满,若未被放满则代表数据放置完毕,记录下最后一块物理块页数num_final_page;计算总物理页数num_total_page,将DNAid、N、num_total_page这三个数据形成一个节点放在链表DNAinfo的尾部;若该物理块被放满则将剩余数据放入下一块空闲物理块,直至某一块未放满执行上述操作。4.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:从链表DNAinfo中找到第一DNA片段的节点及第二DNA片段的节点,将第一DNA片段的节点及第二DNA片段的数据读取到内存,并计算第一DNA片段及第二DNA片段的大小dna_a_length、dna_b_length;比较所述两个DNA片段大小,得到最小值dna_min_length;确定精度参数scale_1、scale_2、scale_3得到起始比较次数compare_times,以下用C表示;其中compare_times=dna_min_length*scale_1;dna_length=num_total_page*每页的大小。精度参数scale_1、scale_2、scale_3在0-1之间。5.根据权利要求1所述的方法,其特征在于,所述步骤C具体包括:从[0,dna_min_length]中等概率选出C个位置,dna_min_length为所述两个DNA片段大小的较小值,分别将两个DNA片段上的C个位置上的数据逐一对比,得到相同个数count;若count<C*scale_2则两个DNA片段相似度低于阈值;若count≥C*scale_2则将compare_times调整为2倍,若2C≤dna_min_length*scale_3则说明这两个DNA相似度达到阈值;若2C>dna_min_length*scale_3则回到本步骤的第一步。6.一种面向SSD的基因对...

【专利技术属性】
技术研发人员:王毅林观泉陈炜轩黄江帆毛睿廖好周池
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1