基于携带缓存Trie树加速生物基因的检索方法技术

技术编号:34186244 阅读:46 留言:0更新日期:2022-07-17 14:18
本发明专利技术公开了基于携带缓存Trie树加速生物基因的检索方法,属于数据查询技术领域,该检索方法具体步骤如下:(1)构建Tire树并将数据导入Tire树中;(2)对Tire树进行性能优化;(3)对基因序列簇进行缓存优化;(4)对Tire树查询效率进行对比分析;本发明专利技术通过构建Trie树与哈希表结合的方式对各组生物基因数据进行查询,能够利用有限的内存空间加速基因索引的检索。索。索。

A method of accelerating biological gene retrieval based on carrying cache trie tree

【技术实现步骤摘要】
基于携带缓存Trie树加速生物基因的检索方法


[0001]本专利技术涉及数据查询
,尤其涉及基于携带缓存Trie树加速生物基因的检索方法。

技术介绍

[0002]信息检索是指用户进行信息查询和获取的主要方式。大批量的数据以数据库的形式进行管理。以关系型数据库为主,通过索引表查询数据,而数据写入磁盘中,在搭建生信数据库时,多数采用的架构方式为以Java,Python构建后端系统,数据保存在MySQL数据库。在这样的系统中,后端主要负责数据的传递,而数据的检索压力全部转交给数据库。检索的效率取决于数据库的性能,其中包括运行数据库机器的硬件性能,以及数据库产品自身的性能。随着数据量的增长,系统的性能很难提升。甚至单次检索耗时可达一分钟之久,同时后端程序在整个系统中并没有起到对数据检索有利的作用。在数据量到达十万级别的时候,MySQL会出现明显的性能问题。当一个SQL语句需要十几秒的执行时间,应当在系统中增加检索服务来缓解数据库压力。若后端程序能够提前帮助数据库过滤出所有符合条件的索引,再结合数据库精准匹配,这种方式能够极大的减缓数据库的压力;为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于携带缓存Trie树加速生物基因的检索方法,其特征在于,该检索方法具体步骤如下:(1)构建Tire树并将数据导入Tire树中:工作人员构建Tire树,同时将生物基因数据导入Tire树中进行存储;(2)对Tire树进行性能优化:将Tire树进行压缩处理,同时生成一组索引表以对Tire树在精准匹配时效率进行性能优化;(3)对基因序列簇进行缓存优化:将生成的各组基因序列簇缓存至内存中,同时通过LRU算法对各组基因序列簇进行选择淘汰;(4)对Tire树查询效率进行对比分析:收集并分析MySQL与Redis查询效率,同时检测Tire树查询效率,并将收集到的三组查询效率进行对比分析。2.根据权利要求1所述的基于携带缓存Trie树加速生物基因的检索方法,其特征在于,步骤(1)中所述Tire树构建具体步骤如下:步骤一:对各组生物基因数据的基因序列进行分析,并提取“MSTRG”和“CSS”两组标识;步骤二:创建Trie树根节点,同时该根节点不包含字符,依据分析结果将各组生物基因数据的字符录入除根节点以外的每个节点中,同时每个节点只包含一个字符;步骤三:当工作人员查询某一组或多组生物基因数据时,从根节点到某一节点,路径上经过的字符连接起来,为该生物基因数据对应的字符串,且每个节点的所有子节点包含的字符都不相同。3.根据权利要求1所述的基于携带缓存Trie树加速生物基因的检索方法,其特征在于,步骤(2)中所述性能优化具体步骤如下:第一步:遍历Trie树各连续分支,并将非根内部节点只有一个子节点进行标记,并将该节点视为冗余;第二步:将标记的各组长度为一的连续分支节点压缩为一串字符串,并将其作为该Trie树索引的单一分支节点,同时存储空间从标准Trie树的O(n)降低到压缩后的O(k),其中,n为Trie树中总字符串长度,k为插入基因的最长长度;第三步:在内存中构建一张索引表,在进行模糊查询时通过Trie树做索引查询,进行精确查找时查询索引表,且所有基因索引表在内存中只会保存一份,Trie树与索引表最后指向同一...

【专利技术属性】
技术研发人员:徐淳吴云志乐毅董梦龙马志宇陈佳玲
申请(专利权)人:安徽农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1