一种基于DNA k‑mer index问题四字链表字典树检索算法制造技术

技术编号：14768179 阅读：69 留言：0更新日期：2017-03-08 12:28

本发明专利技术涉及数据结构和大数据处理领域，尤其涉及一种基于字典树的新型快速搜索算法。本发明专利技术首先建立四字字典树模型，以DNA序列的4个碱基作为系统输入；建立字典树终端检索链表，确立终端结束标志，最后不再区分碱基序列并建立查询时反向推算序列号与碱基对号模型；DNA序列索引建立的步骤及其复杂度分析；获取子串位置后在叶子节点处加挂检索链表，存入位置数据；k‑mer短串查询步骤及其复杂度分析；当单词的公共前缀越长时，字典树查询的越快；其复杂度随着k不同而有变化，但基本为一常量，几乎不受到数据量的影响。本发明专利技术原始数据采用字母映射，使字典树的子节点个数由26个压缩至4个，节省结点空间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据结构和大数据处理领域，尤其涉及一种基于DNAk-merindex问题四字链表字典树检索算法。
技术介绍
目前实施的千人基因组计划、国际单体型图计划和孟德尔遗传疾病计划等项目，利用下一代测序技术产生了海量DNA测序数据，又叫高通量测序数据，使得生物信息学数据呈现爆炸性增长。在生命科学的研究中，人们已经逐渐认识到，不仅需要用物理、化学和生物学方法研究生命的物质基础、能量转换、代谢过程等，还需要用信息科学方法研究生命信息特别是遗传信息的组织、复制、传递、表达及其作用，否则难以理解生命的工作机制，难以揭示生命的奥秘。DNA是遗传信息的载体，DNA的核苷酸序列上存储着蛋白质的氨基酸序列编码信息，存储着基因表达调控的信息，遗传信息存储在DNA四种字符组成的序列中，生物体生长发育的本质就是遗传信息的传递和表达，因此，可以说DNA序列包含着最基本的生命信息。分子序列数据库目前收集了全世界生物实验室的成千上万的DNA序列，并且还在不断增长。如何在DNA序列分析过程中，设计快速建立索引并进行相应的查找方法，来满足DNA序列分析的基本要求，已成为DNA研究发展的重要因素之一。利用Hash算法对DNA序列进行检索是一种解决大容量数据表快速检索简单高效的方法，并在进行大量检索操作的领域有着非常重要的作用和地位。但该类方法对较小的k是适用的，当k较大时由于数值太大导致存储量过大、计算速度变慢。本专利技术基于字典树的新型快速搜索算法，不仅考虑原字典树子节点个数对存储空间的浪费，而且考虑了区分碱基序列加大空间复杂度。利用四字链表字典树方法对原始数据进行预处理映射，并以...
一种<a href="http://www.xjishu.com/zhuanli/55/201610884413.html" title="一种基于DNA k‑mer index问题四字链表字典树检索算法原文来自X技术">基于DNA k‑mer index问题四字链表字典树检索算法</a>

【技术保护点】
一种基于DNA k‑mer index问题四字链表字典树检索算法，其特征在于，包括如下步骤：(1)首先建立四字字典树模型，以DNA序列的4个碱基作为系统输入；(2)建立字典树终端检索链表，确立终端结束标志，最后不再区分碱基序列并建立查询时反向推算序列号与碱基对号模型；(3)DNA序列索引建立的步骤及其复杂度分析；获取子串位置后在叶子节点处加挂检索链表，存入位置数据；(4)k‑mer短串查询步骤及其复杂度分析；当单词的公共前缀越长时，字典树查询的越快；其复杂度随着k不同而有变化，但基本为一常量，几乎不受到数据量的影响。

【技术特征摘要】
1.一种基于DNAk-merindex问题四字链表字典树检索算法，其特征在于，包括如下步骤：(1)首先建立四字字典树模型，以DNA序列的4个碱基作为系统输入；(2)建立字典树终端检索链表，确立终端结束标志，最后不再区分碱基序列并建立查询时反向推算序列号与碱基对号模型；(3)DNA序列索引建立的步骤及其复杂度分析；获取子串位置后在叶子节点处加挂检索链表，存入位置数据；(4)k-mer短串查询步骤及其复杂度分析；当单词的公...

【专利技术属性】
技术研发人员：王辉，张旭，魏智红，童丽峰，张一，毕文鹏，贲浩然，车超，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人