一种基因转录变异几率及变异方向的算法制造技术

技术编号:19263726 阅读:45 留言:0更新日期:2018-10-27 02:31
本发明专利技术公开了一种基因转录变异几率及变异方向的算法,海量的高通量数据以及对检测结果的准确性要求使得InDel检测面临着大的挑战,若直接将短序列比对到参考序列上会出现两个问题,一个是映射过程中计算复杂需要很长时间,另一个是当read在参考序列上存在匹配时,read将会映射到其在参考序列的第一个匹配,这通常不是最佳匹配,为了解决以上两个问题,本发明专利技术先对滑窗方法产生的参考序列的seed集合进行构建哈希表,然后在比对时利用哈希表对read进行定位先对滑窗方法产生的参考序列的seed集合进行构建哈希表,由于参考序列信息量大,而哈希表耗内存,因此在创建哈希表的同时对序列进行了二进制压缩,使得内存占用大大减少。

An algorithm for mutation probability and mutation direction of genes

The invention discloses an algorithm of gene transcription mutation probability and mutation direction. The huge amount of high-throughput data and the accuracy requirement of detection results make InDel detection face great challenges. If the short sequence is directly aligned to the reference sequence, there will be two problems. One is that it takes a long time to calculate the complex mapping process. In order to solve the above two problems, the present invention first constructs a hash table for the seed set of the reference sequence generated by the sliding window method, and then uses the hash table for alignment. The table locates the read and constructs a hash table for the seed set of reference sequences generated by the sliding window method. Because the information of reference sequences is large and the hash table consumes memory, the hash table is created and the sequence is binary compressed, which greatly reduces the memory consumption.

【技术实现步骤摘要】
一种基因转录变异几率及变异方向的算法
本专利技术涉及高通量测序的生物信息领域,具体是一种基因转录变异几率及变异方向的算法。
技术介绍
随着高通量测序技术的诞生和迅猛发展,测序成本越来越低,通量越来越大,极大地促进了对生物信息学的研究,基于序列比对,对基因变异几率和方向有助于找到与疾病相关的一些位点,为后续的疾病病理确定,治疗方案探索有重要意义,但是海量的高通量数据以及对检测结果的准确性要求使得InDel检测面临着大的挑战,若直接将短序列比对到参考序列上会出现两个问题,一个是映射过程中计算复杂需要很长时间,另一个是当read在参考序列上存在匹配时,read将会映射到其在参考序列的第一个匹配,这通常不是最佳匹配,为了解决以上两个问题,本专利技术先对滑窗方法产生的参考序列的seed集合进行构建哈希表,然后在比对时利用哈希表对read进行定位,由于参考序列信息量大,而哈希表创建耗内存,因此在创建哈希表的同时对序列进行了二进制压缩,使得内存占用大大减少,提高分析的速率,在InDel检测过程中同样存在两个问题,一个是高通量测序技术产生的read的长度很短,更不用说作为read的子序列的种子,因此本文档来自技高网...

【技术保护点】
1.一种基因转录变异几率及变异方向的算法,其特征在于,操作步骤如下:一.哈希表创建:哈希表是根据关键码值而直接进行访问的数据结构,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度,这个映射函数叫做散列函数,存放记录的数组叫做散列表;二.模拟数据:为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响,需要已知所有变异的具体信息,包括变异的几率、方向以及所处基因组区域的特征,为此本专利技术利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列,再利用模拟测序技术生成测序数据;三.read定位:由于read相对于参考序列来说很短,直接将...

【技术特征摘要】
1.一种基因转录变异几率及变异方向的算法,其特征在于,操作步骤如下:一.哈希表创建:哈希表是根据关键码值而直接进行访问的数据结构,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度,这个映射函数叫做散列函数,存放记录的数组叫做散列表;二.模拟数据:为了详细的研究每个软件Indel检测结果的正确率、回收率以及基因组的序列特征对检测到结果的影响,需要已知所有变异的具体信息,包括变异的几率、方向以及所处基因组区域的特征,为此本发明利用计算机模拟技术将已知变异加入到参考基因组中生成新基因组序列,再利用模拟测序技术生成测序数据;三.read定位:由于read相对于参考序列来说很短,直接将read比对到参考序列上时,会遇到过早定位到不正确的位点的情况,因此在进行比对之前,我们需要先对read进行定位,为后续的比对选出几个候选的比对位点,为read定位就需要用到构建好的哈希表,在read上选出长度为seed_length的一段连续子序列(seed),先对子序列进行定位得到候选位置,read的长度很短,更不用说作为read的子序列的seed,因此一个seed在定位时往往会定位到参考序列上的多个位置上,造成定位结果不准确,并且本发明十对的是InDel数据,小的InDel在read上的分布是随机的,有时会出现seed覆盖了InDel的位置,而使得seed错误地定位到参考序列上的某个位点,为了提升后续比对中检测InDel的正确性,减少InDel检测结果的假阴性,本发明提出对read使用滑窗方法选出多个子序列分别...

【专利技术属性】
技术研发人员:邵莉佟艳辉李鹏
申请(专利权)人:中科政兴上海医疗科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1