System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基因组电子酶切所得序列标签的存储方法及系统技术方案_技高网

一种基因组电子酶切所得序列标签的存储方法及系统技术方案

技术编号:40660159 阅读:5 留言:0更新日期:2024-03-18 18:52
本发明专利技术公开了一种基因组电子酶切所得序列标签的存储方法及系统,属于数据存储的技术领域,其包括预存基因组与物种分类映射表,按照物种分类信息对基因组信息进行排序,根据排好的顺序获得基因组重编号,按照排好的顺序调取基因组信息,并对调取的基因组信息进行电子酶切,获得标签,计算在同一基因组信息中出现的标签数量,预设分段存储阈值,将基因组重编号和标签数量组合获得正式编号,将正式编号转换为键值对,将键值对写入数据库,将数据库以最后一个存储的基因组重编号为名保存,本发明专利技术具有有效提高查询电子酶切标签的速度,并且数据库管理方便,占用存储空间小的效果。

【技术实现步骤摘要】

本专利技术涉及数据存储领域,尤其是涉及一种基因组电子酶切所得序列标签的存储方法及系统


技术介绍

1、目前2brad-m(一种可以描绘该物种微生物群落景观的新型测序技术)技术是一种基于2b型内切酶进行微生物物种鉴定的方法,它依赖于构建好的唯一序列标签数据库,数据分析时,需要先将整个数据库读取到内存中。随着数据库中物种数量的增加,唯一序列标签数量也会增加,这就导致查询数据库所需的内存也会不断增大。此外,在进行二次建库时,需要首先获取定性所得物种基因组的全部序列标签。当前存储全部物种基因组的全部序列标签的通用方法是将所有序列标签放到一个文件中,对于多次出现的标签也同样多次记录,占用存储空间大,并且在获取特定基因组的序列标签时,需要从头遍历整个文件,耗时将非常长。而如果每个基因组单独生成一个文件,那么该库所包含的文件数将非常多,不利于管理和检索。

2、上述中的现有技术方案存在以下缺陷:为了让数据检索更快捷、高效,现在需要一种能够同时解决基因组电子酶切所得序列标签存储空间大和检索困难的方法。


技术实现思路

1、为了有效提高查询电子酶切标签的速度,减少占用存储空间,本申请提供一种基因组电子酶切所得序列标签的存储方法及系统。

2、一方面,本申请提供的一种基因组电子酶切所得序列标签的存储方法采用如下的技术方案:

3、一种基因组电子酶切所得序列标签的存储方法,包括以下步骤:

4、预存基因组与物种分类映射表,基因组与物种分类映射表包括若干基因组信息与若干物种分类信息,每个物种分类信息均对应若干基因组信息,基因组信息包括基因组重编号;

5、预设编号的位数,预设标签数量的位数;

6、按照物种分类信息对基因组信息进行排序,对应同一物种分类信息的基因组信息顺序相邻;

7、根据排好的顺序获得基因组重编号,并将基因组重编号补满位数;

8、按照排好的顺序调取基因组信息,并对调取的基因组信息进行电子酶切,获得标签;

9、计算在同一基因组信息中出现的标签数量,将标签数量补满位数;

10、预设分段存储阈值;

11、将基因组重编号和标签数量组合获得正式编号,将正式编号与标签建立映射关系;

12、判断正式编号是否为分段存储阈值的整倍数;

13、若正式编号是分段存储阈值的整倍数,则将正式编号转换为键值对,将键值对写入数据库;

14、将数据库以最后一个存储的基因组重编号为名保存。

15、通过采用上述方案,本申请的数据结构使用了高度压缩的表示形式,可以大幅降低存储序列信息时的空间占用,同时提升字符串的查找速度。能够有效地存储基因组的全部序列标签,能够有效提高查询电子酶切标签的速度,并且数据库管理方便,占用存储空间小。顺序编号是为了方便切段存储数据,降低创建数据库时的资源消耗,同时提升数据库检索速度。补齐相同位数是为了降低bytestrie存储和检索的复杂程度,同时方便后续信息拆分。

16、优选的,还包括以下步骤:

17、调用基因组与物种分类映射表,查询基因组与物种分类映射表中全部基因组的全部电子酶切标签;

18、根据物种分类信息与基因组信息的对应关系查询每个物种分类信息相对于其他种所特有的电子酶切标签;

19、将唯一电子酶切标签与物种分类信息内的基因组重编号的关系暂存在内存中;

20、将内存中的数据转换成键值对,将键值对存储于数据库内。

21、通过采用上述方案,本存储方法能够有效提升查询唯一电子酶切标签的速度。

22、优选的,所述步骤若正式编号是分段存储阈值的整倍数,则将正式编号转换为键值对具体设置为:

23、若正式编号是分段存储阈值的整倍数,则将正式编号作为键、将标签作为值形成键值对;

24、所述步骤将内存中的数据转换成键值对,将键值对存储于数据库内具体设置为:

25、将内存中的标签作为键、将基因组重编号作为值形成键值对,将键值对存储于数据库内。

26、通过采用上述方案,将内存中的标签作为键、将基因组重编号作为值形成键值对,符合bytestrie的要求。

27、优选的,还包括以下步骤:

28、检测新的基因组重编号是否超出位数;

29、若超出位数,则扩大位数并将所有基因组重编号补满位数;

30、检测标签数量是否超出位数;

31、若超出位数,则扩大位数并将所有标签数量补满位数。

32、通过采用上述方案,为了避免基因组重编号或标签数量超出位数,造成计算错误。

33、优选的,还包括以下步骤:

34、若当前正式编号为最后一个正式编号,则不论其是否是分段存储阈值的整倍数,均将正式编号转换为键值对,将键值对写入数据库。

35、通过采用上述方案,为了保证数据库命名能够稳定被检索到。

36、优选的,还包括以下步骤:

37、接收带有基因组标签的查询信息;

38、在基因组与物种分类映射表中根据基因组标签查找对应的基因组重编号;

39、将查找出的基因组编号除以分段存储阈值并向上取整获得中间数,将中间数再乘以分段存储阈值获得数据库名称;

40、根据数据库名称确定需查询的数据库,在该数据库中根据基因组重编号查询键值对;

41、分析出键值对中的正式编号,在正式编号中查出标签数量。

42、通过采用上述方案,查询过程能够快速定位数据库,再从数据库中查找标签数量,使得查询速度快且准确。

43、优选的,所述步骤预设编号的位数具体设置为:

44、预设编号的位数为8;

45、所述步骤预设标签数量的位数具体设置为:

46、预设标签数量的位数为4。

47、通过采用上述方案,编号的位数为8,标签数量的位数为4,即方便运算也足够一般情况下使用。

48、另一方面,本申请提供的一种基因组电子酶切所得序列标签的存储系统采用如下的技术方案:

49、一种基因组电子酶切所得序列标签的存储系统,包括数据预存模块、信息排序模块、信息编号模块、标签生成模块、标签计数模块、编号生成模块、存储判断模块和数据存储模块;

50、所述数据预存模块预存有基因组与物种分类映射表和分段存储阈值;

51、所述信息排序模块调用基因组与物种分类映射表,按照物种分类信息对基因组信息进行排序,对应同一物种分类信息的基因组信息顺序相邻,将排序后的基因组信息传输给信息编号模块和标签生成模块;

52、所述信息编号模块预设有编号的位数,信息编号模块根据排好的顺序获得基因组重编号,并将基因组重编号补满位数,将基因组重编号传输给编号生成模块;

53、所述标签生成模块根据排序后的基因组信息调用基因组与物种分类映射表中的基因组信息,对调取的基本文档来自技高网...

【技术保护点】

1.一种基因组电子酶切所得序列标签的存储方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,还包括以下步骤:

3.根据权利要求2所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于:

4.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,还包括以下步骤:

5.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,还包括以下步骤:

6.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,还包括以下步骤:

7.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,所述步骤预设编号的位数具体设置为:

8.一种基因组电子酶切所得序列标签的存储系统,其特征在于:包括数据预存模块(1)、信息排序模块(2)、信息编号模块(3)、标签生成模块(4)、标签计数模块(5)、编号生成模块(7)、存储判断模块(8)和数据存储模块(9);

9.根据权利要求8所述的一种基因组电子酶切所得序列标签的存储系统,其特征在于:还包括位数检测模块(6),所述位数检测模块(6)监测信息编号模块(3)的基因组重编号和标签计数模块(5)的标签数量是否超出位数,若基因组重编号超出位数,则扩大位数并将所有基因组重编号补满位数,若标签数量超出位数,则扩大位数并将所有标签数量补满位数。

10.根据权利要求8所述的一种基因组电子酶切所得序列标签的存储系统,其特征在于:还包括数据查询模块(10)和标签查询模块(11);

...

【技术特征摘要】

1.一种基因组电子酶切所得序列标签的存储方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,还包括以下步骤:

3.根据权利要求2所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于:

4.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,还包括以下步骤:

5.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,还包括以下步骤:

6.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,还包括以下步骤:

7.根据权利要求1所述的一种基因组电子酶切所得序列标签的存储方法,其特征在于,所述步骤预设编号的位数具体设置为:...

【专利技术属性】
技术研发人员:刘江周丽沙王修评
申请(专利权)人:青岛欧易生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1