一种以基因组位置为索引的生物信息数据库跨库检索方法技术

技术编号：39519251 阅读：16 留言：0更新日期：2023-11-25 18:57

本发明专利技术为一种以基因组位置为索引的生物信息数据库跨库检索方法，包括以下步骤：创建跨库生物信息检索表；对多个现有生物信息数据库的条目进行遍历，获取第一基因数据；对所述第一基因数据按照基因组位置进行统一表述，得到统一表述索引；将所述统一表述索引与所述第一基因数据进行关联，得到第二基因数据；将所述第二基因数据存储到所述跨库生物信息检索表；根据待检索基因组位置在所述跨库生物信息检索表进行关联检索，得到第一检索结果；对所述第一检索结果进行区间运算，得到第二检索结果；根据所述第二检索结果在对应的所述现有生物信息数据库检索，得到待检索基因组位置关联的生物信息数据

全部详细技术资料下载

【技术实现步骤摘要】
一种以基因组位置为索引的生物信息数据库跨库检索方法

[0001]本专利技术涉及计算科学和生物医学领域
，特别涉及多源生物信息数据库跨库检索领域
。

技术介绍

[0002]跨库检索又称为“整合检索”、"
跨平台检索”、"
统一检索”、“联邦检索”和“平行检索”等
,
它是指用户通过统一的检索界面
,
可以一次并发地对多个数据库同时进行检索
,
并将会个数据库的检索结果排序后归并
,
一次提交用户
,
是在实体资源分散的情况下实现“虚拟的资源整合”。
理想中跨库检索系统应该为用户提供一个简单
、
快速
、
全面的导航及检索系统
,
同时满足不同层次用户的需求，借助同一检索入口，利用统一的检索方法，并发地检索多个分布式异构数据源，并对检索结果加以整合，以统一的格式呈现给用户的信息检索方式
。
[0003]目前通用的跨库检索方案有：
1.
元搜索引擎
(Meta
‑
Search Engine)
：元搜索引擎是一种通过同时查询多个数据库或搜索引擎来获取信息的工具
。
它可以将多个搜索引擎的搜索结果整合在一起，并消除重复的结果，提供更全面和有用的搜索结果
。2.
开放搜索协议
(OpenSearch Protocol)
：
OpenSearch<...

【技术保护点】

【技术特征摘要】
1.
一种以基因组位置为索引的生物信息数据库跨库检索方法，其特征在于，包括以下步骤：创建跨库生物信息检索表；对多个现有生物信息数据库的条目进行遍历，获取第一基因数据；对所述第一基因数据按照基因组位置进行统一表述，得到统一表述索引；将所述统一表述索引与所述第一基因数据进行关联，得到第二基因数据；将所述第二基因数据存储到所述跨库生物信息检索表；根据待检索基因组位置在所述跨库生物信息检索表进行关联检索，得到第一检索结果；对所述第一检索结果进行区间运算，得到第二检索结果；根据所述第二检索结果在对应的所述现有生物信息数据库检索，得到待检索基因组位置关联的生物信息数据
。2.
如权利要求1所述的方法，其特征在于，所述对第一基因数据按照基因组位置进行统一表述的步骤是基于分片索引计算的方式进行的，包括：在所述现有生物信息数据库中增加获取基因组位置索引值的接口
。3.
如权利要求2所述的方法，其特征在于，所述获取基因组位置索引值接口的执行步骤包括：步骤
S31
：将索引值构建为一个树状数据结构的索引树；步骤
S32
：设置所述索引树的每一节点存储空间尺寸
、
索引树深度和索引树叉数，得到每层起点索引值；步骤
S33
：对所述第一基因数据进行遍历；步骤
S34
：根据所述遍历条目的基因组位置，寻找容纳所述基因组位置的索引树节点位置，得到存储层数和存储偏移；步骤
S35
：根据所述存储层数和存储偏移得到所述条目中基因组位置的索引值
。4.
如权利要求2所述的方法，其特征在于，所述第二基因数据包括：基因组位置的索引值；数据库标识；基因组位置；条目序号
。5.
如权利要求3所述的方法，其特征在于，所述索引树为二进制存储
。6.
如权利要求5所述的方法，其特征在于，所述索引值构建为一个树状数据结构是从根节点自顶向下构建的
。7.
如权利要求6所述的方法，其特征在于，所述对索引树的每一个节点的存储空间尺寸进行设置的步骤进一步包括：步骤
S321
：设置索引树叶子节点的存储空间尺寸；步骤
S322
：将叶子节点的存储空间尺寸和所述索引树的叉数相乘得到叶子节点对应的父亲节点的存储空间尺寸；步骤
S323
：对索引树进行遍历得到每个节点的存储空间尺寸
。8.
如权利要求7所述的方法，其特征在于，所述寻找容纳所述基因组位置的索引树节点
位置步骤进一步包括：所述寻找过程的方向是对索引树从下向上和从左到右寻找
。9.
如权利要求8所述的方法，其特征在于，所述寻找容纳所述基因组位置的索引树节点位置步骤还包括：步骤
S341
：对所述基因组位置的起点数值和终点数值与所述叶子节点的存储空间尺寸进行运算，得到起点偏移和终点偏移；步骤
S342
：对起点偏移和终点偏移进行判断；步骤
S343
：如果起点偏移和终点偏移位于同一个节点，返回当前的索引树的层数和起点偏移；步...

【专利技术属性】
技术研发人员：卜德超，徐珠峰，李晨昊，赵屹，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人