一种以基因组位置为索引的生物信息数据库跨库检索方法技术

技术编号:39519251 阅读:16 留言:0更新日期:2023-11-25 18:57
本发明专利技术为一种以基因组位置为索引的生物信息数据库跨库检索方法,包括以下步骤:创建跨库生物信息检索表;对多个现有生物信息数据库的条目进行遍历,获取第一基因数据;对所述第一基因数据按照基因组位置进行统一表述,得到统一表述索引;将所述统一表述索引与所述第一基因数据进行关联,得到第二基因数据;将所述第二基因数据存储到所述跨库生物信息检索表;根据待检索基因组位置在所述跨库生物信息检索表进行关联检索,得到第一检索结果;对所述第一检索结果进行区间运算,得到第二检索结果;根据所述第二检索结果在对应的所述现有生物信息数据库检索,得到待检索基因组位置关联的生物信息数据

【技术实现步骤摘要】
一种以基因组位置为索引的生物信息数据库跨库检索方法


[0001]本专利技术涉及计算科学和生物医学领域
,特别涉及多源生物信息数据库跨库检索领域


技术介绍

[0002]跨库检索又称为“整合检索”、"
跨平台检索”、"
统一检索”、“联邦检索”和“平行检索”等
,
它是指用户通过统一的检索界面
,
可以一次并发地对多个数据库同时进行检索
,
并将会个数据库的检索结果排序后归并
,
一次提交用户
,
是在实体资源分散的情况下实现“虚拟的资源整合”。
理想中跨库检索系统应该为用户提供一个简单

快速

全面的导航及检索系统
,
同时满足不同层次用户的需求,借助同一检索入口,利用统一的检索方法,并发地检索多个分布式异构数据源,并对检索结果加以整合,以统一的格式呈现给用户的信息检索方式

[0003]目前通用的跨库检索方案有:
1.
元搜索引擎
(Meta

Search Engine)
:元搜索引擎是一种通过同时查询多个数据库或搜索引擎来获取信息的工具

它可以将多个搜索引擎的搜索结果整合在一起,并消除重复的结果,提供更全面和有用的搜索结果
。2.
开放搜索协议
(OpenSearch Protocol)

OpenSearch<br/>协议是一种基于
XML

Atom
协议的标准化协议,可以使搜索引擎或应用程序能够以一种通用的方式进行跨库检索

使用
OpenSearch
协议的搜索引擎可以让用户通过在不同的站点上搜索相关内容,获取更广泛的搜索结果
。3.
检索
API(Search API)
:许多数据库提供了检索
API
,通过
API
可以访问数据库中的数据并进行搜索

检索
API
可以用于跨库检索,因为它们提供了一种标准化的接口,可以与不同的数据库进行交互

例如,
PubMed
提供了
RESTful API
,可以用于从
PubMed
数据库中搜索和获取医学文献
。4.
跨库检索平台
(Federated Search Platform)
:跨库检索平台是一种针对特定领域的跨库检索工具,可以同时搜索多个数据库和资源,提供一站式的检索服务

这些平台通常具有定制化的搜索引擎和搜索算法,可以更好地满足特定领域的信息需求

[0004]生命科学中的生物信息数据库及检索系统面临特有的整合难题

生命科学已进入多个组学时代,各物种的基因组

转录组

蛋白组

宏基因组

表观组等组学数据的获得,耗费大量的资源和成本,针对这些数据利用各种类型的生物信息分析工具挖掘同时产生大量的知识,这些知识注释面临被再次查询

利用或者加工整合的需求,因此基于组学数据的存储

注释和检索显得尤为重要

虽然目前各大存储组学数据的生物信息数据库及检索系统处于开放共享状态

但是不同的数据库间大多相互独立,导致数据分散,在进行分析时整合困难,因此设计合理的跨库检索方案是有效利用数据

变海量数据资源优势向知识转化的前提条件

[0005]然而,不同于其他领域,生物组学数据或者注释多是以序列

基因等符号格式,表述不统一,数据量巨大,单一存储单元无法抽提明确清晰的关键词,因此对多个来源的数据库条目通过添加统一化关键词建立索引的方式对于生物组学数据不适用,跨库检索关联信息荐不够准确

检索性能表现低下

需要定义针对生物组学数据更加适用的索引及查询方
法,以支持生物信息数据库及检索系统的多库检索


技术实现思路

[0006]专利技术人在进行生物信息多源数据库跨库检索的研究中,发现现有抽提关键词建索引的方式对于生物组学数据不适用,跨库检索关联信息推荐不够准确

检索性能表现低下,这个问题是由于生物信息库中组学数据

注释知识的符号化表征形式是造成关键词索引困难,查询关联度不够高

检索性能表现低下的主要原因

[0007]专利技术人经过对生物组学数据的特征进行分析,发现使用基因组位置能够对大部的大部分组学数据

注释知识建立统一化索引

基于以上思路,本专利技术公开一种以基因组位置为索引的生物信息数据库跨库检索方法,包括以下步骤:
[0008]创建跨库生物信息检索表;
[0009]对多个现有生物信息数据库的条目进行遍历,获取第一基因数据;
[0010]对所述第一基因数据按照基因组位置进行统一表述,得到统一表述索引;
[0011]将所述统一表述索引与所述第一基因数据进行关联,得到第二基因数据;
[0012]将所述第二基因数据存储到所述跨库生物信息检索表;
[0013]根据待检索基因组位置在所述跨库生物信息检索表进行关联检索,得到第一检索结果;
[0014]对所述第一检索结果进行区间运算,得到第二检索结果;
[0015]根据所述第二检索结果在对应的所述现有生物信息数据库检索,得到待检索基因组位置关联的生物信息数据

[0016]在本专利技术一实施例中,所述对第一基因数据按照基因组位置进行统一表述的步骤是基于分片索引计算的方式进行的,包括:
[0017]在所述现有生物信息数据库中增加获取基因组位置索引值的接口

[0018]在本专利技术一实施例中,所述获取基因组位置索引值接口的执行步骤包括:
[0019]步骤
S31
:将索引值构建为一个树状数据结构的索引树;
[0020]步骤
S32
:设置所述索引树的每一节点存储空间尺寸

索引树深度和索引树叉数,得到每层起点索引值;
[0021]步骤
S33
:对所述第一基因数据进行遍历;
[0022]步骤
S34
:根据所述遍历条目的基因组位置,寻找容纳所述基因组位置的索引树节点位置,得到存储层数和存储偏移;
[0023]步骤
S35
:根据所述存储层数和存储偏移得到所述条目中基因组位置的索引值

[0024]在本专利技术一实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种以基因组位置为索引的生物信息数据库跨库检索方法,其特征在于,包括以下步骤:创建跨库生物信息检索表;对多个现有生物信息数据库的条目进行遍历,获取第一基因数据;对所述第一基因数据按照基因组位置进行统一表述,得到统一表述索引;将所述统一表述索引与所述第一基因数据进行关联,得到第二基因数据;将所述第二基因数据存储到所述跨库生物信息检索表;根据待检索基因组位置在所述跨库生物信息检索表进行关联检索,得到第一检索结果;对所述第一检索结果进行区间运算,得到第二检索结果;根据所述第二检索结果在对应的所述现有生物信息数据库检索,得到待检索基因组位置关联的生物信息数据
。2.
如权利要求1所述的方法,其特征在于,所述对第一基因数据按照基因组位置进行统一表述的步骤是基于分片索引计算的方式进行的,包括:在所述现有生物信息数据库中增加获取基因组位置索引值的接口
。3.
如权利要求2所述的方法,其特征在于,所述获取基因组位置索引值接口的执行步骤包括:步骤
S31
:将索引值构建为一个树状数据结构的索引树;步骤
S32
:设置所述索引树的每一节点存储空间尺寸

索引树深度和索引树叉数,得到每层起点索引值;步骤
S33
:对所述第一基因数据进行遍历;步骤
S34
:根据所述遍历条目的基因组位置,寻找容纳所述基因组位置的索引树节点位置,得到存储层数和存储偏移;步骤
S35
:根据所述存储层数和存储偏移得到所述条目中基因组位置的索引值
。4.
如权利要求2所述的方法,其特征在于,所述第二基因数据包括:基因组位置的索引值;数据库标识;基因组位置;条目序号
。5.
如权利要求3所述的方法,其特征在于,所述索引树为二进制存储
。6.
如权利要求5所述的方法,其特征在于,所述索引值构建为一个树状数据结构是从根节点自顶向下构建的
。7.
如权利要求6所述的方法,其特征在于,所述对索引树的每一个节点的存储空间尺寸进行设置的步骤进一步包括:步骤
S321
:设置索引树叶子节点的存储空间尺寸;步骤
S322
:将叶子节点的存储空间尺寸和所述索引树的叉数相乘得到叶子节点对应的父亲节点的存储空间尺寸;步骤
S323
:对索引树进行遍历得到每个节点的存储空间尺寸
。8.
如权利要求7所述的方法,其特征在于,所述寻找容纳所述基因组位置的索引树节点
位置步骤进一步包括:所述寻找过程的方向是对索引树从下向上和从左到右寻找
。9.
如权利要求8所述的方法,其特征在于,所述寻找容纳所述基因组位置的索引树节点位置步骤还包括:步骤
S341
:对所述基因组位置的起点数值和终点数值与所述叶子节点的存储空间尺寸进行运算,得到起点偏移和终点偏移;步骤
S342
:对起点偏移和终点偏移进行判断;步骤
S343
:如果起点偏移和终点偏移位于同一个节点,返回当前的索引树的层数和起点偏移;步...

【专利技术属性】
技术研发人员:卜德超徐珠峰李晨昊赵屹
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1