【技术实现步骤摘要】
一种基于图数据库的蛋白质组数据管理方法、介质和设备
本专利技术涉及数据库领域,具体来说涉及图数据库索引
,更具体地说,涉及一种基于图数据库的蛋白质组数据管理方法、介质和设备。
技术介绍
随蛋白质测定技术(如质谱分析技术)的发展,研究方向逐渐集中于蛋白质分子间复杂相互作用及衍生的网络。由此产生诸多热门方向,如蛋白质相互作用的预测、蛋白质功能预测等,蛋白质组实验数据的数据量亦随之呈指数级上升。为高效存储、管理分析和利用这些海量蛋白质组数据,通常采用数据库来管理蛋白质组数据。目前常用的关系型数据库由于频繁的连接操作,不适宜于海量半结构化数据的存储、统计和更新。以Neo4j、Tigergraph为代表的图数据库在处理蛋白质组这类非结构化数据,尤其是复杂连接的情况下,具有响应速度快、扩展性好、可靠性高等优势。基于图数据库数据结构抽象出的生物网络采用节点(Node)记录蛋白质,关系(Relationship)记录蛋白质组间相互作用,顶点有标签属性,在关系上添加边的属性(Properties)代表关系的权重。系统分析大量蛋白在生物系 ...
【技术保护点】
1.一种基于图数据库的蛋白质组数据管理方法,其特征在于,包括:/n获取蛋白质组对应的图数据,图数据包括多个节点和边,其中,节点记录其所代表的蛋白质,边记录其连接的两个节点间的关系;/n根据该蛋白质组对应的图数据建立底层的双向链表,该双向链表中的节点按照其所代表蛋白质的名称的字典序依次排列;/n从底层的双向链表开始,每两个节点提取一个节点到上一层索引以在各索引层建立单向的索引链表,直至顶部的索引链表仅有两个节点,以建立包括多层索引的快速索引。/n
【技术特征摘要】
1.一种基于图数据库的蛋白质组数据管理方法,其特征在于,包括:
获取蛋白质组对应的图数据,图数据包括多个节点和边,其中,节点记录其所代表的蛋白质,边记录其连接的两个节点间的关系;
根据该蛋白质组对应的图数据建立底层的双向链表,该双向链表中的节点按照其所代表蛋白质的名称的字典序依次排列;
从底层的双向链表开始,每两个节点提取一个节点到上一层索引以在各索引层建立单向的索引链表,直至顶部的索引链表仅有两个节点,以建立包括多层索引的快速索引。
2.根据权利要求1所述的基于图数据库的蛋白质组数据管理方法,其特征在于,所述方法包括:响应于图数据库中任意蛋白质组对应的图数据达到预设规模的信号,按照前述方式为达到预设规模的蛋白质组在原始的倒排索引之外建立快速索引。
3.根据权利要求2所述的基于图数据库的蛋白质组数据管理方法,其特征在于,所述方法还包括:
在向建立有快速索引的蛋白质组对应的图数据中插入新的蛋白质对应的节点时,生成一个用于决定该蛋白质组对应的图数据的快速索引的更新方式的随机变量,根据随机变量所属的不同数值范围设置用于更新快速索引的不同更新方式。
4.根据权利要求3所述的基于图数据库的蛋白质组数据管理方法,所述随机变量服从参数为p的几何分布,其中,所述p=0.5。
5.根据权利要求4所述的基于图数据库的蛋白质组数据管理方法,其特征在于,所述数值范围包括:
第一数值范围,其仅为数值1;
第二数值范围(1,k+1];
第三数值范围(k+1,+∞),k表示当前快速索引中索引层的总层数;
其中,所述根据随机变量所属的不同数值范围设置用于更新快速索引的不同更新方式包括:
在当前生成的随机变量属于第一数值范围时,在底层的双向链表中插入该新的蛋白质对应的节点,不更新快速索引;
在当前生成的随机变量属于第二数值范围时,在底层的双向链表中插入该新的蛋白质对应的节点,并在当前生成的随机变量的数值以下层数的索引层中加入该插入的新...
【专利技术属性】
技术研发人员:范晓宣,曹华伟,叶笑春,范东睿,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。