用于序列和图数据结构的大规模并行处理数据库制造技术

技术编号:33802391 阅读:25 留言:0更新日期:2022-06-16 10:07
本公开的实施例涉及用于序列和图数据结构的大规模并行处理数据库。本文中所公开的系统和方法可以包括一种并行处理图数据库解决方案,以用于蛋白质序列分析,以确定给定病症的可行治疗剂,并且可以包括:确定给定病症的蛋白质序列;使用序列数据库以将给定病症的序列的查询序列与序列数据库中其他已知蛋白质的序列进行比较;基于比较,使用序列数据库来确定查询序列与序列数据库中其他已知蛋白质的序列的相似性;以及基于序列的相似性,查询图数据库,以标识能够对给定病症具有抑制效果的潜在治疗剂。的潜在治疗剂。的潜在治疗剂。

【技术实现步骤摘要】
用于序列和图数据结构的大规模并行处理数据库


[0001]本公开总体涉及用于药物再利用的系统和方法,更具体地,一些实施例涉及大规模并行图数据库,其处理以知识图形式表示的多模态数据并且加速领域特定函数以进行蛋白质相似性分析,以生成药物假设。
附图说明
[0002]根据一个或多个各个实施例,参考以下附图对本公开进行详细描述。提供这些附图仅用于说明目的并且仅描绘典型实施例或示例实施例。
[0003]图1图示了根据各个实施例的示例图引擎。
[0004]图2图示了根据各个实施例的图引擎查询执行的示例。
[0005]图3图示了根据各个实施例的用于执行蛋白质序列分析的图引擎(诸如CGE)的示例实施方式。
[0006]图4图示了可以用于执行蛋白质序列分析的样本查询的示例。
[0007]图5图示了根据各个实施例的可以用于实现蛋白质序列分析的示例计算部件500。
[0008]图6是可以用于实现本公开中所描述的实施例的各个特征的示例计算部件。
[0009]附图并非详尽的,并且不将本公开限制为所公开的精确形式。
具体实施方式
[0010]在新型冠状病毒所引起的流行中,药物再利用(调查用于新治疗目的的现有药物)成为发现医疗护理的第一缕希望。然而,药物再利用不仅限于冠状病毒,而且还可以用于标识针对多种不同病症中的任一病症的治疗剂/药物。药物再利用管道牵涉到了解致病生物的蛋白质结构,解释生物的蛋白质结构与人体的相互作用,挖掘潜在药物分子的特性,连接精选文献中的点以解释动作机制,在测定数据中寻找证据,并且使用先前试验的数据分析潜在安全性和有效性等。传统上讲,这个过程手动完成,并且花费几个月。
[0011]该问题的繁琐性质归因于生命科学研究人员进行以下各项所需的时间:(a)通过将蛋白质序列与先前已知或研究的致病生物(超过4百万个序列)匹配和比较来理解致病生物;(b)处置并处理多模态大数据(蛋白质序列、蛋白质组学相互作用、生化途径、过去临床试验的结构化数据等);(c)整合并搜索跨多个多模态多太字节数据集连接的模式;(d)安装、配置并运行大量工具(遗传学、蛋白质组学、分子动力学、数据科学等)以生成见解;以及最后(e)验证并证实药理学解释的科学严谨性。本文中所公开的系统和方法的实施例超越了仅仅使传统过程自动化并且提供用于实现再利用管道的新技术和技巧。实施例可以使用大规模并行处理图数据库技术来提供更快速的响应以在流行中加速药物再利用管道。这表示当前技术的巨大改进,该当前技术用于通过蛋白质序列分析来标识用于重新购买/重新定位已知和新型疾病的药物的候选药物,这些疾病包括例如新型流感毒株、冠状病毒、遗传性罕见病等。
[0012]实施例涉及大规模并行处理图数据库用于快速响应药物再利用的应用。各实现方
式可以使用可扩展图数据库,该可扩展图数据库被配置为托管从多个知识源集成的医学相关事实的知识图,并且还充当能够进行数据库内蛋白质序列分析的计算引擎。实施例可以被配置为基于受试者病毒或其他病症的处理序列来使用图数据库进行多模态药物再利用,标识具有相似或匹配序列的其他已知病毒/病症,并且查询与那些已知病毒/病症相互作用的化合物和治疗剂的特性。
[0013]实施例可以提供大规模并行图数据库,该大规模并行图数据库(a)存储、处置、托管和处理以知识图形式表示的多模态数据;(b)为数据驱动发现提供交互式查询和语义遍历能力;(c)加速领域特定函数,诸如进行蛋白质相似性分析的史密斯

沃特曼(Smith

Waterman)算法、用于图论连通性和相关性分析的以顶点为中心的全图算法,诸如页面等级(PageRank);以及(d)运行/执行跨多个数据集来以秒为量级而非几个月为量级来生成药物假设的查询工作流程。实施例实现了多个多模态生命科学数据库的综合知识图,并行进行蛋白质序列匹配,并且提供了一种新型快速药物再利用方法,该新型快速药物再利用方法能够跨4百万多个蛋白质、155十多亿个事实查询,同时处置大约30TB的数据。
[0014]一些应用对COVID

19大流行病之外的其他生物医学发现问题实现可推广大数据平台,该可推广大数据平台允许:(a)可扩展图数据库,该可扩展图数据库提供知识遍历和发现所需的数量级计算加速和交互性;(b)集成生命科学知识图,该综合生命科学知识图捕获了可用生物医学事实的开放科学领域;(c)对正在进行的大流行病的潜在候选药物的假设;(d)可复制代码和结果,用于对生物医学事实领域(对病毒、蛋白质、药物、生化途径)的未来研究,而非局限于疾病特定知识图的实践状态。
[0015]实施例可以使用Cray图引擎或其他类似引擎来实现。Cray图引擎(CGE)为存储器中语义图数据库,该存储器中语义图数据库被设计为扩展到Cray XC超级计算机上的数百个节点和数万个进程,以支持对大型数据集(约100TB)的交互式查询。CGE基于标准化资源描述框架(RDF)格式,以摄取N

三元组/N

四元组的数据集,并且使用SPARQL查询语言实现查询。RDF数据被表达为带有“四元组”标签的有向图,其中“四元组”由四个字段组成:主语、谓语、宾语和图。三元组只是被存储在“默认图”中的四元组。例如,以下是来自可以被加载到CGE中的Uniprot COVID

19数据的示例RDF三元组的简化版本:
[0016][0017]作为数据结构的图可以包括可能连接的网络。顶点或节点通常是指实体(数据、人员、企业等),并且实体之间的连接为边缘。图数据库可以被用于标识被连接到其他实体的实体。通常,本地处理可以被用于处理节点周围的少量数据。然而,其他任务可能涉及在更全面的基础上(例如,在全图分析中)评估边缘/连接。语义图可以包括这样的三元组的集合,其中主语和宾语表示顶点,而谓语表示顶点之间的边缘。语义图数据库与关系数据库的不同之处在于底层数据结构是图,而非表的结构化集合。图结构使语义数据库成为分析松散连接或无架构式的多模态非结构化数据和结构化数据的理想选择,如同社交网络相互作用或活体生物中蛋白质和基因之间的相互作用一样。
[0018]在各个实施例中,CGE可以包括两个主要部件:字典和查询引擎。字典负责构建数据库,这是从高性能Lustre文件系统中提取原始N

三元组/N

四元组文件并且将它们转换为CGE所使用的内部表示的过程。字典存储来自N

三元组/N

四元组的唯一RDF串,并且提供
唯一串与查询引擎内部用于四元组的整数标识符之间的映射。大部分字典构建时间可能由Lustre I/O时间主导。
[0019]CGE查询引擎处理SPARQL查询和SPARUL更新请求,提供可以应用于查询数据的若干个内置图算法(诸如例如,中心性测量、页面等级、连通性分析)以及向用户返回结果。查询引擎所执行的核心工作可以包括:匹配SPARQL查询中的基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种并行处理图数据库解决方案,用于蛋白质序列分析以确定给定病症的可行治疗剂,所述并行处理图数据库解决方案包括:确定所述给定病症的蛋白质序列;使用序列数据库将所述给定病症的所述序列的查询序列与所述序列数据库中其他已知蛋白质的序列进行比较;基于所述比较,使用所述序列数据库来确定所述查询序列与所述序列数据库中所述其他已知蛋白质的序列的相似性;以及基于序列的所述相似性,查询所述并行处理图数据库,以标识能够对所述给定病症具有抑制效果的潜在治疗剂。2.根据权利要求1所述的方法,其中确定所述查询序列与所述序列数据库中所述其他已知蛋白质的相似性还包括:确定所述其他已知蛋白质的所述序列与所述查询序列的相似性得分。3.根据权利要求2所述的方法,其中确定所述查询序列与所述序列数据库中的所述其他已知蛋白质的相似性还包括:标识所述其他已知蛋白质中相似性得分高于确定阈值的蛋白质。4.根据权利要求3所述的方法,其中标识能够对所述给定病症具有抑制效果的药物包括:标识所述图数据库中已知对所述其他已知蛋白质中相似性得分高于确定阈值的所标识的蛋白质具有抑制效果的药物。5.根据权利要求1所述的方法,其中确定所述查询序列与所述序列数据库中所述其他已知蛋白质的相似性包括:执行领域特定函数以进行蛋白质相似性分析。6.根据权利要求1所述的方法,其中跨多个数据集的查询工作流程以秒为量级来生成药物假设,其中确定所述给定病症的可行治疗剂包括:执行跨多个数据集的查询工作流程,以在100秒内跨至少400万个蛋白质来生成对所标识的药物的药物假设。7.根据权利要求1所述的方法,其中查询所述图数据库包括:搜索所述图数据库以标识对其他已知蛋白质具有期望效果的治疗剂,所述其他已知蛋白质的序列与所述查询序列相同或相似。8.一种计算系统,用于蛋白质序列分析以确定给定病症的可行治疗剂,所述计算系统包括:硬件处理器;以及机器可读存储介质,被耦合到所述处理器并且存储指令集合,所述指令集合当被所述处理器执行时,使所述处理器执行操作,所述操作包括:确定所述给定病症的蛋白质序列;使用序列数据库将所述给定病症的所述序列的查询序列与所述序列数据库中其他已知蛋白质的序列进行比较;基于所述比较,使用所述序列数据库来确定所述查询序列与所述序列数据库中所述其他已知蛋白质的序列的相似性;以及基于序列的所述相似性,查询图数据库,以标识能够对所述给定病症具有抑制效果的潜在治疗剂。9.根据权利要求8所述的计算系统,其中确定所述查询序列与所述序列数据库中所述
其他已知蛋白质的相似性的所述操作还包括:确定所述其他已知蛋白质的所述序列与所述查询序列的相似性得分。10.根据权利要求9所述的计算系统,其中确定所述查询序列与所述序列数据库中的所述其他已知蛋白质的相似性的所述操作还包括:标识所述其他已知蛋白质中相似性得分高于确定阈值的蛋白质。11....

【专利技术属性】
技术研发人员:C
申请(专利权)人:慧与发展有限责任合伙企业
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1