【技术实现步骤摘要】
用于序列和图数据结构的大规模并行处理数据库
[0001]本公开总体涉及用于药物再利用的系统和方法,更具体地,一些实施例涉及大规模并行图数据库,其处理以知识图形式表示的多模态数据并且加速领域特定函数以进行蛋白质相似性分析,以生成药物假设。
附图说明
[0002]根据一个或多个各个实施例,参考以下附图对本公开进行详细描述。提供这些附图仅用于说明目的并且仅描绘典型实施例或示例实施例。
[0003]图1图示了根据各个实施例的示例图引擎。
[0004]图2图示了根据各个实施例的图引擎查询执行的示例。
[0005]图3图示了根据各个实施例的用于执行蛋白质序列分析的图引擎(诸如CGE)的示例实施方式。
[0006]图4图示了可以用于执行蛋白质序列分析的样本查询的示例。
[0007]图5图示了根据各个实施例的可以用于实现蛋白质序列分析的示例计算部件500。
[0008]图6是可以用于实现本公开中所描述的实施例的各个特征的示例计算部件。
[0009]附图并非详尽的,并且不将本公开限制为所公开的精确形式。
具体实施方式
[0010]在新型冠状病毒所引起的流行中,药物再利用(调查用于新治疗目的的现有药物)成为发现医疗护理的第一缕希望。然而,药物再利用不仅限于冠状病毒,而且还可以用于标识针对多种不同病症中的任一病症的治疗剂/药物。药物再利用管道牵涉到了解致病生物的蛋白质结构,解释生物的蛋白质结构与人体的相互作用,挖掘潜在药物分子的特性,连接精选文献中的点以解释动作机制, ...
【技术保护点】
【技术特征摘要】
1.一种并行处理图数据库解决方案,用于蛋白质序列分析以确定给定病症的可行治疗剂,所述并行处理图数据库解决方案包括:确定所述给定病症的蛋白质序列;使用序列数据库将所述给定病症的所述序列的查询序列与所述序列数据库中其他已知蛋白质的序列进行比较;基于所述比较,使用所述序列数据库来确定所述查询序列与所述序列数据库中所述其他已知蛋白质的序列的相似性;以及基于序列的所述相似性,查询所述并行处理图数据库,以标识能够对所述给定病症具有抑制效果的潜在治疗剂。2.根据权利要求1所述的方法,其中确定所述查询序列与所述序列数据库中所述其他已知蛋白质的相似性还包括:确定所述其他已知蛋白质的所述序列与所述查询序列的相似性得分。3.根据权利要求2所述的方法,其中确定所述查询序列与所述序列数据库中的所述其他已知蛋白质的相似性还包括:标识所述其他已知蛋白质中相似性得分高于确定阈值的蛋白质。4.根据权利要求3所述的方法,其中标识能够对所述给定病症具有抑制效果的药物包括:标识所述图数据库中已知对所述其他已知蛋白质中相似性得分高于确定阈值的所标识的蛋白质具有抑制效果的药物。5.根据权利要求1所述的方法,其中确定所述查询序列与所述序列数据库中所述其他已知蛋白质的相似性包括:执行领域特定函数以进行蛋白质相似性分析。6.根据权利要求1所述的方法,其中跨多个数据集的查询工作流程以秒为量级来生成药物假设,其中确定所述给定病症的可行治疗剂包括:执行跨多个数据集的查询工作流程,以在100秒内跨至少400万个蛋白质来生成对所标识的药物的药物假设。7.根据权利要求1所述的方法,其中查询所述图数据库包括:搜索所述图数据库以标识对其他已知蛋白质具有期望效果的治疗剂,所述其他已知蛋白质的序列与所述查询序列相同或相似。8.一种计算系统,用于蛋白质序列分析以确定给定病症的可行治疗剂,所述计算系统包括:硬件处理器;以及机器可读存储介质,被耦合到所述处理器并且存储指令集合,所述指令集合当被所述处理器执行时,使所述处理器执行操作,所述操作包括:确定所述给定病症的蛋白质序列;使用序列数据库将所述给定病症的所述序列的查询序列与所述序列数据库中其他已知蛋白质的序列进行比较;基于所述比较,使用所述序列数据库来确定所述查询序列与所述序列数据库中所述其他已知蛋白质的序列的相似性;以及基于序列的所述相似性,查询图数据库,以标识能够对所述给定病症具有抑制效果的潜在治疗剂。9.根据权利要求8所述的计算系统,其中确定所述查询序列与所述序列数据库中所述
其他已知蛋白质的相似性的所述操作还包括:确定所述其他已知蛋白质的所述序列与所述查询序列的相似性得分。10.根据权利要求9所述的计算系统,其中确定所述查询序列与所述序列数据库中的所述其他已知蛋白质的相似性的所述操作还包括:标识所述其他已知蛋白质中相似性得分高于确定阈值的蛋白质。11....
【专利技术属性】
技术研发人员:C,
申请(专利权)人:慧与发展有限责任合伙企业,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。