【技术实现步骤摘要】
【国外来华专利技术】复杂分子子结构的识别系统、装置和方法
[0001]本专利技术涉及用于识别复杂分子,特别是诸如生物分子的大分子的子结构的系统、装置和方法。
技术介绍
[0002]药物化合物的子结构(例如代谢产物)的识别和表征是药物发现的重要组成部分,影响药物的生物活性,往往导致代谢物的生物利用度降低,毒性增强。了解这些代谢物的结构并定义代谢转化的特定位点是有用的,例如,在指导先导化合物或候选药物的合成优化以克服稳定性和毒性问题方面。
[0003]目前的代谢物鉴定(MetID)方法在没有事先了解其结构的情况下,无法系统地表征大分子的代谢物,如来自生物基质的治疗性蛋白质和肽(TPPs)的代谢物。尽管一些现成的小分子MetID软件,如MASSCAP、SEQUEST和MassMetaSite,可用于表征小分子药物和小线性肽的代谢物,但这种软件还不能与更大的生物分子,如大的非线性肽/蛋白质的MetID,完全兼容。至少存在三个原因:(i)大多数小分子MetID软件不能正确地解卷大分子的单种同位素峰,从而导致不正确的输入质量值;(ii)大多数小分子MetID软件使用的是为小分子药物设计的基于原子的算法,典型的大生物分子(如TPP)的原子数比小分子通常多1
‑
2个数量级,这就给这种基于原子的算法带来了巨大的计算复杂度;和(iii)对于小分子MetID有用的信息,例如细胞色素P450代谢途径或质量缺陷过滤器,不适用于大分子,因为大分子具有不同的代谢过程,而传统的小分子软件通常不考虑这些过程。
[0004]基于原子的分子 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于识别所选分子的子结构的系统,所述系统包括:a)微处理器;b)存储器;c)所述存储器中的包括程序指令的应用程序,当由微处理器执行时所述应用程序将使所述微处理器:(i)接收并在所述存储器中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接,(ii)基于所选分子数据,创建并在所述存储器中存储用于所选分子的最小可裂解单元图形数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键,(iii)基于MCU图数据,生成并在所述存储器中存储线图数据结构,所述线图数据结构由表示MCU图的线图的线图数据填充,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点,(iv)对线图数据结构中的线图数据执行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置,(v)对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和(vi)对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量;d)用于与最终用户通信的用户界面;和e)所述用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:(i)接收来自所述最终用户的查询分子量,(ii)基于所述查询分子量搜索所述数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户操作的显示装置上呈现。2.根据权利要求1所述的系统,所述系统还包括用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:a)使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据生成线图
的诱导连通子图的图形表示;和b)将图形表示传送至最终用户操作的显示装置。3.根据权利要求1所述的系统,所述系统还包括所述应用程序中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器c)接收针对分子量的指定的公差;d)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;e)根据查询分子量和所述范围来搜索数据库,以识别数据库中的每个ICS记录,所述每个ICS记录具有在分子量字段中的、落入定义的分子量的范围内的总分子量;和f)对于所述每个识别出的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以呈现给所述最终用户。4.根据权利要求1所述的系统,其中,通过解析存储在链表、或数组、或邻接矩阵、或图形图像文件、或化学绘图文件、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件或二进制数据文件中的信息来接收所选分子数据。5.根据权利要求1所述的系统,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。6.根据权利要求1所述的系统,其中,MCU图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。7.根据权利要求1所述的系统,其中,线图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。8.根据权利要求1所述的系统,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。9.根据权利要求1所述的系统,其中,所选分子是小分子。10.根据权利要求1所述的系统,其中,所选分子是大分子。11.根据权利要求10所述的系统,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。12.根据权利要求1所述的系统,其中:a)所选分子数据包括元素组成数据,所述元素组成数据表示(A)每个最小可裂解单元中的元素单元的集合,(B)与最小可裂解单元中的元素单元的集合连接的元素键的集合,(C)每个元素单元的元素分子量,和(D)最小可裂解单元的MCU连接性概要,所述MCU连接性概要表示最小可裂解单元中元素单元和键的相对位置以及元素单元和键之间的连接;和b)在数据库中创建的ICS记录还包括填充有一个或多个元素单元标识符的元素单元字段;和c)所述应用程序还包括程序指令,当由微处理器执行时所述程序指令将使所述微处理器:(i)接收来自最终用户的查询元素单元,(ii)基于所述查询元素单元搜索数据库,以识别在元素单元字段中具有与所述查询元素单元匹配的元素单元标识符的ICS记录,和
(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送至用户界面以在最终用户操作的显示装置上呈现。13.一种使用微处理器生成包含所选分子的子结构的数据库的系统,所述系统包括:a)存储器;b)微处理器;c)所述存储器中的输入模块,当由微处理器执行时所述输入模块使所述微处理器接收和存储选定的分子数据,所述选定的分子数据表示(A)所选分子中最小可裂解单元的集合,(B)与所选分子中最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子中最小可裂解单元和键的连接性概要,所述连接性概要表示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接;d)所述存储器中的MCU图模块,当由微处理器执行时所述MCU图模块将使所述微处理器基于所选分子数据在所述存储器中创建所选分子的最小可裂解单元图数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键;e)所述存储器中的线图模块,当由微处理器执行时所述线图模块将使所述微处理器生成并在所述存储器中存储由表示用于MCU图的线图的线图数据填充的线图数据结构,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点;f)所述存储器中的图形遍历模块,当由微处理器执行时所述图形遍历模块将使所述微处理器对线图数据结构中的线图数据运行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包括线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;和g)所述存储器中的子图数据库生成器,当由微处理器执行时所述子图数据库生成器将使所述微处理器:(i)对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和(ii)对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。14.根据权利要求13所述的系统,其中,通过解析存储在链表、或数组、或邻接矩阵、或图形图像文件、或化学绘图文件、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件或二进制数据文件中的信息来接收所选分子数据。15.根据权利要求13所述的系统,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。
16.根据权利要求13所述的系统,其中,MCU图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。17.根据权利要求10所述的系统,其中,线图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。18.根据权利要求13所述的系统,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。19.根据权利要求13所述的系统,所述系统还包括:a)用于与最终用户通信的用户界面;b)所述存储器中的具有程序指令的搜索引擎,当由微处理器执行时所述搜索引擎将使所述微处理器(i)接收来自所述最终用户的查询分子量,(ii)基于所述查询分子量搜索数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户操作的显示装置上呈现。20.根据权利要求1所述的系统,所述系统还包括用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:a)使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据生成线图的诱导连通子图的图形表示;和b)将所述图形表示传送至最终用户操作的显示装置。21.根据权利要求1所述的系统,所述系统还包括应用程序中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器a)接收针对分子量的指定的公差;b)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;c)基于查询分子量和所述范围来搜索数据库,以识别数据库中的每个ICS记录,所述每个ICS记录在分子量字段中具有在定义的分子量的范围内的总分子量;和d)对于所述每个识别出的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传送至用户界面以呈现给所述最终用户。22.根据权利要求13所述的系统,其中,图形遍历算法是深度优先搜索算法、广度优先搜索算法、反向搜索算法、树搜索算法或上述图形遍历算法中两种或更多种的组合。23.根据权利要求13所述的系统,其中,所选分子是小分子。24.根据权利要求13所述的系统,其中,所选分子是大分子。25.根据权利要求13所述的系统,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。26.一种使用微处理器和存储器装置识别所选分子的子结构的方法,所述方法包括:a)使用所述微处理器,接收并在所述存储器装置中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接;
b)使用所述微处理器,基于所选分子数据,创建并在所述存储器装置中存储用于所选分子的最小可裂解单元图形数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键;c)使用所述微处理器,基于MCU图数据,生成并在所述存储器装置中存储线图数据结构,所述线图数据结构由表示MCU图的线图的线图数据填充,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点;d)在所述微处理器上对线图数据结构中的线图数据执行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;e)使用所述微处理器,对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和f)使用所述微处理器,对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。27.根据权利要求26所述的方法,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。28.根据权利要求26所述的方法,所述方法还包括:a)通过所述微处理器接收查询分子量;b)使用所述微处理器,基于所述查询分子量搜索数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和c)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值的表示传送到显示装置。29.根据权利要求28所述的方法,所述方法还包括:a)使用所述微处理器,基于所选分子的连接性概要、顶点数据字段中的顶点值和边缘数据字段中的边缘值,生成线图的诱导连通子图的图形表示;和b)将所述图形表示传送至显示装置。30.根据权利要求26所述的方法,其中,所选分子是小分子。31.根据权利要求26所述的方法,其中,所选分子是大分子。32.根据权利要求26所述的方法,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。33.根据权利要求26所述的方法,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。
34.一种生成数据库以便于识别所选分子的子结构的系统,所述系统包括:a)微处理器;b)存储器装置;和c)所述存储器装置上的程序指令,所述程序指令用于使所述微处理器:(i)接收表示所选分子的化学图形和注释的数据,所述注释用于识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量、和(C)与所选分子的最小可裂解单元连接的键的类型;(ii)生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有字段,为该字段在该对顶点之间存在边缘的情况下赋予第一值或在该对顶点之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中,边缘表示与所选分子的最小可裂解单元连接的键;(iii)由所述最小可裂解单元图形邻接矩阵生成线图邻接矩阵,所述线图邻接矩阵具有多个顶点,每个顶点对应于最小可裂解单元图形邻接矩阵的一对边缘并具有字段,为该字段在该对边缘之间存在端点的情况下赋予第一值或在该对边缘之间不存在端点的情况下赋予第二值,所述线图邻接矩阵具有基于由所述边缘连接的端点的最小可裂解单元图形邻接矩阵的每一条边缘的顶点,其中,顶点表示所选分子的最小可裂解单元之间的键;(iv)由最小可裂解单元邻接矩阵生成边缘到顶点邻接矩阵,所述边缘到顶点邻接矩阵具有多个元素,每个元素对应于最小可裂解单元图形邻接矩阵的边缘和顶点并具有字段,为该字段在所述边缘和顶点相互连接的情况下赋予第一值或在所述边缘和顶点相互不连接的情况下赋予第二值,所述顶点表示所选分子的最小可裂解单元,所述边缘表示与所选分子的最小可裂解单元连接的键;(v)使用图形遍历算法遍历线图邻接矩阵和边缘到顶点图形邻接矩阵,以确定所选分子的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;和(vi)计算并在所述数据库中存储每个诱导连通子图的分子量,其中,每个诱导连通子图的分子量通过检索诱导连通子图的每个顶点的分子量并求和来计算。35.一种使用微处理器和存储器装置生成数据库以便于识别所选分子的子结构的系统,所述系统包括:a)图形输入模块,用于接收所选分子的化学图和注释,所述注释识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量和(C)与所选分子的最小可裂解单元连接的键的类型;b)位于存储器装置上的矩阵生成器模块,能够由微处理器执行以使微处理器生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有字段,为该字段在该对顶点之间存在边缘的情况下赋予第一值或在该对顶点之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中,边缘表示与所选分子的最小可裂解单元连接的键;c)位于存储器装...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。