复杂分子子结构的识别系统、装置和方法制造方法及图纸

技术编号:27822530 阅读:32 留言:0更新日期:2021-03-30 10:48
本发明专利技术的实施方式提供一种计算机实现的系统和方法,所述系统和方法用于基于所选复杂分子的最小可裂解单元(MCU)生成和搜索包含所选复杂分子的所有潜在子结构(例如代谢物)的数据库,其中生成的数据库中的每个记录都适当地定义了每个子结构的分子量和物理排列。本发明专利技术的实施方式也提供用户界面和搜索引擎,所述用户界面和搜索引擎用于基于查询分子量(或查询分子量的范围)搜索数据库,以识别具有与查询分子量或范围匹配的总分子量的所有子结构。本发明专利技术的实施方式也能够向最终用户操作的显示装置发送所选复杂分子的每个已识别子结构的描述和/或图形表示。的描述和/或图形表示。的描述和/或图形表示。

【技术实现步骤摘要】
【国外来华专利技术】复杂分子子结构的识别系统、装置和方法


[0001]本专利技术涉及用于识别复杂分子,特别是诸如生物分子的大分子的子结构的系统、装置和方法。

技术介绍

[0002]药物化合物的子结构(例如代谢产物)的识别和表征是药物发现的重要组成部分,影响药物的生物活性,往往导致代谢物的生物利用度降低,毒性增强。了解这些代谢物的结构并定义代谢转化的特定位点是有用的,例如,在指导先导化合物或候选药物的合成优化以克服稳定性和毒性问题方面。
[0003]目前的代谢物鉴定(MetID)方法在没有事先了解其结构的情况下,无法系统地表征大分子的代谢物,如来自生物基质的治疗性蛋白质和肽(TPPs)的代谢物。尽管一些现成的小分子MetID软件,如MASSCAP、SEQUEST和MassMetaSite,可用于表征小分子药物和小线性肽的代谢物,但这种软件还不能与更大的生物分子,如大的非线性肽/蛋白质的MetID,完全兼容。至少存在三个原因:(i)大多数小分子MetID软件不能正确地解卷大分子的单种同位素峰,从而导致不正确的输入质量值;(ii)大多数小分子MetID软件使用的是为小分子药物设计的基于原子的算法,典型的大生物分子(如TPP)的原子数比小分子通常多1

2个数量级,这就给这种基于原子的算法带来了巨大的计算复杂度;和(iii)对于小分子MetID有用的信息,例如细胞色素P450代谢途径或质量缺陷过滤器,不适用于大分子,因为大分子具有不同的代谢过程,而传统的小分子软件通常不考虑这些过程。
[0004]基于原子的分子表示的计算复杂性会阻碍计算机分析。根据给定计算机中RAM的容量,识别具有超过1000万代谢物的分子的所有代谢物所需的处理可能会使计算机陷入困境。根据专利技术人的经验,1GB的RAM可以处理大约一百万个子结构。给定的复杂大分子的理论代谢物的个数常常超过1000万。
[0005]另外,用于分析蛋白质结构的传统软件,例如,基于蛋白质组学的软件,通常计算酰胺和二硫键的裂解,不能处理大分子(如TPP)的完全不可预测的代谢概况,其包括不可预测的修饰(+Oxy、+P、+Met等)、非天然氨基酸、体内二硫键干扰、非天然连接体和非特异性蛋白水解裂解。
[0006]因此,需要能够解码非线性肽和大分子的系统和方法,并且需要不仅便于从生物基质中的蛋白质背景区分大分子(例如治疗性肽或蛋白质)的代谢物,而且便于阐明感兴趣的代谢物的结构的系统和方法。对生成和显示大分子代谢物结构的系统和方法也有相当大的需求。

技术实现思路

[0007]本专利技术的实施方式通过提供用于识别分子的子结构(例如代谢物),特别是迄今为止难以识别和表征的大分子(例如生物分子)的子结构的系统、设备和方法,解决了上述需要。事实上,数据解释一直是并将继续是目前肽/蛋白质代谢物识别的瓶颈。
[0008]本专利技术适用于且可用于识别所有类型分子的子结构。所选分子可以是大分子、巨大分子或小分子。巨大分子包括但不限于基于氨基酸的分子,例如肽、多肽、抗体、蛋白质、酶、免疫球蛋白、脂质、核酸、碳水化合物、寡核苷酸、多核苷酸、多糖和聚合物。所选分子也可以是共轭分子和交联分子。
[0009]小分子包括分子量相对较低的有机分子,无论是自然产生的还是人工产生的(例如通过化学合成)。本专利技术的实施方式可用于分析具有生物活性的小分子,因为它们在动物、优选哺乳动物、更优选人类中产生局部或全身效应。在某些实施方式中,小分子的分子量小于或等于900道尔顿。
[0010]一般来说,本专利技术的实施方式可由科学家(例如化学家和生物化学家)用于识别复杂分子的代谢物和其他子结构,并确定此类代谢物和其他子结构的相关化学结构。因此,本专利技术的实施方式可被认为在药物开发和设计中极其有用。
[0011]如本文所使用的,所有的氨基酸三字母和单字母名称符合本领域标准的那些名称,并列举如下:
[0012]丙氨酸Ala A精氨酸Arg R天冬酰胺Asn N天冬氨酸Asp D半胱氨酸Cys C谷氨酸Glu E谷氨酰胺Gln Q甘氨酸Gly G组氨酸His H异亮氨酸Ile I亮氨酸Leu L赖氨酸Lys K甲硫氨酸Met M苯丙氨酸Phe F脯氨酸Pro P丝氨酸Ser S苏氨酸Thr T色氨酸Trp W酪氨酸Tyr Y缬氨酸Val V
[0013]本专利技术的示例性系统、设备和方法结合了小分子MetID和Top Down蛋白质组学方法,并且提供了一种快速有效的方法,不仅用于识别和存储给定分子的子结构(例如代谢物)的穷举池,而且也提供已识别的代谢物的结构特征和代谢物的化学结构或组成的可视化。本专利技术的示例性系统、设备和方法通过显著改进计算机系统识别和表征复杂分子的子结构和代谢物所需的搜索时间而改进了常规计算机系统的操作。与需要耗费数周或数月的常规计算机化方法相比,配置为根据本专利技术实施方式操作的计算机系统可以在数小时内识别和表征数以亿计的子结构。子结构可以存储在诸如计算机存储器之类的电子介质中、在计算机监视器上显示、打印或传送至另一计算机系统以供进一步分析。本专利技术所实现的显著减少的处理时间将在推进药物设计和开发的领域中起到有价值和实际的作用。
[0014]子结构所属的分子称为“所选分子”。本专利技术采用独特的系统来表示所选分子。具体而言,所选分子以定义的最小可裂解单元(本文中称为MCU)来描述,其由称为最小可裂解单元图(MCU图)的图来表示。MCU图又由存储在计算机系统的存储器中的数据结构中的数据表示。如本文所述,最小可裂解单元是不允许发生切割/裂解(无代谢过程)的分子的一部分。最小可裂解单元可包括所选分子的相邻代谢裂解位点之间的一组原子。举例来说,蛋白质或肽分子的最小可裂解单元可包含例如单个氨基酸或一段氨基酸。例如,环肽的最小可裂解单元可包含环肽的核心区域。最小可裂解单元方法便于以更简单的方式定义感兴趣的分子,例如,通过尝试将复杂蛋白质结构简化为线性肽域来降低其复杂性。最小可裂解单元方法允许用户定义一个模块,该模块消除了对MCU内有裂解,因此不起作用的代谢物的追踪。
[0015]所选分子可能有许多不同的MCU图,这取决于给定研究的目标和MCU的定义。例如,如果研究的目标是识别酰胺键断裂产生的所有代谢物,那么MCU被定义为每个单独的氨基酸残基,这是因为用户将不会考虑超出单个氨基酸的进一步代谢。作为另一个实例,如果研
究的目标是识别环肽的活性代谢物,则肽的环区域也将被包括为MCU,因为活性代谢物必须具有完整的环区域,并且在环区域内不需要考虑进一步的代谢。
[0016]迄今为止,研究人员和科学家们还没有认识到从MCU图中提取的线图是识别分子的子结构(如代谢物)的有效方法。本专利技术人已经发现线图作为子结构识别系统、设备和方法特别有用。重要的是,本专利技术者认识到MCU图的线图的诱导连通子图的全域完全且唯一地表示由相应MCU图表示的分子的子结构和代谢物的整个全域。换言之,MCU图的线图的诱导连通子图集合与相应MCU图所表示的分子的代谢物集合之间存在一对一的关系。这种关系是可行的,因为它允许使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于识别所选分子的子结构的系统,所述系统包括:a)微处理器;b)存储器;c)所述存储器中的包括程序指令的应用程序,当由微处理器执行时所述应用程序将使所述微处理器:(i)接收并在所述存储器中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接,(ii)基于所选分子数据,创建并在所述存储器中存储用于所选分子的最小可裂解单元图形数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键,(iii)基于MCU图数据,生成并在所述存储器中存储线图数据结构,所述线图数据结构由表示MCU图的线图的线图数据填充,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点,(iv)对线图数据结构中的线图数据执行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置,(v)对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和(vi)对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量;d)用于与最终用户通信的用户界面;和e)所述用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:(i)接收来自所述最终用户的查询分子量,(ii)基于所述查询分子量搜索所述数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户操作的显示装置上呈现。2.根据权利要求1所述的系统,所述系统还包括用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:a)使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据生成线图
的诱导连通子图的图形表示;和b)将图形表示传送至最终用户操作的显示装置。3.根据权利要求1所述的系统,所述系统还包括所述应用程序中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器c)接收针对分子量的指定的公差;d)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;e)根据查询分子量和所述范围来搜索数据库,以识别数据库中的每个ICS记录,所述每个ICS记录具有在分子量字段中的、落入定义的分子量的范围内的总分子量;和f)对于所述每个识别出的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以呈现给所述最终用户。4.根据权利要求1所述的系统,其中,通过解析存储在链表、或数组、或邻接矩阵、或图形图像文件、或化学绘图文件、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件或二进制数据文件中的信息来接收所选分子数据。5.根据权利要求1所述的系统,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。6.根据权利要求1所述的系统,其中,MCU图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。7.根据权利要求1所述的系统,其中,线图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。8.根据权利要求1所述的系统,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。9.根据权利要求1所述的系统,其中,所选分子是小分子。10.根据权利要求1所述的系统,其中,所选分子是大分子。11.根据权利要求10所述的系统,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。12.根据权利要求1所述的系统,其中:a)所选分子数据包括元素组成数据,所述元素组成数据表示(A)每个最小可裂解单元中的元素单元的集合,(B)与最小可裂解单元中的元素单元的集合连接的元素键的集合,(C)每个元素单元的元素分子量,和(D)最小可裂解单元的MCU连接性概要,所述MCU连接性概要表示最小可裂解单元中元素单元和键的相对位置以及元素单元和键之间的连接;和b)在数据库中创建的ICS记录还包括填充有一个或多个元素单元标识符的元素单元字段;和c)所述应用程序还包括程序指令,当由微处理器执行时所述程序指令将使所述微处理器:(i)接收来自最终用户的查询元素单元,(ii)基于所述查询元素单元搜索数据库,以识别在元素单元字段中具有与所述查询元素单元匹配的元素单元标识符的ICS记录,和
(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送至用户界面以在最终用户操作的显示装置上呈现。13.一种使用微处理器生成包含所选分子的子结构的数据库的系统,所述系统包括:a)存储器;b)微处理器;c)所述存储器中的输入模块,当由微处理器执行时所述输入模块使所述微处理器接收和存储选定的分子数据,所述选定的分子数据表示(A)所选分子中最小可裂解单元的集合,(B)与所选分子中最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子中最小可裂解单元和键的连接性概要,所述连接性概要表示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接;d)所述存储器中的MCU图模块,当由微处理器执行时所述MCU图模块将使所述微处理器基于所选分子数据在所述存储器中创建所选分子的最小可裂解单元图数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键;e)所述存储器中的线图模块,当由微处理器执行时所述线图模块将使所述微处理器生成并在所述存储器中存储由表示用于MCU图的线图的线图数据填充的线图数据结构,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点;f)所述存储器中的图形遍历模块,当由微处理器执行时所述图形遍历模块将使所述微处理器对线图数据结构中的线图数据运行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包括线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;和g)所述存储器中的子图数据库生成器,当由微处理器执行时所述子图数据库生成器将使所述微处理器:(i)对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和(ii)对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。14.根据权利要求13所述的系统,其中,通过解析存储在链表、或数组、或邻接矩阵、或图形图像文件、或化学绘图文件、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件或二进制数据文件中的信息来接收所选分子数据。15.根据权利要求13所述的系统,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。
16.根据权利要求13所述的系统,其中,MCU图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。17.根据权利要求10所述的系统,其中,线图数据结构是数组、邻接矩阵、邻接列表、关联矩阵或关联列表。18.根据权利要求13所述的系统,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。19.根据权利要求13所述的系统,所述系统还包括:a)用于与最终用户通信的用户界面;b)所述存储器中的具有程序指令的搜索引擎,当由微处理器执行时所述搜索引擎将使所述微处理器(i)接收来自所述最终用户的查询分子量,(ii)基于所述查询分子量搜索数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和(iii)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传送到用户界面以在最终用户操作的显示装置上呈现。20.根据权利要求1所述的系统,所述系统还包括用户界面中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器:a)使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据生成线图的诱导连通子图的图形表示;和b)将所述图形表示传送至最终用户操作的显示装置。21.根据权利要求1所述的系统,所述系统还包括应用程序中的程序指令,当由微处理器执行时所述程序指令将使所述微处理器a)接收针对分子量的指定的公差;b)使用所述指定的公差来计算和定义用于搜索数据库的分子量的范围;c)基于查询分子量和所述范围来搜索数据库,以识别数据库中的每个ICS记录,所述每个ICS记录在分子量字段中具有在定义的分子量的范围内的总分子量;和d)对于所述每个识别出的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传送至用户界面以呈现给所述最终用户。22.根据权利要求13所述的系统,其中,图形遍历算法是深度优先搜索算法、广度优先搜索算法、反向搜索算法、树搜索算法或上述图形遍历算法中两种或更多种的组合。23.根据权利要求13所述的系统,其中,所选分子是小分子。24.根据权利要求13所述的系统,其中,所选分子是大分子。25.根据权利要求13所述的系统,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。26.一种使用微处理器和存储器装置识别所选分子的子结构的方法,所述方法包括:a)使用所述微处理器,接收并在所述存储器装置中存储所选分子数据,所选分子数据表示(A)所选分子中的最小可裂解单元的集合,(B)与所选分子中的最小可裂解单元的集合连接的键的集合,(C)每个最小可裂解单元的分子量,和(D)所选分子的连接性概要,所述连接性概要指示最小可裂解单元和键的相对位置以及最小可裂解单元和键之间的连接;
b)使用所述微处理器,基于所选分子数据,创建并在所述存储器装置中存储用于所选分子的最小可裂解单元图形数据结构,最小可裂解单元图形数据结构由表示所选分子的MCU图的MCU图数据填充,所述MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可裂解单元,每个MCU图边缘对应于与所选分子中最小可裂解单元连接的键;c)使用所述微处理器,基于MCU图数据,生成并在所述存储器装置中存储线图数据结构,所述线图数据结构由表示MCU图的线图的线图数据填充,所述线图具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘,每个LG边缘对应于MCU图中的通过所述MCU图边缘连接在一起的一对MCU图顶点;d)在所述微处理器上对线图数据结构中的线图数据执行图形遍历算法,以确定线图的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;e)使用所述微处理器,对于线图数据结构中表示的每个诱导连通子图,在数据库中创建包含分子量字段、顶点数据字段和边缘数据字段的ICS记录,其中所述顶点数据字段由配置为指示诱导连通子图中每个LG顶点的顶点位置的顶点值填充,所述边缘数据字段由配置为指示诱导连通子图中每个LG边缘相对于LG顶点的边缘位置的边缘值填充,和f)使用所述微处理器,对于线图数据结构中的每个ICS记录,基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算并在分子量字段中存储该ICS记录的诱导连通子图的总分子量。27.根据权利要求26所述的方法,其中,图形遍历算法是深度优先搜索算法、或广度优先搜索算法、或反向搜索算法、或树搜索算法或上述图形遍历算法中两种或更多种的组合。28.根据权利要求26所述的方法,所述方法还包括:a)通过所述微处理器接收查询分子量;b)使用所述微处理器,基于所述查询分子量搜索数据库,以识别在分子量字段中具有与所述查询分子量匹配的总分子量的ICS记录,和c)将所识别的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值的表示传送到显示装置。29.根据权利要求28所述的方法,所述方法还包括:a)使用所述微处理器,基于所选分子的连接性概要、顶点数据字段中的顶点值和边缘数据字段中的边缘值,生成线图的诱导连通子图的图形表示;和b)将所述图形表示传送至显示装置。30.根据权利要求26所述的方法,其中,所选分子是小分子。31.根据权利要求26所述的方法,其中,所选分子是大分子。32.根据权利要求26所述的方法,其中,所述大分子是蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成聚合物。33.根据权利要求26所述的方法,其中,键和最小可裂解单元的集合的连通子集是所选分子的代谢物,或所选分子的分解代谢产物,或所选分子的气相碎片,或所选分子的降解产物,或所选分子的子结构。
34.一种生成数据库以便于识别所选分子的子结构的系统,所述系统包括:a)微处理器;b)存储器装置;和c)所述存储器装置上的程序指令,所述程序指令用于使所述微处理器:(i)接收表示所选分子的化学图形和注释的数据,所述注释用于识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量、和(C)与所选分子的最小可裂解单元连接的键的类型;(ii)生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有字段,为该字段在该对顶点之间存在边缘的情况下赋予第一值或在该对顶点之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中,边缘表示与所选分子的最小可裂解单元连接的键;(iii)由所述最小可裂解单元图形邻接矩阵生成线图邻接矩阵,所述线图邻接矩阵具有多个顶点,每个顶点对应于最小可裂解单元图形邻接矩阵的一对边缘并具有字段,为该字段在该对边缘之间存在端点的情况下赋予第一值或在该对边缘之间不存在端点的情况下赋予第二值,所述线图邻接矩阵具有基于由所述边缘连接的端点的最小可裂解单元图形邻接矩阵的每一条边缘的顶点,其中,顶点表示所选分子的最小可裂解单元之间的键;(iv)由最小可裂解单元邻接矩阵生成边缘到顶点邻接矩阵,所述边缘到顶点邻接矩阵具有多个元素,每个元素对应于最小可裂解单元图形邻接矩阵的边缘和顶点并具有字段,为该字段在所述边缘和顶点相互连接的情况下赋予第一值或在所述边缘和顶点相互不连接的情况下赋予第二值,所述顶点表示所选分子的最小可裂解单元,所述边缘表示与所选分子的最小可裂解单元连接的键;(v)使用图形遍历算法遍历线图邻接矩阵和边缘到顶点图形邻接矩阵,以确定所选分子的多个诱导连通子图,每个诱导连通子图包含线图中LG顶点和LG边缘的连通子集,以及LG顶点和LG边缘的所述连通子集的物理排列,它们一起唯一地对应于键和最小可裂解单元的集合的连通子集,以及所选分子中最小可裂解单元和键的所述连通子集的相对位置;和(vi)计算并在所述数据库中存储每个诱导连通子图的分子量,其中,每个诱导连通子图的分子量通过检索诱导连通子图的每个顶点的分子量并求和来计算。35.一种使用微处理器和存储器装置生成数据库以便于识别所选分子的子结构的系统,所述系统包括:a)图形输入模块,用于接收所选分子的化学图和注释,所述注释识别(A)所选分子的最小可裂解单元、(B)所选分子的每个最小可裂解单元的分子量和(C)与所选分子的最小可裂解单元连接的键的类型;b)位于存储器装置上的矩阵生成器模块,能够由微处理器执行以使微处理器生成所选分子的最小可裂解单元图形邻接矩阵,所述最小可裂解单元图形邻接矩阵具有多个记录,每个记录对应于一对顶点并具有字段,为该字段在该对顶点之间存在边缘的情况下赋予第一值或在该对顶点之间不存在边缘的情况下赋予第二值,每个顶点对应于所选分子的最小可裂解单元,其中,边缘表示与所选分子的最小可裂解单元连接的键;c)位于存储器装...

【专利技术属性】
技术研发人员:A
申请(专利权)人:默沙东有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1