一种基于中药色谱-质谱高维图像数据库的中药识别方法技术

技术编号:21340436 阅读:37 留言:0更新日期:2019-06-13 21:49
本发明专利技术涉及一种基于中药色谱‑质谱高维图像数据库的中药识别方法,包括如下步骤:⑴中药色谱‑质谱高维图像数据库的建立:1)获取与处理已知中药样本的原始色谱‑质谱数据;2)生成已知中药样本的高维数据与高维图像;3)建立已知中药样本的色谱‑质谱高维图像数据库;⑵中药色谱‑质谱高维图像数据库的应用:1)未知样本图像数据的获取;2)未知样本的识别;3)未知样本识别结果的验证。与现有技术相比,本发明专利技术运用中药色谱‑质谱高维图像技术,能够对中药样本中大量化合物间的空间信息实现全面表征,并利用上述空间信息实现未知样本与已知中药样本匹配与识别。

A Recognition Method of Traditional Chinese Medicine Based on High-dimensional Image Database of Chromatography-Mass Spectrometry

The invention relates to a method of Chinese medicine identification based on high-dimensional image database of TCM chromatography and mass spectrometry, which includes the following steps: (1) establishing high-dimensional image database of TCM chromatography and mass spectrometry: (1) acquiring and processing original chromatographic and mass spectrometric data of known TCM samples; (2) generating high-dimensional data and high-dimensional images of known TCM samples; (3) establishing high-dimensional chromatographic and mass spectrometric data of known TCM samples. Image database; _Application of high-dimensional image database of TCM Chromatography and Mass Spectrometry: 1) Acquisition of image data of unknown samples; 2) Recognition of unknown samples; 3) Verification of recognition results of unknown samples. Compared with the prior art, the present invention utilizes the high-dimensional image technology of TCM chromatography and mass spectrometry to fully characterize the spatial information of a large number of compounds in TCM samples, and utilizes the above spatial information to realize matching and recognition between unknown samples and known samples of TCM.

【技术实现步骤摘要】
一种基于中药色谱-质谱高维图像数据库的中药识别方法
本专利技术涉及一种基于中药色谱-质谱高维图像数据库的中药识别方法。
技术介绍
复杂样本的化合物构成具有极端复杂性。中药即是典型的复杂样本,所含成分极其复杂,结构多样、种类繁多,常见类型包括酚类、生物碱类、皂苷类、萜类、黄酮类、内酯类、蒽酮类、有机酸类以及鞣质类等,单一中药即包含数百上千计的次生代谢产物和小分子成分,由多种中药组合的中药复方制剂的成分则更多。相应地,复杂样本中蕴含海量信息。如中药化合物之间的相互关系、不同中药的药性药效差异、同属药材化学成分异同及产地、年份、生长环境对药材质量的影响等科学问题都蕴藏其中。目前对于复杂样本的研究面临两个重要瓶颈:一方面,研究大多采用碎片化、点状的低维数据,如色谱保留时间,m/z值,子离子碎片信息等,这些低维数据忽视也无法体现上述大量化学成分间的关联。高维数据恰是海量信息的有力载体。与低维数据相比,高维数据能够有效地表示样本中各数据点的空间信息从而反映它们的空间关系。因此,获取复杂样本化合物的高维数据才能真正实现从复杂样本中得到、处理、挖掘那些高价值信息。另一方面,实验产生的数据资源庞大却零散,相关研究产生的数据不能整合利用,导致科研工作中人力、物力、时间等投入的成本高,产出却不显著。数据库技术是一种计算机辅助管理、整合数据的方法。将高维数据与数据库技术结合建立高维数据数据库正是解决上述难题的方向。高维数据的获取需要联用仪器来实现。色谱-质谱联用技术将应用范围极广的分离方法-色谱法与灵敏、专属、能提供分子量和结构信息的质谱法结合起来,显然是复杂样本高维数据获取的理想手段。目前,已有一些基于色谱-质谱联用技术的数据库,大致可以分为两类:1.标准化合物质谱数据库:如美国国家科学技术研究院(NIST)出版的NIST标准化合物质谱数据库,收录了几万张标准质谱图,在以GC-MS平台的代谢组学研究中发挥巨大作用;又如人类代谢组数据库(HumanMetabolomeDatabase,HMDB)是目前最完整且最全面的人类代谢物和人类代谢数据库。这类数据库在许多研究领域得到了广泛的应用。然而该类型数据库能够提供的化合物数目是有限的,并且没有提供化合物的色谱保留信息。张加余等(药学学报,2012,47(9):1187-1192)利用高效液相-电喷雾离子阱串联质谱(HPLC-ESIIT-MS/MS),以商业化工作站谱库编辑程序为平台建立了含有636个天然化合物(包括黄酮、香豆素、木质素、萜及其苷类、甾体及其苷类、有机酸、生物碱、蒽醌、氨基酸等常见类型的天然产物)的液相色谱-质谱-数据库(LC-MS-DS),用于天然产物未知组分的鉴定和靶向分离。该数据库属于标准化合物质谱数据库,且可通过匹配未知组分和对照品的保留时间、紫外吸收光谱或者比较未知组分和对照品的多级质谱图中主要离子碎片是否相同来评价谱库检索的可信度,从而提高结果的可信度。该数据库仅能用作化合物的鉴定,无法用于包括天然产物在内的生物样本的鉴定。2.化合物信息库:WATERS公司推出的UNIFI中药数据库包含了2010版中国药典中所列所有草药以及与这些草药相关的几千种化合物信息(文献已报道的主要化合物)。该数据库需以超高效液相色谱(UPLC)和四极杆飞行时间质谱(QTOFMS)为基础获得待测中药的色谱-质谱数据,根据精确分子量推测分子式并与数据库中的化合物结构匹配,将软件计算的理论碎片与采集的二级离子进行匹配进行确证。该数据库的优势在于整合了2010版中国药典中所有草药及主要化合物,化合物规模达几千种。相对于标准物质来源有限的标准化合物质谱数据库,该数据库的化合物数目规模增加的可行性是显而易见的。但该数据库实际上并没有每个化合物的真实色谱-质谱数据,化合物的鉴定仅利用高分辨质谱获得精确分子量推测分子式,通过结合理论计算二级碎片匹配提高可信度。尽管高分辨质谱能够提供化合物的精确分子量来推测可能的分子式,但同一分子式对应的可能候选物数量很多,尽管该数据库化合物总数达几千个,但每种中药平均化合物仅几十个,且多为高含量常见化合物。中药化学成分具有典型的复杂多样性,每种中药可能存在成百上千种成分,该数据库中的化合物可能仅包含待测中药中很小一部分化学成分,对于中低含量成分的鉴定能力十分有限。并且理论计算二级碎片技术目前尚未成熟,准确性不高,匹配结果可能存在偏差,造成假阳性或者假阴性。该数据库同样存在兼容性的问题,仅适用于WATERS工作站系统。范骁辉等专利技术了一种适用于天然产物质谱数据解析的数据库构建方法(申请号201510443268.7)。该方法从PubChem、CA或Reaxys化合物数据库上下载相关的所有化合物,基于裂解规律对化合物进行计算机模拟裂解,获得该化合物的裂解碎片,记录化合物和碎片的相关信息,然后建立数据库。该方法较UNIFI中药数据库包含的化合物数量丰富,裂解规律基于已有文献报道的裂解规律结合计算机模拟裂解完成化合物鉴定,相对地增加了结果的可靠性。但与UNIFI中药数据库相同,该数据库数据仅基于化合物结构信息数据,没有化合物实际谱图;另外,不同仪器、不同参数对化合物的碎裂行为影响很大,该数据库对不同来源(仪器、实验条件等)的适应性不明确。上述色谱-质谱联用数据库均以化合物为主体,关注于数据中单一维度的特征,部分数据库存在多维度数据,但没有将多维度的数据转化成高维数据整合使用。本专利技术建立的中药色谱-质谱高维图像数据库以中药整体为主体,既包括中药整体信息,也包括中药化合物的单点信息。本专利技术中药色谱-质谱高维图像数据库可用于中药的识别、分类、质量控制、数据的深度挖掘等多方面的研究使用。需要特别指出的是,本专利技术中药识别方法可适用于样本分析条件相近或相似获得的数据,使得该方法的适用性大大提高。
技术实现思路
1.一种基于中药色谱-质谱高维图像数据库的中药识别方法,其特征在于,按以下步骤进行:⑴中药色谱-质谱高维图像数据库的建立:1)获取与处理已知中药样本的原始色谱-质谱(X-MS)数据:使用色谱和质谱获取已知中药样本的原始X-MS数据,将已知中药样本原始X-MS数据导入峰提取软件(如ProgenesisQI)中对色谱-质谱联用原始X-MS数据进行数据处理;2)生成已知中药样本的高维数据与图像:获取样本中每个化合物的m/z、t、I、m、z值,产生高维数据矩阵(如m/z-t-I矩阵、m-z-t-I矩阵或m-t-I矩阵),生成已知中药样本色谱-质谱联用高维数据;将高维数据导入图像生成软件(如Matlab等)生成图像,使高维数据中的每个离子与构成图像中的点一一对应,每个点拥有自己的坐标信息(t,m/z或m或m与z),每个点的强度由点的大小或/和亮度的强弱表示,高维数据图像中的点与高维数据一一对应;3)建立已知中药样本的色谱-质谱高维图像数据库:将获得的1类或2类以上已知中药样本高维数据图像作为中药色谱-质谱高维图像数据库(类别数≧1),每类已知中药样本中的样本数为1个或2个以上;中药色谱-质谱高维图像数据库,包括已知中药样本的样本信息、原始X-MS数据信息、高维数据信息、高维图像数据信息;数据库类型包括但不局限于文件夹数据集、网页数据库、基于商业化工作站或基于用户自研发工作站的数据本文档来自技高网
...

【技术保护点】
1.一种基于中药色谱‑质谱高维图像数据库的中药识别方法,其特征在于,按以下步骤进行:⑴中药色谱‑质谱高维图像数据库的建立:1)获取与处理已知中药样本的原始色谱‑质谱(X‑MS)数据:使用色谱和质谱获取已知中药样本的原始X‑MS数据,将已知中药样本原始X‑MS数据导入峰提取软件(如Progenesis QI)中对色谱‑质谱联用原始X‑MS数据进行数据处理;2)生成已知中药样本的高维数据与图像:获取样本中每个化合物的m/z、t、I、m、z值,产生高维数据矩阵(如m/z‑t‑I矩阵、m‑z‑t‑I矩阵或m‑t‑I矩阵),生成已知中药样本色谱‑质谱联用高维数据;将高维数据导入图像生成软件(如Matlab等)生成图像,使高维数据中的每个离子与构成图像中的点一一对应,每个点拥有自己的坐标信息(t,m/z或m或m与z),每个点的强度由点的大小或/和亮度的强弱表示,高维数据图像中的点与高维数据一一对应;3)建立已知中药样本的色谱‑质谱高维图像数据库:将获得的1类或2类以上已知中药样本高维数据图像作为中药色谱‑质谱高维图像数据库(类别数≧1),每类已知中药样本中的样本数为1个或2个以上;中药色谱‑质谱高维图像数据库,包括已知中药样本的样本信息、原始X‑MS数据信息、高维数据信息、高维图像数据信息;数据库类型包括但不局限于文件夹数据集、网页数据库、基于商业化工作站或基于用户自研发工作站的数据库;⑵中药色谱‑质谱高维图像数据库的应用:1)未知样本高维图像数据的获取:采用与步骤(1)相同或相似的操作参数和条件,按步骤(1)中1)~2)操作,针对待分析的未知样本进行分析,获取未知样本原始X‑MS数据和高维数据;利用图像生成软件将X‑MS数据得到未知样本的X‑MS高维图像;2)未知样本的识别;A、利用机器学习中的图像分割工具(如Matlab2016b自带的分割程序),或聚类工具(如K‑Means,DBSCAN或Fanny等中的一种或二种以上),将未知样本X‑MS高维图像中的点分割为n个点簇(n≥1整数);点簇指的是在空间上距离接近的点的集合,点簇内点的个数n≥3;每个点簇可以有自己的中心点,点簇的形状可以为任意形状;B、将提取点簇后的未知样本X‑MS高维图像与中药X‑MS高维图像数据库中的已知中药样本X‑MS高维图像逐一进行分别扫描和匹配;扫描时,将两个X‑MS高维图像的原点、t轴和m/z(m)轴对齐;扫描时,点簇作为一个整体,移动的范围为0‑Tk,Tk为已知中药样本对应的最大分析时间;扫描时,未知样本的每个点簇保留其m/z(或m)轴的位置和几何形状,沿时间轴(t)进行扫描;通过扫描,寻找未知样本点簇与已知中药样本X‑MS高维图像中能够在t和m/z(或m)能够准确匹配的共同点;扫描过程中,在未知样本中的一个点簇中的点与已知中药样本X‑MS高维图像中的点进行匹配时,每个点允许的t绝对偏移值(t tolerance)为≥T,T等于未知样本X‑MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)与已知中药样本X‑MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)之和;扫描过程中,在未知样本中的一个点簇中的点与已知中药样本X‑MS高维图像中的点进行匹配时,每个点允许的m/z(或m)绝对测定误差[m/z(或m)tolerance]≥A,A等于未知和已知中药样本X‑MS数据采集时质谱仪扫描时允许的质量平均偏差(绝对值,可由仪器所用的校正液多次重复测定)之和;当未知样本点簇内一个点与已知中药样本的某个点满足t偏差和m/z(或m)偏差时,认为该点符合匹配要求;扫描时,点簇沿时间轴(t)扫描的步长≤T,通常情况下,0s<T<10000s;C、当一个点簇移动到已知中药样本X‑MS高维图像的t轴的每一个位置时,记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标;D、计算每一个位置时,未知样本一个点簇(i,i≥1整数)与该已知中药样本X‑MS高维图像之间的匹配度(Si),匹配度的大小可利用统计工具(如Matlab)计算点簇(i)与已知中药样本X‑MS高维图像所匹配的点数、或相似度(如图像相似度计算中的欧氏距离法)、或相关度(如Matlab中的2D‑correlation coefficient)中的一种或二种以上进行计算;由上述三种方法得到的匹配度分别由点数(或点数的函数)、相似度或相关度表示;点簇匹配度大小,与点簇匹配的点数、坐标位置(t,m/z)和强度这四个变量呈线性或非线性相关;计算点数(或点数的函数)、相似度或相关度的基础是基于四个变量的关系变换;可选用不同的匹配度计算方法分别计算点簇和已知中药样本X...

【技术特征摘要】
1.一种基于中药色谱-质谱高维图像数据库的中药识别方法,其特征在于,按以下步骤进行:⑴中药色谱-质谱高维图像数据库的建立:1)获取与处理已知中药样本的原始色谱-质谱(X-MS)数据:使用色谱和质谱获取已知中药样本的原始X-MS数据,将已知中药样本原始X-MS数据导入峰提取软件(如ProgenesisQI)中对色谱-质谱联用原始X-MS数据进行数据处理;2)生成已知中药样本的高维数据与图像:获取样本中每个化合物的m/z、t、I、m、z值,产生高维数据矩阵(如m/z-t-I矩阵、m-z-t-I矩阵或m-t-I矩阵),生成已知中药样本色谱-质谱联用高维数据;将高维数据导入图像生成软件(如Matlab等)生成图像,使高维数据中的每个离子与构成图像中的点一一对应,每个点拥有自己的坐标信息(t,m/z或m或m与z),每个点的强度由点的大小或/和亮度的强弱表示,高维数据图像中的点与高维数据一一对应;3)建立已知中药样本的色谱-质谱高维图像数据库:将获得的1类或2类以上已知中药样本高维数据图像作为中药色谱-质谱高维图像数据库(类别数≧1),每类已知中药样本中的样本数为1个或2个以上;中药色谱-质谱高维图像数据库,包括已知中药样本的样本信息、原始X-MS数据信息、高维数据信息、高维图像数据信息;数据库类型包括但不局限于文件夹数据集、网页数据库、基于商业化工作站或基于用户自研发工作站的数据库;⑵中药色谱-质谱高维图像数据库的应用:1)未知样本高维图像数据的获取:采用与步骤(1)相同或相似的操作参数和条件,按步骤(1)中1)~2)操作,针对待分析的未知样本进行分析,获取未知样本原始X-MS数据和高维数据;利用图像生成软件将X-MS数据得到未知样本的X-MS高维图像;2)未知样本的识别;A、利用机器学习中的图像分割工具(如Matlab2016b自带的分割程序),或聚类工具(如K-Means,DBSCAN或Fanny等中的一种或二种以上),将未知样本X-MS高维图像中的点分割为n个点簇(n≥1整数);点簇指的是在空间上距离接近的点的集合,点簇内点的个数n≥3;每个点簇可以有自己的中心点,点簇的形状可以为任意形状;B、将提取点簇后的未知样本X-MS高维图像与中药X-MS高维图像数据库中的已知中药样本X-MS高维图像逐一进行分别扫描和匹配;扫描时,将两个X-MS高维图像的原点、t轴和m/z(m)轴对齐;扫描时,点簇作为一个整体,移动的范围为0-Tk,Tk为已知中药样本对应的最大分析时间;扫描时,未知样本的每个点簇保留其m/z(或m)轴的位置和几何形状,沿时间轴(t)进行扫描;通过扫描,寻找未知样本点簇与已知中药样本X-MS高维图像中能够在t和m/z(或m)能够准确匹配的共同点;扫描过程中,在未知样本中的一个点簇中的点与已知中药样本X-MS高维图像中的点进行匹配时,每个点允许的t绝对偏移值(ttolerance)为≥T,T等于未知样本X-MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)与已知中药样本X-MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)之和;扫描过程中,在未知样本中的一个点簇中的点与已知中药样本X-MS高维图像中的点进行匹配时,每个点允许的m/z(或m)绝对测定误差[m/z(或m)tolerance]≥A,A等于未知和已知中药样本X-MS数据采集时质谱仪扫描时允许的质量平均偏差(绝对值,可由仪器所用的校正液多次重复测定)之和;当未知样本点簇内一个点与已知中药样本的某个点满足t偏差和m/z(或m)偏差时,认为该点符合匹配要求;扫描时,点簇沿时间轴(t)扫描的步长≤T,通常情况下,0s<T<10000s;C、当一个点簇移动到已知中药样本X-MS高维图像的t轴的每一个位置时,记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标;D、计算每一个位置时,未知样本一个点簇(i,i≥1整数)与该已知中药样本X-MS高维图像之间的匹配度(Si),匹配度的大小可利用统计工具(如Matlab)计算点簇(i)与已知中药样本X-MS高维图像所匹配的点数、或相似度(如图像相似度计算中的欧氏距离法)、或相关度(如Matlab中的2D-correlationcoefficient)中的一种或二种以上进行计算;由上述三种方法得到的匹配度分别由点数(或点数的函数)、相似度或相关度表示;点簇匹配度大小,与点簇匹配的点数、坐标位置(t,m/z)和强度这四个变量呈线性或非线性相关;计算点数(或点数的函数)、相似度或相关度的基础是基于四个变量的关系变换;可选用不同的匹配度计算方法分别计算点簇和已知中药样本X-MS高维图像的整体匹配度;匹配点的个数指的是点簇符合匹配条件点的个数;基于上述步骤,对未知样本X-MS高维图像中每一个点簇的最大匹配度(Si)进行数学加权处理(如加和、平均或取对数),得到未知样本X-MS高维图像与已知中药样本X-MS高维图像的整体匹配度(Sc);E、重复上述步骤,逐一分析未知样本X-MS高维图像与其它已知中药样本X-MS高维图像之间的匹配度,得到其与每一个已知中药样本的整体匹配度(Sc);F、未知样本的所属类别可不借助阈值或借助阈值进行判定;当不借助阈值时,利用上述步骤,将未知样本与已知中药样本进行匹配,对匹配度从大到小进行排序,若未知样本与某一已知中药样本的匹配度排名越靠前,表明未知样本为与该样本的可能性越大,反之越小;或,当借助阈值时,设定阈值γ,用于判断不同来源未知样本与同类已知中药样本匹配的可信范围;阈值可以根据统计学的方法设定:按步骤(1)中1)~2)操作,采用相同或相近的操作参数和条件,选取2个以上同类别的已知中药样本作为某一类样本的训练样本,进行分析,获取X-MS原始数据;利用图像生成软件(如Matlab2016b)将X-MS原始数据或多维信息文本转化为X-MS高维图像,得到该类样本的训练X-MS高维图像集;利用训练X-MS高维图像集,与同类已知中药样本X-MS高维图像进行匹配,通过统计学的方法(如概率,比率等)发现匹配度分布区间,选定分布区间中匹配度的下限作为该类样本的阈值γ;或,阈值可以利用文献报道或实验观察得到某类样本(n≥2)与已知中药样本匹配度分布区间(按步骤(1)中1)~2)操作采用相同或相近的操作参数和条件所得到的分析结果),选定分布区间中匹配度的下限作为该类样...

【专利技术属性】
技术研发人员:张晓哲赵楠程孟春
申请(专利权)人:中国科学院大连化学物理研究所
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1