构建诱饵库、构建目标-诱饵库、代谢组FDR鉴定的方法及装置制造方法及图纸

技术编号:26224727 阅读:56 留言:0更新日期:2020-11-04 10:59
本发明专利技术公开了一种构建诱饵库、构建目标‑诱饵库、代谢组FDR鉴定的方法及装置。其中,构建诱饵库的方法包括:S1,将目标数据库中每张谱图的代谢物母离子质荷比M分别与目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或谱图的序号存储在信号谱索引数组中,生成信号谱索引二维数组;S2,遍历信号谱索引二维数组中的全部元素,得到n个数组D,n个数组D组成诱饵库信号数组;S3,将诱饵库信号数组中每个子集对应的目标数据库中谱图的母离子信息拷贝给诱饵库信号数组,形成诱饵库。本发明专利技术的代谢组鉴定方法能够对鉴定结果进行FDR质控;能够快速高通量地对谱图进行鉴定,提高谱图的利用率和代谢物鉴定的覆盖度。

【技术实现步骤摘要】
构建诱饵库、构建目标-诱饵库、代谢组FDR鉴定的方法及装置
本专利技术涉及代谢组学
,具体而言,涉及一种构建诱饵库、构建目标-诱饵库、代谢组FDR鉴定的方法及装置。
技术介绍
代谢组学是继基因组学和蛋白质组学之后兴起的一门学科,它是系统生物学的重要组成部分,主要考察生物体系受刺激或扰动前后所有小分子代谢物及其含量的动态变化。通过对生物体内所有的小分子代谢物进行整体的定性和定量分析,可以探索并发现代谢物与生理病理变化的关系。研究表明,代谢组在疾病早期诊断、生物标志物发现、药物筛选、毒性评价、运动医学和营养学等领域有着重要应用价值。随着质谱仪的飞速发展,代谢物检测的准确性、覆盖度和速度都有较大的提升,基于质谱检测的代谢组学的应用也越来越广泛,如尿液、血浆、唾液、细胞和组织等样品均可以进行代谢物检测。随着代谢数据的增多,对后续的数据分析环节的要求也越来越高,需要性能更高的计算平台和分析工具。代谢物的鉴定是代谢组学分析的重要环节,通过对采集到的质谱图谱进行解析,鉴定样品中存在的代谢物种类,能够对生物的生理表型和疾病表型等作进一步的解释。代谢物在质谱中经过诱导碰撞碎裂产生二级谱图,理论上不同的代谢物具有不同的分子结构,不同的结构具有独特的二级谱图信号,根据这一原理能够对不同的代谢物图谱进行识别。目前代谢组鉴定的主要难点为:1、大规模代谢组鉴定的FDR无法评估,没有有效的质控手段;2、代谢物大规模鉴定的谱图利用率和鉴定覆盖度较低;3、代谢物大规模鉴定工具的性能较低且可操作性较差,对许多商业应用和科研的需求无法满足。因此,我们需要开发一个高性能并且能够进行FDR质控的大规模代谢组鉴定方法(工具)以满足科研和商业应用的需求。
技术实现思路
本专利技术旨在提供一种构建诱饵库、构建目标-诱饵库、代谢组FDR鉴定的方法及装置,以处理大规模代谢组学数据。为了实现上述目的,根据本专利技术的一个方面,提供了一种构建诱饵库的方法。该方法包括以下步骤:S1,将目标数据库中每张谱图的代谢物母离子质荷比M分别与目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或谱图的序号存储在信号谱索引数组中,遍历完目标数据库中所有的谱图,生成信号谱索引二维数组;S2,选中信号谱索引二维数组中的一组信号谱索引数组,将信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从第一信号仓库中随机选择一定数量的子离子信号填充到数组D中,使得数组D中的子离子信号数量与目标数据库中对应的谱图的子离子信号数量一致;然后随机选择数组D中的部分信号,随机改变其质荷比以避免与目标数据库中对应的谱图的质荷比重叠,遍历信号谱索引二维数组中的全部元素,得到n个数组D,n个数组D组成诱饵库信号数组;其中,n为自然数,对应为序号一致;以及S3,将诱饵库信号数组中每个子集对应的目标数据库中谱图的母离子信息拷贝给诱饵库信号数组,形成诱饵库。进一步的,S2中,随后从目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中所选择的子离子信号的数量占目标数据库中对应的谱图的全部子离子信号数量的比例为h,且h在0.6~0.9;优选的,h为0.775。进一步的,S2中,随机改变其质荷比包括:添加或者减少大小随机的质荷比,其扰动值小于母离子质荷比;优选的,添加或者减少大小随机的质荷比包括统一加大小随机的质荷比、统一减大小随机的质荷比,或随机加/减大小随机的质荷比;优选的,扰动为±1Da;优选的,所选择的部分信号占数组D中总信号比例为k,k﹤1,更优选k=0.5。进一步的,S3中,目标数据库中谱图的母离子信息包括母离子的保留时间、质荷比和电荷信息。根据本专利技术的另一个方面,提供了一种构建目标-诱饵库的方法。该方法包括:挑选形成目标数据库;构建诱饵库;以及将目标数据库与诱饵库进行合并得到目标-诱饵库,其中,诱饵库通过上述任一种构建诱饵库的方法构建而成。根据本专利技术的再一个方面,提供了一种代谢组FDR鉴定的方法。该方法包括:将原始质谱数据转换为统一的谱图数据并读取,得到待鉴定谱图;构建目标-诱饵库;将待鉴定谱图与目标-诱饵库匹配;以及将匹配结果进行排序以及对匹配结果进行FDR鉴定;其中,目标-诱饵库通过上述构建目标-诱饵库的方法构建而成。进一步的,统一的谱图数据为含荷质比-峰强度信息的谱图数据文件;优选的,进一步将含荷质比-峰强度信息的谱图数据文件存储为数据链表,数据链表中存储的谱图信息包括谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。进一步的,将待鉴定谱图与目标-诱饵库匹配包括:将待鉴定谱图中的每一张图谱与目标-诱饵库中的每一张谱图进行比对,对待鉴定谱图中的每一张图谱中的子离子信号强度值做归一化处理;选中待鉴定谱图中的一张图谱并获取其母离子质荷比M,筛选出目标-诱饵库中所有母离子质荷比为M的谱图序号并存储在谱图序号索引数组中,遍历待鉴定谱图中的每一张图谱,得到谱图序号索引二维数组;将目标-诱饵库中所有谱图的子离子信号储存在第二信号仓库中,对第二信号仓库作为信号峰强度的总体分布,选中一张待鉴定谱图,以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验,得到谱图信号的权值,遍历待鉴定谱图中的每一张图谱,得到权值数组;以参考图谱中的子离子信号为基础对待鉴定谱图的子离子信号进行匹配评分;以及选中一个谱图序号索引数组,将待鉴定谱图与选中的谱图序号索引数组中所遍历的谱图进行匹配,将匹配评分最高的结果作为待鉴定谱图的鉴定结果,遍历谱图序号索引二维数组中的所有元素,得到待鉴定谱图的鉴定结果数组。进一步的,归一化处理包括将子离子信号强度值归一化到(0,1)的区间内;优选的,归一化处理包括将子离子信号强度值分别除以其所属谱图中子离子最大的信号强度值。进一步的,权值通过以下步骤得到:以第二信号仓库为总体对选中的待鉴定谱图中的所有子离子谱图信号做检验获得待鉴定谱图中的所有子离子谱图信号的统计量,对得到的统计量取倒数后作为子离子谱图信号的权值;优选的,检验为格拉布斯检验、箱线图法检验或正态分布检验。进一步的,以参考图谱中的子离子信号为基础对待鉴定谱图的子离子信号进行匹配评分包括:将待鉴定谱图的子离子信号和参考谱图的子离子信号分别定义为两个数组和以参考谱图为基础,将待鉴定谱图的信号与参考谱图的信号进行比对,设待鉴定谱图中的信号数目总数为total_e,其中能够匹配到参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:其中,μ为校正系数,为待鉴定谱图的子离子信号和参考谱图的子离子信号间的差值的倒数,为谱图子离子信号向量,w为待鉴定谱图子离子谱图信号权值,T为该次本文档来自技高网
...

【技术保护点】
1.一种构建诱饵库的方法,其特征在于,包括以下步骤:/nS1,将目标数据库中每张谱图的代谢物母离子质荷比M分别与所述目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或所述谱图的序号存储在信号谱索引数组中,遍历完所述目标数据库中所有的谱图,生成信号谱索引二维数组;/nS2,选中所述信号谱索引二维数组中的一组信号谱索引数组,将所述信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从所述目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从所述第一信号仓库中随机选择一定数量的子离子信号填充到所述数组D中,使得所述数组D中的子离子信号数量与所述目标数据库中对应的谱图的子离子信号数量一致;然后随机选择所述数组D中的部分信号,随机改变其质荷比以避免与所述目标数据库中对应的谱图的质荷比重叠,遍历所述信号谱索引二维数组中的全部元素,得到n个数组D,所述n个数组D组成诱饵库信号数组;其中,n为自然数,所述对应为序号一致;以及/nS3,将所述诱饵库信号数组中每个子集对应的所述目标数据库中谱图的母离子信息拷贝给所述诱饵库信号数组,形成诱饵库。/n

【技术特征摘要】
1.一种构建诱饵库的方法,其特征在于,包括以下步骤:
S1,将目标数据库中每张谱图的代谢物母离子质荷比M分别与所述目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或所述谱图的序号存储在信号谱索引数组中,遍历完所述目标数据库中所有的谱图,生成信号谱索引二维数组;
S2,选中所述信号谱索引二维数组中的一组信号谱索引数组,将所述信号谱索引数组中的每一张谱图的子离子信号存储在第一信号仓库中,随后从所述目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中,从所述第一信号仓库中随机选择一定数量的子离子信号填充到所述数组D中,使得所述数组D中的子离子信号数量与所述目标数据库中对应的谱图的子离子信号数量一致;然后随机选择所述数组D中的部分信号,随机改变其质荷比以避免与所述目标数据库中对应的谱图的质荷比重叠,遍历所述信号谱索引二维数组中的全部元素,得到n个数组D,所述n个数组D组成诱饵库信号数组;其中,n为自然数,所述对应为序号一致;以及
S3,将所述诱饵库信号数组中每个子集对应的所述目标数据库中谱图的母离子信息拷贝给所述诱饵库信号数组,形成诱饵库。


2.根据权利要求1所述的方法,其特征在于,所述S2中,所述随后从所述目标数据库中对应的谱图中随机选择部分子离子信号复制到数组D中所选择的子离子信号的数量占所述目标数据库中对应的谱图的全部子离子信号数量的比例为h,且h在0.6~0.9;优选的,h为0.775。


3.根据权利要求1所述的方法,其特征在于,所述S2中,所述随机改变其质荷比包括:添加或者减少大小随机的质荷比,其扰动值小于母离子质荷比;
优选的,所述添加或者减少大小随机的质荷比包括统一加大小随机的质荷比、统一减大小随机的质荷比,或随机加/减大小随机的质荷比;
优选的,扰动为±1Da;
优选的,所选择的部分信号占所述数组D中总信号比例为k,k﹤1,更优选k=0.5。


4.根据权利要求1所述的方法,其特征在于,所述S3中,所述目标数据库中谱图的母离子信息包括母离子的保留时间、质荷比和电荷信息。


5.一种构建目标-诱饵库的方法,其特征在于,包括:
挑选形成目标数据库;
构建诱饵库;以及
将所述目标数据库与所述诱饵库进行合并得到所述目标-诱饵库,其中,所述诱饵库通过如权利要求1至4中任一项所述的构建诱饵库的方法构建而成。


6.一种代谢组FDR鉴定的方法,其特征在于,包括:
将原始质谱数据转换为统一的谱图数据并读取,得到待鉴定谱图;
构建目标-诱饵库;
将所述待鉴定谱图与所述目标-诱饵库匹配;以及
将匹配结果进行排序以及对所述匹配结果进行FDR鉴定;
其中,所述目标-诱饵库通过如权利要求5所述的构建目标-诱饵库的方法构建而成。


7.根据权利要求6所述的方法,其特征在于,所述统一的谱图数据为含荷质比-峰强度信息的谱图数据文件;
优选的,进一步将所述含荷质比-峰强度信息的谱图数据文件存储为数据链表,所述数据链表中存储的谱图信息包括谱图的编号、母离子保留时间、质荷比、电荷信息、子离子的质荷比和对应的峰强度信息。


8.根据权利要求6所述的方法,其特征在于,所述将所述待鉴定谱图与所述目标-诱饵库匹配包括:
将所述待鉴定谱图中的每一张图谱与所述目标-诱饵库中的每一张谱图进行比对,对所述待鉴定谱图中的每一张图谱中的子离子信号强度值做归一化处理;
选中所述待鉴定谱图中的一张图谱并获取其母离子质荷比M,筛选出所述目标-诱饵库中所有母离子质荷比为M的谱图序号并存储在谱图序号索引数组中,遍历所述待鉴定谱图中的每一张图谱,得到谱图序号索引二维数组;
将所述目标-诱饵库中所有谱图的子离子信号储存在第二信号仓库中,对所述第二信号仓库作为信号峰强度的总体分布,选中一张待鉴定谱图,以所述第二信号仓库为总体对选中的所述待鉴定谱图中的所有子离子谱图信号做检验,得到谱图信号的权值,遍历所述待鉴定谱图中的每一张图谱,得到权值数组;
以参考图谱中的子离子信号为基础对所述待鉴定谱图的子离子信号进行匹配评分;以及
选中一个谱图序号索引数组,将所述待鉴定谱图与选中的所述谱图序号索引数组中所遍历的谱图进行匹配,将匹配评分最高的结果作为所述待鉴定谱图的鉴定结果,遍历所述谱图序号索引二维数组中的所有元素,得到所述待鉴定谱图的鉴定结果数组。


9.根据权利要求8所述的方法,其特征在于,所述归一化处理包括将所述子离子信号强度值归一化到(0,1)的区间内;
优选的,所述归一化处理包括将所述子离子信号强度值分别除以其所属谱图中子离子最大的信号强度值。


10.根据权利要求8所述的方法,其特征在于,所述权值通过以下步骤得到:以所述第二信号仓库为总体对选中的所述待鉴定谱图中的所有子离子谱图信号做检验获得所述待鉴定谱图中的所有子离子谱图信号的统计量,对得到的统计量取倒数后作为子离子谱图信号的权值;
优选的,所述检验为格拉布斯检验、箱线图法检验或正态分布检验。


11.根据权利要求8所述的方法,其特征在于,所述以参考图谱中的子离子信号为基础对所述待鉴定谱图的子离子信号进行匹配评分包括:
将所述待鉴定谱图的子离子信号和所述参考谱图的子离子信号分别定义为两个数组和以所述参考谱图为基础,将所述待鉴定谱图的信号与所述参考谱图的信号进行比对,设所述待鉴定谱图中的信号数目总数为total_e,其中能够匹配到所述参考谱图中的信号的数量为e,则该次匹配的实验信号匹配率E=e/total_e,所述参考谱图中的信号数目总数为total_t,其中能够匹配到查询谱图中的信号的数量为e,则该次匹配的理论信号匹配率T=e/total_t,信号匹配完成后使用向量点积算法计算待鉴定谱图子离子信号与参考谱图子离子信号的点积和,计算公式如下:



其中,μ为校正系数,为所述待鉴定谱图的子离子信号和所述参考谱图的子离子信号间的差值的倒数,为谱图子离子信号向量,w为待鉴定谱图子离子谱图信号权值,T为该次匹配的理论信号匹配率,E为该次匹配的实验信号匹配率。


12.根据权利要求8所述的方法,其特征在于,所述将匹配结果进行排序以及对所述匹配结果进行FDR鉴定包括:
将所述待鉴定谱图的鉴定结果数组按照匹配得分从高到低排序,设target_score为目标数据库得分,decoy_score为诱饵库得分,假设鉴定结果为目标谱图则计作target_score+1,而鉴定结果为诱饵谱图则计作decoy_score+1;
鉴定结果的FDR=decoy_score/(target_score+decoy_score),设置FDR阈值为x,当遍历到某一个谱图鉴定结果sn使得FDR≥x的时候,则该批次的有效鉴定结果为M{s1,s2,s3......sn-1};
优选的,所述x小于等于0.2,更优选为小于等于0.05,进一步更优选为小于等于0.01。


13.一种诱饵库,其特征在于,通过如权利要求1至4中任一项所述的构建诱饵库的方法构建而成。


14.一种目标-诱饵库,其特征在于,通过如权利要求5所述的构建目标-诱饵库的方法构建而成。


15.一种构建诱饵库的装置,其特征在于,包括:
信号谱索引二维数组生成模块,用于将目标数据库中每张谱图的代谢物母离子质荷比M分别与所述目标数据库中其他所有谱图逐一比较,将存在子离子质荷比等于M的谱图和/或所述谱图的序号存储在信号谱索引数组中,遍历完所...

【专利技术属性】
技术研发人员:李德华李尉栾恩慧龙巧云宋佳平李振宇王雅兰
申请(专利权)人:深圳数字生命研究院深圳微伴生物有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1