当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于深度学习的代谢质谱筛查方法及系统技术方案

技术编号:13326773 阅读:46 留言:0更新日期:2016-07-11 16:10
本发明专利技术公开一种基于深度学习的代谢质谱筛查方法及系统。本发明专利技术以现有的代谢质谱数据库为基础,通过提取并整合特定种类(如疾病)的代谢质谱样本,用于训练深度学习网络,使其可同时判定多种类别状态。而后将此网络用于实际输入代谢质谱的筛查。

【技术实现步骤摘要】

本专利技术涉及代谢质谱筛查领域,尤其涉及一种基于深度学习的代谢质谱筛查方法及系统
技术介绍
代谢物是生物体内完成代谢过程的小分子有机化合物总称,包含了丰富的生理状态信息。代谢组学基于对代谢物的整体系统性研究,可有效揭示生理现象背后的真实机理,并更为全面地展示生命体的动态状态。因此获得了越来越多的重视,被广泛应用于诸多科研与实用领域中。质谱分析(MassSpectrometry,MS)是代谢组学最为重要的研究工具之一,可有效鉴别不同的代谢物质,并准确衡量其相对浓度,数据形式如图1和图2所示。疾病检测是代谢质谱主要的应用范畴之一。通过定量测定目标代谢物的存在与丰度变化,可获得较传统方法更为丰富、完整的生理数据,对疾病的存在与发展状态进行有效判定,并协助医生拟定针对性的治疗方案。现有基于代谢质谱的检测算法(例如应用于疾病检测或预测),其流程包含三个主要步骤:1).峰值检测,将原始质谱经预处理消除噪声干扰,获取有效峰值。常用的预处理算法包括正规化(Standardization)、PCA白化、ZCA白化等;2).峰值注释(Annotation),判定目标峰值(群)所对应的具体代谢物质种类。这一过程往往由实验人员人工完成,但近年来也出现了基于机器学习与人工神经网络的自动注释算法,获得了较好的效果;3).疾病判定,以生物标志物数据库为基础,通过分析特定代谢物的出现、消失或浓度变化,预测可能发生的疾病类型与发展状态。常用的生物标志物数据库包括小分子代谢途径数据库(SMPDB)、人类代谢物数据库(HMDB)等,而常用的判定算法包括支持向量机分类器(SupportVectorMachineClassifier)等。深度学习网络是目前机器学习与人工神经网络领域最前沿、性能最佳的分析方法之一。在复杂认知问题上具有远优于传统算法的预测能力,泛化性能良好,并可同时对多个目标状态进行判定。获得了学术与工业界的高度重视,已被成功应用于计算机视觉、音频识别等重要领域中。现有基于代谢质谱的检测方法,其缺点在于:第一,现有方法需对质谱峰值进行判定与注释,以确定其对应的代谢物种类。这一过程往往要求专业人员的深度参与,即使利用了机器学习等自动化算法,仍需要人工对注释结果进行最终判定与调整。从而增加了应用成本与难度。此外,由于当前代谢组学知识仍有着大量缺失,通常在质谱中仅有不到一半的峰值可被成功注释,其平均置信度也较低。从而对于许多状态并不能进行有效预测。第二,现有方法需针对每种特定类别,分析与其关联的各代谢标志物变化情况,才能对状态作出大致判断。这一过程较为复杂,需大量人工干预。且若部分标志物未能被成功注释,或其注释的置信度较低,或噪声信号被错误注释为代谢标志物,都将严重影响预测准确度。第三,现有方法在每次进行分析时,仅能判定单一的状态。而在实际应用中,往往需检测多种不同的状态。若对其进行逐一分析,所需时间及成本都较高。如何设计并行化算法,在单次运行中同时筛查多个状态,是当前亟需解决的重要问题。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种基于深度学习的代谢质谱筛查方法及系统,旨在解决现有的代谢质谱检测方法其过程复杂、准确度低、时间及成本高等问题。本专利技术的技术方案如下:一种基于深度学习的代谢质谱筛查方法,其中,包括步骤:A、获得训练样本数据集S={S1,S2,…Sn,…,SN本文档来自技高网
...
一种基于深度学习的代谢质谱筛查方法及系统

【技术保护点】
一种基于深度学习的代谢质谱筛查方法,其特征在于,包括步骤:A、获得训练样本数据集S={S1,S2,…Sn,…,SN},其中任意质谱Sn=[(m1,i1),(m2,i2),…(md,id),…],md和id分别为第d条谱线的质核比与强度值;所述训练样本数据集S对应的类标矢量为c={c1,c2,…,cN};B、对S中的每个质谱进行预处理得到代谢质谱特征数据集T={T1,T2,…,TN};C、构造类标集合为C=[C1,C2,…,CN],设若原类标矢量c中的任意样本类标cn=k,则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;D、将预处理后的代谢质谱特征数据集T={T1,T2,…,TN}与类标集合C用于深度学习网络的训练;E、构造包含1个输入层,1个输出层,以及L个隐含层的深度学习网络结构,其中输入层具有2D个节点,输出层具有K个节点,对于任意第l∈L个隐含层,设其节点数为Pl,且具有递减关系Pl‑1>Pl,D为从Sn中选择强度值最高的谱线数量;F、使用栈式自编码器分别训练各隐含层;G、使用逻辑回归作为输出层节点的激活函数,逐一训练输出层的节点;H、在对各层分别进行训练后,依次栈式叠加,构成代谢质谱筛查深度学习网络;I、使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调;J、在训练完成后,将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与筛查。...

【技术特征摘要】
1.一种基于深度学习的代谢质谱筛查方法,其特征在于,包括步骤:...

【专利技术属性】
技术研发人员:纪震周家锐殷夫朱泽轩
申请(专利权)人:深圳大学纪震周家锐殷夫朱泽轩
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1