【技术实现步骤摘要】
一种基于非负矩阵分解的质谱数据缺失值填补方法及系统
本专利技术涉及数据缺失处理领域,特别是涉及一种基于非负矩阵分解的质谱数据缺失值填补方法及系统。
技术介绍
质谱技术是一种与光谱技术齐名的谱学方法,它通过制备、分离以及检测气相或液相离子来鉴定化合物的一种高分辨分析技术。由于质谱技术能够提供丰富的分子结构信息,且具有高特异性和高灵敏度等特点,目前已广泛地应用于化学化工、环境能源、医药、生命以及材料科学等多个领域。基于质谱技术的代谢组学研究是指采用气相色谱(gaschromatography,GC-)或液相色谱(liquidchromatography,LC-)与质谱(massspectrometry,MS)联用技术,对生物体中参与代谢活动的内源性代谢产物进行定性定量分析,以解释机体对基因、药物和环境等刺激因素的代谢响应规律。因此,质谱中采集得到的数据质量对后续的特征代谢物识别及通路分析至关重要。事实上,从质谱仪中获得的数据通常包含一定数量的缺失值,即数据集中的某一样本的某一些元素无法识别。按照缺失值在数据集中的分布模式 ...
【技术保护点】
1.一种基于非负矩阵分解的质谱数据缺失值填补方法,其特征在于,所述方法包括:/n导入质谱数据集,对数据集矩阵进行缺失值的预填补,得到无缺失的初始数据矩阵;/n对所述无缺失的初始数据矩阵中所有元素进行对数变换,得到对数变换后的数据矩阵;/n根据所述对数变换后的数据矩阵,取一组非负矩阵分解的维度参数,分别进行非负矩阵分解,得到对应的一组重构矩阵;/n对所述重构矩阵的元素值做指数变换;/n计算所有所述指数变换后的重构矩阵与所述无缺失的初始数据矩阵之间的重构误差;/n根据所述重构误差计算得到不同重构矩阵下各自对应的权重;/n对所述重构矩阵进行加权平均,得到加权重构矩阵;/n将所述加 ...
【技术特征摘要】
1.一种基于非负矩阵分解的质谱数据缺失值填补方法,其特征在于,所述方法包括:
导入质谱数据集,对数据集矩阵进行缺失值的预填补,得到无缺失的初始数据矩阵;
对所述无缺失的初始数据矩阵中所有元素进行对数变换,得到对数变换后的数据矩阵;
根据所述对数变换后的数据矩阵,取一组非负矩阵分解的维度参数,分别进行非负矩阵分解,得到对应的一组重构矩阵;
对所述重构矩阵的元素值做指数变换;
计算所有所述指数变换后的重构矩阵与所述无缺失的初始数据矩阵之间的重构误差;
根据所述重构误差计算得到不同重构矩阵下各自对应的权重;
对所述重构矩阵进行加权平均,得到加权重构矩阵;
将所述加权重构矩阵中对应位置的元素值填补到所述数据集矩阵中的缺失位置,得到无缺失的最终数据矩阵;
基于所述无缺失的最终数据矩阵进行特征代谢物识别及通路分析。
2.根据权利要求1所述的基于非负矩阵分解的质谱数据缺失值填补方法,其特征在于,所述导入质谱数据集,对数据集矩阵进行缺失值的预填补,得到无缺失的初始数据矩阵具体包括:
导入质谱数据集,将所述质谱数据集转换为行代表代谢物分子,列代表样本的数据矩阵X=(xij)I×J;
采用缺失值所在行的均值丰度来填补缺失值,直至所述数据矩阵中所有缺失值均被填满,得到经过预填补的无缺失的初始数据矩阵。
3.根据权利要求1所述的基于非负矩阵分解的质谱数据缺失值填补方法,其特征在于,根据所述对数变换后的数据矩阵,取一组非负矩阵分解的维度参数,分别进行非负矩阵分解,得到对应的一组重构矩阵具体包括:
选取一组非负矩阵分解的维度参数k;所述参数k的具体取值为[rank(X),2*rank(X)]范围中所有的正整数,其中rank(X)表示初始数据矩阵X的秩;
对于维度参数k,其中每一个kp均采用非负矩阵分解方法对所述对数变换后的数据矩阵进行矩阵分解,得到一个基矩阵W和一个系数矩阵H;
基于所述基矩阵W和系数矩阵H确定重构矩阵
4.根据权利要求1所述的基于非负矩阵分解的质谱数据缺失值填补方法,其特征在于,所述计算所有所述指数变换后的重构矩阵与所述无缺失的初始数据矩阵之间的重构误差具体采用以下公式:
其中,(i,j)∈Ω...
【专利技术属性】
技术研发人员:许晶晶,王远山,董继扬,
申请(专利权)人:厦门大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。