质谱分析数据解析装置及解析方法制造方法及图纸

技术编号:21175287 阅读:26 留言:0更新日期:2019-05-22 11:48
目的在于,在通过使用针对从被检者采集的试样的质谱数据进行机器学习来进行癌判定时,确保其与并行实施的基于肿瘤标志物检查的判定的独立性,提高相互诊断的可靠性。事先将源自肿瘤标志物等在其它检查中利用的物质的离子的m/z值存储到关注m/z值DB(31),谱信息过滤部(22)从根据有癌和无癌被分类的多个质谱中删除关注m/z值DB(31)中存储的m/z值的信号强度。学习处理部(23)以该删除后的数据为学习数据来求出学习结果信息,并保存到学习结果DB(32)。对于针对判定对象的目标试样的质谱数据,也同样地删除规定的m/z值的信号强度,然后,判定处理部(24)基于学习结果DB(32)中保存的学习结果信息来判定分类到有癌和无癌中的哪一个类。

Data Analysis Device and Method for Mass Spectrometry

The aim of this study is to ensure the independence of the mass spectrometry data collected from the samples collected by the examinees and the concurrent implementation of the cancer marker-based diagnosis, and to improve the reliability of the mutual diagnosis. The m/z values of ions derived from tumor markers and other substances used in other examinations are stored in DB (31) of concern m/z value in advance. The spectral information filter (22) deletes the signal intensity of m/z values stored in DB (31) of concern m/z value from multiple mass spectra classified according to cancer and non-cancer. The learning processing unit (23) takes the deleted data as the learning data to obtain the learning result information and saves it to the learning result DB (32). For the mass spectrometry data of the target sample, the signal intensity of the prescribed m/z value is also deleted. Then, the decision processing unit (24) determines which category is classified into cancer and non-cancer based on the learning result information stored in the learning result DB (32).

【技术实现步骤摘要】
【国外来华专利技术】质谱分析数据解析装置及解析方法
本专利技术涉及对由质谱分析装置得到的数据进行解析的数据解析装置及解析方法,更详细而言,涉及对针对特定疾病的诊断或检查、农产品和水产品等的产地的真伪判定、假药或假币等的判定等各种领域中的试样的检查及判定有用的质谱分析数据解析装置及解析方法。
技术介绍
伴随近年的质谱分析技术的迅速发展,进行了如下的尝试:对从被检者采集的生物体试样(血液、尿、唾液、或生物体组织的一部分等)进行质谱分析,对于由此得到的数据进行数据解析,从而进行癌等特定疾病的诊断。例如本申请人等的专利文献1中记载了以下内容:将作为统计机器学习的一个方法的dPLRM(双惩罚逻辑回归机;dualPenalizedLogisticRegressionMachine)应用于对生物体试样进行质谱分析而收集到的质谱数据,来进行癌的判定。通过像这样使用统计机器学习的方法而不使用通常的多变量分析,能够从庞大量的复杂数据中提取极微小的差异,基于这种差异,能够提高癌/非癌的判定精度。这种统计机器学习已经或逐渐应用于如上所述的疾病的诊断、以及语音识别、字符识别、面部识别等图像识别、各种产品的真伪判定等各种各样的领域。这种统计机器学习的算法中,大致分为监督学习和无监督学习,监督学习是常规的。在监督机器学习中,通常以预先提供的被分类到多个类中的多个数据为学习数据,来学习上述多个类的界限,对于新数据,基于学习结果来判定分类到哪一个类。例如在专利文献1中记载的装置中,多个类是指癌症患者的类和健康者(或非癌症患者)的类。在以下的说明中,将监督机器学习简称为机器学习。在如上所述的机器学习中,若作为判定对象的新数据与多个学习数据中的某一个学习数据完全相同,则图案的匹配简单且准确。然而,在大部分情况下,在数据获取时存在统计误差、噪音等,而且在试样为源自生物体的试样的情况下,试样自身的个体差较大,因此有时即使在一个类中数据也存在相当大的波动。因此,为了使分隔多个类的界限不受数据波动的影响,需要在学习数据中包含充足的数量和幅度的波动的信息。通常在机器学习中,考虑学习数据的数量、获取学习数据的被检体的偏差的范围等,使得不受这种数据的波动的影响。另外,在机器学习中,通常以使获取学习数据时的数据获取条件与获取作为判定对象的数据时的数据获取条件相同为前提,因此在数据获取时以尽可能相同的条件进行测定。此外,在癌等严重疾病或疾患的筛查和临床诊断中,当然是要求高的准确性和可靠性。因此,一般来说,除了基于如上所述的将质谱分析与机器学习相组合的方法的判定结果之外,医生等还对基于肿瘤标志物等标志物检查、X射线图像诊断、MRI等图像诊断等多种诊断方法的判定结果进行综合判定来下结论。在像这样基于多个判定结果来做出最终的判断的情况下,期望该多个判定结果分别是基于不同的要素的判定结果,即判定结果的独立性高。这是因为,例如即使在通过某两个不同的方法进行检查或判定的情况下,若该检查或判定的对象的要素相同,则在通过一个方法判断为是癌的可能性高时,通过另一个方法也必然应该同样地判断为是癌的可能性高,实质上不会通过两个不同的方法做出判定。例如,通过利用由质谱分析装置得到的质谱进行机器学习来提取癌与非癌的差异从而进行癌/非癌的判定的情况下,源自表征癌的标志物分子的离子的量的变化也包含在学习结果中的可能性高。因此,存在以下问题:基于这种学习结果的癌的判定与以这些标志物分子为目标的肿瘤标志物检查不能说彼此独立,难以确保将它们相组合的诊断的准确性和可靠性。另外,由于以下那样的各种因素,有时在学习时与判定时产生远远超过由被检体的个体差导致的数据波动范围的变动,或有时难以使学习数据与判定对象的数据的数据获取条件一致,这成为降低判定的准确性的一个原因。(1)通常在癌的治疗过程中对癌症患者施用各种抗癌药等药剂,但在学习数据中出现的由这种治疗引起的生物体组织的变化有可能被错误地学习为源自癌的组织变化。(2)与(1)相反地,基于学习结果来判定从施用了不包含在学习数据中的新抗癌药的患者得到的数据的情况下,当在质谱上的产生了由癌、非癌导致的差异的质荷比的附近偶然存在源自新抗癌药的峰时,有可能将其误判定为源自癌/非癌的组织变化。同样地,当在用于判定癌/非癌的数据中存在不包含在学习数据中的源自混入物或异物的峰时,有可能将其误判定为源自癌/非癌的组织变化。另外,有时在作为判定对象的试样中添加内标物质,但源自内标物质的峰也有可能被误判定为源自癌/非癌的组织变化。(3)源自癌症患者及源自健康者的生物体试样通常由医院等医疗机构采集并测定,但难以在每个这种机构中都以同样的步骤和品质进行试样的采集/测定。因此,每个这种机构之间的偏差表现为特定质荷比下的信号强度的差异,有可能将其误判定为癌/非癌的差异。如上所述,在获取判定对象数据时的数据获取条件不同于获取学习数据时的数据获取条件的情况、或者在获取学习数据时至获取判定对象数据时的期间内被检体发生了远远超过由被检体的个体差导致的波动范围的变动的情况下,原本期望重新采集学习数据,使用新获得的学习数据重新进行机器学习。然而,再次采集并测定符合目标的多个生物体试样是非常费力和耗时的作业,在大多情况下这实质上是不可能的。另外,虽然对于如上所述的问题,由试样为源自生物体的试样引起的因素特别大,但是同样或类似的问题在疾病诊断等以外的领域也可能会发生。专利文献1:日本特开2014-44110号公报
技术实现思路
专利技术要解决的问题本专利技术是为了解决上述课题而做出的,其第一目的在于提供质谱分析数据解析装置及解析方法,即使在学习数据中包含也被利用于机器学习以外的其它判定方法的信息的情况下,也能够使基于机器学习的判定和基于上述机器学习以外的其它判定方法的判定相互间以高独立性来进行,由此能够确保判定的准确性和可靠性。另外,本专利技术的第二目的在于提供质谱分析数据解析装置及解析方法,即使在获取学习数据时的数据获取条件与获取判定对象数据时的数据获取条件不同的情况、或者在获取学习数据时至获取判定对象数据时的期间内发生了与有助于分类到多个类的被关注的差异不同的可能造成妨碍的变化的情况下,也不受这种数据获取条件的不同和变化的影响,且无需进行学习数据的再次获取,就能够通过机器学习进行准确的判定。用于解决问题的方案为了实现上述第一目的和第二目的而做出的本专利技术所涉及的质谱分析数据解析方法使用学习结果信息,基于针对目标试样进行质谱分析所得到的质谱数据来将该目标试样分类,所述学习结果信息是以针对被分类到多个类中的多个试样分别进行质谱分析所得到的质谱数据为学习数据来执行规定的机器学习从而求出的,所述质谱分析数据解析方法包括以下步骤:a)学习数据过滤步骤,针对作为所述学习数据而被提供的多个质谱数据中的各个质谱数据,进行将预先设定的一个或多个质荷比或质荷比范围的信号强度信息删除或修改该信号强度信息的权重的处理;b)学习执行步骤,使用在所述学习数据过滤步骤中进行处理后的学习数据,来执行所述机器学习,制作并存储学习结果信息;c)目标数据过滤步骤,对于针对目标试样得到的质谱数据,执行与所述学习数据过滤步骤同等的处理;以及d)判定执行步骤,基于在所述目标数据过滤步骤中进行处理后的质谱数据,使用在所述学习执行步骤中存储的学习结果信息,来判定所本文档来自技高网
...

【技术保护点】
1.一种质谱分析数据解析方法,使用学习结果信息,基于针对目标试样进行质谱分析所得到的质谱数据来将该目标试样分类,所述学习结果信息是以针对被分类到多个类中的多个试样分别进行质谱分析所得到的质谱数据为学习数据来执行规定的机器学习从而求出的,所述质谱分析数据解析方法的特征在于,包括以下步骤:a)学习数据过滤步骤,针对作为所述学习数据而被提供的多个质谱数据中的各个质谱数据,进行将预先设定的一个或多个质荷比或质荷比范围的信号强度信息删除或修改该信号强度信息的权重的处理;b)学习执行步骤,使用在所述学习数据过滤步骤中进行处理后的学习数据,来执行所述机器学习,制作并存储学习结果信息;c)目标数据过滤步骤,对于针对目标试样得到的质谱数据,执行与所述学习数据过滤步骤同等的处理;d)判定执行步骤,基于在所述目标数据过滤步骤中进行处理后的质谱数据,使用在所述学习执行步骤中存储的学习结果信息,来判定所述目标试样属于多个类中的哪一个类。

【技术特征摘要】
【国外来华专利技术】1.一种质谱分析数据解析方法,使用学习结果信息,基于针对目标试样进行质谱分析所得到的质谱数据来将该目标试样分类,所述学习结果信息是以针对被分类到多个类中的多个试样分别进行质谱分析所得到的质谱数据为学习数据来执行规定的机器学习从而求出的,所述质谱分析数据解析方法的特征在于,包括以下步骤:a)学习数据过滤步骤,针对作为所述学习数据而被提供的多个质谱数据中的各个质谱数据,进行将预先设定的一个或多个质荷比或质荷比范围的信号强度信息删除或修改该信号强度信息的权重的处理;b)学习执行步骤,使用在所述学习数据过滤步骤中进行处理后的学习数据,来执行所述机器学习,制作并存储学习结果信息;c)目标数据过滤步骤,对于针对目标试样得到的质谱数据,执行与所述学习数据过滤步骤同等的处理;d)判定执行步骤,基于在所述目标数据过滤步骤中进行处理后的质谱数据,使用在所述学习执行步骤中存储的学习结果信息,来判定所述目标试样属于多个类中的哪一个类。2.根据权利要求1所述的质谱分析数据解析方法,其特征在于,通过一并使用基于与该解析方法不同的其它方法的判定结果,来断定所述目标试样被分类到所述多个类中的哪一个类中,将源自以下化合物的离子的质荷比或质荷比范围设为所述预先设定的一个或多个质荷比或质荷比范围:作为所述其它方法中的测定或检查的对象的一个或多个化合物。3.根据权利要求2所述的质谱分析数据解析方法,其特征在于,所述其它方法为以特定化合物为标志物来进行测定或检查的方法,将源自以下化合物的离子的质荷比或质荷比范围设为所述预先设定的一个或多个质荷比或质荷比范围:作为该标志物的化合物、和/或、该化合物的代谢物、和/或、在该化合物代谢时受到影响的生物体内分子。4.根据权利要求1所述的质谱分析数据解析方法,其特征在于,将源自以下化合物的离子的质荷比或包含该质荷比的规定幅度的质荷比范围设为所述预先设定的一个或多个质荷比或质荷比范围:预计质谱上的信号强度在基于学习数据的学习时与目标试样的判定时产生较大差异的一个或多个化合物。5.根据权利要求4所述的质谱分析数据解析方法,其特征在于,所述试样为源自生物体的试样,将源自以下化合物的离子的质荷比或包含该质荷比的规定幅度的质荷比范围设为所述预先设定的一个或多个质荷比或质荷比范围:施用于该生物体或有可能施用于该生物体的药剂、该药剂的代谢...

【专利技术属性】
技术研发人员:出水秀明梶原茂树
申请(专利权)人:株式会社岛津制作所
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1