数据分析装置、方法以及程序制造方法及图纸

技术编号:18610120 阅读:146 留言:0更新日期:2018-08-04 22:57
一种数据分析装置,对多个统计样本进行有关多个数据项目的多变量分析。数据分析装置(50)具备存储(52)和控制部(51)。存储部记录管理每个统计样本的多个数据项目的统计数据(X)以及示出多个统计样本所形成的组排列的顺序的组信息(Y)。控制部基于统计数据以及组信息,进行预定的运算处理。控制部基于统计数据而计算核矩阵(K),在所述核矩阵(K)中,矩阵元素表示与对应于多个统计样本内的行号的统计样本与对应于列号的统计样本之间的规定关系。控制部基于由核矩阵与组信息限定的规定条件下的偏最小二乘法进行运算处理,对多个统计样本计算分数。

【技术实现步骤摘要】
【国外来华专利技术】数据分析装置、方法以及程序
本专利技术涉及一种以统计方法进行数据分析的数据分析装置、方法以及程序。
技术介绍
在统计数据分析中,监督降维算法的1种偏最小二乘法(PLS:PartialLeastSquares)用于例如对生物体内的代谢物进行综合分析的代谢组学等多变量分析。PLS用于视觉化、回归、判别模型的构建等各种各样的目的,近年来,提出了改良PLS的方法(例如专利文献1)。专利文献1公开了作为将OSC(正交信号校正OrthogonalSignalCorrection)法应用于PLS的方法即OPLS(正交偏最小二乘法)。根据专利文献1的OPLS,在利用PLS根据输入的数据集X预测变量Y的模型中,将X中的系统变动分离为与Y正交(不相关的)变动和能够预测Y的变动。由此,在数据集X中包含的多个统计样本的变动中,与Y不相关的变动被过滤,能够得到不损害Y的预测精度而更容易解释的模型。现有技术文献专利文献专利文献1:美国专利申请公开第2003/0200040号说明书非专利文献非专利文献1:大贺拓史等人,《高血脂症模型动物中的全身性代谢异常的代谢组学分析(Metabolomicanatomyofananimalmodelrevealinghomeostaticimbalancesindyslipidaemia)》,分子生物系统(MolecularBioSystems)第7卷第4期。非专利文献2:山本博之,《PLS-ROG:群体排序的偏最小二乘法(Partialleastsquareswithrankorderofgroups)》,COBRA预印本系列(COBRAPreprintSeries),工作底稿(WorkingPaper)100,2012年10月。非专利文献3:C.Urbaniak等人,《化疗对人乳微生物群和代谢组的影响(Effectofchemotherapyonthemicrobiotaandmetabolomeofhumanmilk)》,微生物组(Microbiome),案例报告,2014年。非专利文献4:LozuponeC等人,“《UniFrac:一种新的用于比较微生物群落的系统发育方法(UniFrac:anewphylogeneticmethodforcomparativemicrobialcommunities)》”,应用和环境生物学(AppliedandEnvironmentMicrobiology),2005年。
技术实现思路
专利技术要解决的技术问题近年来在代谢组学中,报道有涉及在根据血统或投药的状态将采集了代谢物数据的多个个体(统计样本)分成几组的情况下,根据组间的特定顺序而变动的代谢物的变动模式的研究(非专利文献1)。本专利技术的目的在于提供一种能够在考虑统计样本间的组的顺序的同时进行各种数据分析的数据分析装置、方法以及程序。用于解决上述技术问题的方案本专利技术的数据分析装置对多个统计样本进行与多个数据项目有关的多变量分析。数据分析装置具备存储部和控制部。存储部记录管理每个统计样本的多个数据项目的统计数据以及示出多个统计样本所形成的组排列的顺序的组信息。控制部基于统计数据以及组信息,进行规定的运算处理。控制部基于统计数据,计算核矩阵,所述核矩阵中矩阵元素表示与多个统计样本内的行号对应的统计样本以及与列号对应的统计样本之间的规定关系。控制部基于由核矩阵与组信息限定的规定条件下的偏最小二乘法进行运算处理,对多个统计样本计算分数。专利技术效果根据本专利技术的数据分析装置,能够基于组信息在分数上反映组的顺序,同时通过核矩阵进行各种统计数据的综合分析或非线性分析。因此,能够在考虑统计样本间的组的顺序的同时进行各种数据分析。附图说明图1是用于说明实施方式1的数据分析方法的概要的图。图2是例示肝脏样本的代谢组数据的图。图3是例示心脏样本的代谢组数据的图。图4是例示脑样本的代谢组数据的图。图5是例示血浆样本的代谢组数据的图。图6是示出实施方式1的数据分析装置的构成的方块图。图7是示出数据分析装置的数据分析处理的流程图。图8是用于说明数据分析处理的图。图9是示出数据分析处理的核PLS-ROG运算处理的流程图。图10是用于说明核PLS-ROG运算处理的图。图11是例示数据分析处理的分析数据的图。图12是例示数据分析处理的显示例的图。图13是用于说明数据分析处理的分析结果的图。图14是例示核PLS分析结果的图。图15是例示核PLS-ROG分析结果的图。具体实施方式以下,参照附图对本专利技术的数据分析装置、方法以及程序的实施方式进行说明。另外,在以下的各实施方式中,对同样的构成要素赋予相同的附图标记。(实施方式1)1.概要参照图1~图5对本专利技术的实施方式1的数据分析方法的统计分析的概要进行说明。图1是用于说明本实施方式的数据分析方法的概要的图。以下对本数据分析方法应用于代谢组学的例子进行说明。代谢组学是综合分析生物体内的低分子的代谢物(分子量大约1000以下的化合物)的研究领域。在图1(a)中,示出了分析对象的统计样品(个体)为兔子的例子。在代谢组学中,用各种各样的分析装置测量动物的组织或微生物的细胞、人类的血液或尿等的生物样本(试样),对样本所包含的代谢物的浓度进行分析。记录所测量的各种各样的代谢物的浓度的值的代谢组数据,例如以如下n行p列的数据矩阵X的形式表示。[数学式1]在此,n为样本尺寸(个体数),p为所测量的代谢物的数量(测量项目数)。上式(1)每1行记录与行号对应的个体所测量的p个代谢物的测量数据(统计数据)。图2~图5所示为数据矩阵X的例子。图2~图5是根据9只兔子分别对肝脏、心脏、脑、血浆样本进行分析,并测量各自的代谢物的代谢组学的例子。图2所示为肝脏样本的数据矩阵X(L)。图3所示为心脏样本的数据矩阵X(H)。图4所示为脑样本的数据矩阵X(B)。图5所示为血浆样本的数据矩阵X(P)。另外,图中“’”意味着矩阵的转置(以下相同)。图2~图5例示的代谢组数据使用毛细管电泳-飞行时间质谱仪对9个个体各自的肝脏、心脏、脑、血浆样本进行了测量。例如,图2的“样本1”一列的数据示出了测量9个个体中第1只兔子的肝脏的代谢物的测量数据x1(L)。虽然省略了图示,但各生物体样本检测出的代谢物的数量分别为:在肝脏170,在心脏161,在脑159,在血浆129。如上述例子所述,代谢组学中包含这数百至数千的代谢物的测量数据。因此,难以在视觉上显现出代谢组数据上的各样本的行为(例如在正常老鼠和疾病模型老鼠为分析对象的情况下,这些肝脏样本的代谢组数据中会产生怎样的差异)。因此,通过多变量分析基于多变量生成分数,使用分数的散布图视觉上显现样本的行为。如图1(b)所示,使用该散布图,能够进行确认样本间的关联性(例如,正常老鼠与疾病模型老鼠这两组间的差异等)等。在此,在图1~图5所示例子中,样本编号第1~3的个体为野生的兔子,第4~9的个体为WHHL兔子(高血脂症模型兔子)。此外,在编号第4~9中,第3~6的WHHL兔子被给予了他汀类药物,第7~9的WHHL兔子未被给予他汀类药物。因此,在本例中,存在第1~3的个体、第4~6的个体和第7~9的个体的分别聚集的3个组。在如上所述的情况下,如果得到3个组按照规定的顺序排列的分数,则对于与该顺序关联的生本文档来自技高网
...

【技术保护点】
1.一种数据分析装置,对多个统计样本进行有关多个数据项目的多变量分析,具备:存储部,记录管理每个所述统计样本的所述多个数据项目的统计数据以及表示多个统计样本所形成的组排列的顺序的组信息;控制部,基于所述统计数据以及所述组信息,进行规定的运算处理,所述控制部基于所述统计数据而计算核矩阵,所述核矩阵中,矩阵元素表示与所述多个统计样本内的行号对应的统计样本以及与列号对应的统计样本之间的规定关系,基于由所述核矩阵与所述组信息限定的规定条件下的偏最小二乘法进行运算处理,对所述多个统计样本计算分数。

【技术特征摘要】
【国外来华专利技术】2015.11.26 JP 2015-2308621.一种数据分析装置,对多个统计样本进行有关多个数据项目的多变量分析,具备:存储部,记录管理每个所述统计样本的所述多个数据项目的统计数据以及表示多个统计样本所形成的组排列的顺序的组信息;控制部,基于所述统计数据以及所述组信息,进行规定的运算处理,所述控制部基于所述统计数据而计算核矩阵,所述核矩阵中,矩阵元素表示与所述多个统计样本内的行号对应的统计样本以及与列号对应的统计样本之间的规定关系,基于由所述核矩阵与所述组信息限定的规定条件下的偏最小二乘法进行运算处理,对所述多个统计样本计算分数。2.如权利要求1所述的数据分析装置,所述存储部管理所述统计数据中的每个所述统计样本的多个种类的测量数据,所述控制部生成与所述每个种类的测量数据有关的核矩阵,基于所述每个种类的核矩阵的平均,计算整合后的核矩阵。3.如权利要求1或权利要求2所述的数据分析装置,所述规定的关系由核函数限定,所述核函数基于所述统计数据内的与所述行号对应的统计样本有关的数据和与所述列号对应的统计样本有关的数据而得到。4.如权利要求1~3中的任一项所述的数据分析装置,所述分数根据所述组信息所示出的组的顺序而增加或者减少。5.如权利要求1~4中的任一项所述的数据分析装置,所述控制部分析所述统计数据中的每个数据项目的数据与计算的分数之间的相关性。6...

【专利技术属性】
技术研发人员:山本博之
申请(专利权)人:福满代谢组技术有限公司
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1