数据解析装置及方法制造方法及图纸

技术编号:2861328 阅读:144 留言:0更新日期:2012-04-11 18:40
在确定生物体的状态和多个基因表达量和/或细胞内物质的量的相关模型的数据解析中,以生物体的状态或随时间概率性发生的生物体的状态的变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量的数据集合中,选择包含在数据中的说明变量,对于含有选择的说明变量和目的变量的相关模型计算交互验证成绩,评价判定其结果。这里通过进行说明变量的选择、交互验证成绩的计算、其结果的评价判定,直到交互验证成绩不再改善,确定部分最小二乘法模型。由此提供多变量的基因表达信息的有效的信息处理。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种生物体的状态和基因表达量和/或细胞内物质的量的多变量解析处理和可以以此为基础的测定机械材料、检验方法等。
技术介绍
自2000年6月发布的人类基因组的解读宣言以来,可以说已经跨入了阐明基因组中所写的遗传信息如何发现、并起着怎样的作用的后基因组时代。在人类基因组计划的进展中,也发展了测定基因组表达状态的方法论。已知转录组(mRNA)的测定方法有寡核苷酸阵列及微型芯片。另外在蛋白质组(蛋白质)测定方法中,在以前的2维电泳基础上,最近发展了质量分析的方法。抗体芯片等先进的技术也正受到人们的关注。与迄今为止的在短时间内可很快测定生物体的状态参数的技术相比较,可以说这些测定技术是具有划时代意义的。有效测定基因表达状态的技术例如有如下几种。已知指定转录组(mRNA的总体)的技术是在基底装载多种DNA,检测与其互补的mRNA的DNA芯片。在代表性的DNA芯片中存在基因芯片和DNA微阵列。另外,在测定蛋白质组(蛋白质的总体)的过程中有使用2维电泳、抗体芯片、质谱技术的。另外,尝试利用质量分析等测定代谢物组(包含代谢中间体的代谢产物的总体)的方法也得到了发展。为了通过基因产物的测定更好地描述生物体内的细胞状态,即使在现在这样诊断标记物信息不足的情况下,人们依然期待着可以更高精度地进行诊断。例如有如下的研究工作。P.O.Brown等利用DNA芯片测定淋巴肿瘤患者的细胞中的转录组,通过群集分析将恶性和良性的淋巴肿瘤(DLBCL)分成特定群集(Nature 403(3),503-11(2000))。但是,这不是一种获得因果关系(相关关系)的模型,不能判断某个基因起着何等重要的作用。A.Alaiya等利用2维电泳测定40位子宫癌患者细胞中的转录组,利用其中22位的数据构建部分最小二乘法诊断模型,说明恶性度(Int.J.Cancer,86,731-36(2000)Electrophoresis,21,210-17(2000);国际公开WO 00/70340)。当时在全变量模型中,通过从153个变量限定到装载(loading)的大的170个变量,使交互验证成绩变好(Q2=0.84),以11/18的比率正确回答剩余的18位患者的患病深度(3阶段)。表明了交互验证法作为模型构建时的指标的思路。但是,在该方法中,得到装载时必须首先成立全变量模型。另外,还没有考察其它的变量选择方法。J.Khan等利用DNA芯片测定小儿癌患者的细胞,通过神经网络说明了恶性度(nature Medicine,7(6),673-79(2001))。测定小儿癌(SRBCT)患者88人的转录组(6567基因),利用其中63人的数据采用主成分分析进行10维压缩,然后,构建人工神经网络诊断模型。这里,利用交互验证法缩进具有影响力的主基因,以96基因得到了最佳成绩(100%)。利用该模型预测剩余的25人,得到93~100%的结果。但是,采用该方法在获得影响力时首先必须成立全变量模型。另外,还没有考察除此之外的变量选择方法。尽管可以处理10维这样少变量的情况,但是,不能应用于变量数再大的场合。另外,最近由D.M.Rocke和D.V.Nguyen报告了使用部分最小二乘法解析DNA芯片的研究(国际公开WO 02/25405;Bioinformatics 18(1),39-50(2002);Bioinformatics 18(9),1216-26(2002);Bioinformatics 18(12),1625-32(2002))。报告显示在使用部分最小二乘法的潜在变量作为线形判断分析等多变量解析的说明变量的情况下,可以得到良好的结果。这是由于部分最小二乘法是一种可以同时进行维数压缩和模型拟合的方法,因而是可能的。在报告显示的实施例中,显示部分最小二乘法作为构建DNA芯片信息的模型方法是优越的。但是,报告中没有触及选拔重要的基因表达量的方法的最小二乘法的应用,完全使用事先的前处理而选择的说明变量进行解析,在这一点上存在着和上述的A.Alaiya等的研究相同的问题。即使在现有的诊断标记物信息不足的情况下,人们依然期待着通过灵活使用遗传发现信息,可以更高精度(分辨率)地进行诊断。基因表达状态的测定结果具有的特征是可以得到前所未有的庞大的信息量,相反由于信息量多,不进行有效的数据处理就不能灵活使用数据。因此,为了获得有用的知识,有效的信息处理是必不可少的。如前所述,现实情况中主要采用群集解析方法,但是,也可以采用主成分分析等的方法。群集解析和主成分分析由于不是附带教师的学习方法,故不能得到与病状有因果关系(相关关系)的模型。也就是难点在于从解析结果不能得到某种基因所起作用的重要程度。另一方面,尽管部分最小二乘法是一种同时进行维数压缩和模型拟合的强大的多变量解析方法,但是面临的现状是在变量数庞大的情况下常常不能得到显著的结果。因此,希望进行有效的信息处理,从庞大的基因表达信息等中可以获得有用的知识。另外,期待着得到以所述的信息处理的结果为基础的有效的测定机械材料、检验处理等。
技术实现思路
(专利技术欲解决的问题)本专利技术的目的在于提供多变量的基因表达信息、细胞内物质信息的有效的信息处理。另外,本专利技术的目的在于提供有效的检验处理。(解决方法)本专利技术涉及的数据解析装置是以生物体的状态或随时间概率性发生的生物体的状态变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量,确定相关模型的数据解析装置,该装置包括输入装置,输入生物体的状态或导出该状态的数据或者随时间概率性发生的生物体的状态的变化相关的数据,和由多个基因表达量和/或细胞内物质的量构成的样品的集合;和(1)选择说明变量的选择装置,(2)执行部分最小二乘法计算交互验证成绩的计算装置,或者使上述生物体的状态的变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,将得到的概率进行假定分布条件下的变换或者没有假定为前提条件下的变换,将该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算装置,(3)评价上述(2)的计算装置的结果,判断说明变量的采用、不采用的评价判断装置,(4)执行上述(1)的选择装置和上述(2)的计算装置和上述(3)的评价判断装置,不断改善以部分最小二乘法模型的至少具有交互验证成绩为独立变量的函数,确定部分最小二乘法模型的确定装置。选择装置例如逐次取舍选择说明变量,并使用遗传性运算法则选择说明变量。计算装置例如逐次排除1个样品,或者逐次排除多个样品,执行部分最小二乘法计算交互验证成绩。评价判定装置例如从计算装置的结果求得由各计算中排除的样品的基因表达显示所预测的生物体状态的目的变量值,和显示前述排除的样品的生物体状态的目的变量值的误差的代表值,在该误差的代表值小的情况下,判定该交互验证成绩得到了改善,在取舍选择说明变量的同时,反复评价判定交互验证成绩。或者也可以使用不是交互验证成绩,至少以部分最小二乘法模型的交互验证成绩为独立变量的函数是否得到改善为评价判定的基准。确定装置例如反复执行选择装置和计算装置和评价判定装置,不断改善部分最小二乘法模型的交互验证成绩,确定部分最小二乘法模型。另外,也可以通过多个计算机执行本文档来自技高网
...

【技术保护点】
一种数据解析装置,该装置确定以生物体的状态或随时间概率性发生的生物体的状态变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量的相关模型,其特征在于,该数据解析装置包括:输入装置和确定装置,其中输入装置输入生物体的状态或导 出该状态的数据或者随时间概率性发生的与生物体的状态变化相关的数据,和由多个基因表达量和/或细胞内物质的量构成的样品的集合;确定装置,该装置包括:(1)选择说明变量的选择装置,(2)执行部分最小二乘法,计算交互验证成绩的计算装置,或者将前述生物体的状态变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者没有假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算装置,(3)评价上述(2)的计算装置的结果,判断说明变量的采用、不采用的评价判断装置,并且,(4)执行前述(1)的选择装置和前述(2)的计算装置和前述(3)的评价判断装置,不断改善以部分最小二乘法模型的至少交互验证成绩为独立变量的函数,确定部分最小二乘法模型。...

【技术特征摘要】
JP 2002-4-4 102743/2002;JP 2002-12-4 352645/20021.一种数据解析装置,该装置确定以生物体的状态或随时间概率性发生的生物体的状态变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量的相关模型,其特征在于,该数据解析装置包括输入装置和确定装置,其中输入装置输入生物体的状态或导出该状态的数据或者随时间概率性发生的与生物体的状态变化相关的数据,和由多个基因表达量和/或细胞内物质的量构成的样品的集合;确定装置,该装置包括(1)选择说明变量的选择装置,(2)执行部分最小二乘法,计算交互验证成绩的计算装置,或者将前述生物体的状态变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者没有假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算装置,(3)评价上述(2)的计算装置的结果,判断说明变量的采用、不采用的评价判断装置,并且,(4)执行前述(1)的选择装置和前述(2)的计算装置和前述(3)的评价判断装置,不断改善以部分最小二乘法模型的至少交互验证成绩为独立变量的函数,确定部分最小二乘法模型。2.如权利要求1所述的数据解析装置,其特征在于,目的变量为生物体的状态,利用前述输入装置输入的数据是生物体的状态或导出该状态的数据,前述(2)的计算装置是执行部分最小二乘法计算交互验证成绩的计算装置。3.如权利要求1所述的数据解析装置,其特征在于,目的变量是随时间概率性发生的生物体的状态变化,利用前述输入装置输入的数据是随时间概率性发生的生物体状态变化相关的数据,前述(2)的计算装置是将前述生物体的状态变化相关数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者未假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算装置。4.如权利要求1、2或3的任一项所述的数据解析装置,其特征在于,设有最终模型确定装置,该装置使用在由前述确定装置确定的部分最小二乘法模型中采用的说明变量或该模型的潜在变量,构建统计学方法或多变量解析方法依据的模型。5.如权利要求1~4任何一项所述的数据解析装置,其特征在于,在前述选择装置中逐次取舍选择说明变量。6.如权利要求1~4任何一项所述的数据解析装置,其特征在于,在前述选择装置中使用遗传性运算法则选择说明变量。7.如权利要求1~6任何一项所述的数据解析装置,其特征在于,在前述计算装置中逐次排除1个样品,执行部分最小二乘法,计算交互验证成绩。8.如权利要求1~6任何一项所述的数据解析装置,其特征在于,在前述计算装置中逐次排除多个样品,执行部分最小二乘法,计算交互验证成绩。9.如权利要求7或8所述的数据解析装置,其特征在于,在前述计算装置中,求得表示由各计算中排除的基因表达预测的生物体状态的目的变量值,和显示前述排除的样品的生物体状态的目的变量值相关的误差的代表值,使用该误差作为交互验证成绩的指标。10.如权利要求1~9任何一项所述的数据解析装置,其特征在于,前述函数为交互验证成绩。11.如权利要求1~9任何一项所述的数据解析装置,其特征在于,所述函数是交叉验证成绩与选择的说明变量个数相关的函数。12.如权利要求5所述的数据解析装置,其特征在于,在前述确定装置中,在改善至少具有交互验证成绩为独立变量的函数的同时,反复进行评价判定。13.如权利要求1~12任何一项所述的数据解析装置,其特征在于,用多个计算机执行所述(1)的选择装置和前述(2)的计算装置。14.一种数据解析装置,其特征在于,该装置由对权利要求1、2、3和4确定的相关模型和预测对象的样品输入该模型中所采用的说明变量的输入装置,和根据输入的该说明变量预测判断该样品的生物体的状态的预测判断装置构成。15.如权利要求2所述的数据解析装置,其中,设置用名义尺度、顺序尺度或连续量表现生物体状态的目的变量。16.如权利要求2或4所述的数据解析装置,其特征在于,最终模型确定装置使用的前述统计学方法或多变量解析方法,是比例风险法或融入参数的分布中的回归分析法。17.一种数据解析方法,该方法确定以生物体的状态或随时间概率性发生的生物体状态变化为目的变量,以多个基因表达量和/或细胞内物质的量为说明变量的相关模型,其特征在于,包括输入步骤,该输入步骤输入生物体的状态或导出该状态的数据或者随时间概率性发生的与生物体状态变化相关的数据,和由多个基因表达量和/或细胞内物质的量构成的样品的集合;和(1)选择说明变量的选择步骤;(2)执行部分最小二乘法,计算交互验证成绩的计算步骤,或者将前述生物体的状态变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行假定分布条件下的变换或者未假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算步骤;(3)评价前述(2)的计算步骤的结果,判断说明变量的采用、不采用的评价判断步骤;和(4)执行前述(1)的选择步骤和前述(2)的计算步骤和前述(3)的评价判断步骤,不断改善以部分最小二乘法模型的具有至少交互验证成绩为独立变量的函数,确定部分最小二乘法模型的确定步骤。18.如权利要求17所述的数据解析方法,其特征在于,目的变量为生物体的状态,利用前述输入步骤输入的数据是生物体的状态或导出其状态的数据,前述(2)的计算步骤是执行部分最小二乘法计算交互验证成绩的计算步骤。19.如权利要求17所述的数据解析方法,其特征在于,目的变量是随时间概率性发生的生物体状态变化,利用前述输入步骤输入的数据是随时间概率性发生的生物体状态变化相关的数据,前述(2)的计算步骤是将前述生物体状态变化相关的数据应用Kaplan-Meier法或Cutler-Ederer法所依据的生命表,计算不发生变化的数据的概率,使得到的概率进行在假定分布条件下的变换或者未假定前提的条件下的变换,以该变换结果作为目的变量,执行部分最小二乘法,从而计算交互验证成绩的计算步骤。20.如权利要求17、18或19所述的数据解析方法,其特征在于,设有最终模型确定步骤,使用在由前述确定步骤确定的部分最小二乘法模型中采用的说明变量或该模型的潜在变量,构建统计学方法或多变量解析方法依据的模型。21.如权利要求17~20任何一项所述的数据解析方法,其特征在于,在前述选择步骤中逐次取舍选择说明变量。22.如权利要求17~22任何一项所述的数据解析方法,其特征在于,在前述选择步骤中使用遗传性运算法则选择说明变量。23.如权利要求1~6任何一项所述的数据解析方法,其特征在于,在前述计算步骤中逐次排除1个样品,执行部分最小二乘法,计算交互验证成绩。24.如权利要求17~22任何一项所述的数据解析方法,其特征在于,在前述计算步骤中逐次排除多个样品,执行部分最小二乘法,计算交互验证成绩。25.如权利要求23或24所述的数据解析方法,其特征在于,在前述计算步骤中求得表示由各计算中排除的基因表达预测的生物体状态的目的变量值,与显示前述排除的样品的生物体状态的目的变量值的误差的代表值,使用该误差作为交互验证成绩的指标。26.如权利要求17~25任何一项所述的数据解析方法,其特征在于前述函数为交互验证成绩。27.如权利要求17~25任何一项所述的数据解析方法,其特征在于,所述函数是交互验证成绩与选择的说明变量个数的函数。28.如权利要求21所述的数据解析方法,其特征在于,在前述确定步骤中,在改善至少具有交互验证成绩为独立变量的函数的同时反复进行评价判定。29.如权利要求17~28任何一项所述的数据解析方法,其特征在于,用多个计算机执行所述(1)的选择步骤和前述(2)的计算步骤。30.一种数据解析方法,其特征在于,该方法由...

【专利技术属性】
技术研发人员:石川俊夫久米隆志
申请(专利权)人:石原产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利