使用偏最小二乘分析(PLS-树)分级地组织数据制造技术

技术编号:5468790 阅读:196 留言:0更新日期:2012-04-11 18:40
一种在相对短的处理时间内分割(分集)大量数据的系统和方法。该方法包括提供第一数据矩阵和第二数据矩阵,其中第一和第二数据矩阵中的每一个包括一个或多个变量以及多个数据点。该方法还包括使用偏最小二乘(PLS)分析或正交PLS(OPLS)分析从第一数据矩阵确定第一得分,并基于分类的第一得分、第一数据矩阵的方差以及第一和第二组的方差相对于第一和第二数据矩阵的方差的关系将第一和第二数据矩阵(逐行地)分割成第一组和第二组。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及大数据集的分析,尤其涉及使用简称为PLS-树的偏最小二乘分 析分级地组织和分析数据。背景在许多工业中,在制造和研究、开发领域采集非常大的数据集。在半导体器件制造业内,器件制造者已设法依靠加工工具制造者设计出更好和/ 或更快的工艺和硬件配置而过渡至更精密公差的工艺和材料规格。然而,随着器件几何尺 寸缩至纳米级别,制造工艺的复杂度增加,并且工艺和材料规格变得更加难以满足。用于当前半导体制造的典型加工工具可以用一组几千个工艺变量来描绘。这些变 量一般关联于制造工艺的物理参数和/或用于制造工艺的工具。在一些情形下,几千个变 量中的几百个变量将是动态的(例如在制造过程中或多个制造过程之间随时间而变化)。 诸如气流、气压、输出功率、电流、电压和温度的动态变量例如基于特定加工方法、加工步骤 总顺序中的特定步骤或一系列步骤、制造工艺中发生的误差和故障或基于使用特定工具或 腔室的参数值的改变(也称为“漂移”)而变化。工艺变量频繁地涉及产量或响应变量。工艺变量可认为是产量变量基于这些变量 间的潜在关系的预示或指标。在制造工艺中测量和存储工艺和产量变量的数据指示,用于 实时分析或稍后分析。同样,在制药和生物技术产品中,例如美国食品和药品署的管理机构要求制造工 艺遵循严密规范,使高质量产品在规定质量曲线周围具有非常小的变动。这些规格需要在 线测量工艺变量和附加多维传感器技术,例如工艺气相色谱法、近红外光谱法以及质谱法。 理想地,在制造工艺中测得的数据可用于实时分析,以提供关于工艺条件如何接近工艺标 准的指示或信息。在制药和生物技术研究和研发中,许多不同的分子——通常几万或更多——在探 寻和优制新药的过程中被研究。对每个分子要测量和/或计算许多不同的物理和生物特性 (例如可能的药物候选性),并对每个分子计算许多理论上的结构关联特征。针对每个分子 确定的变量值总数经常超过几千(例如超过2000个变量值)。一部分研发过程包括一方面 寻找生物特征另一方面寻找物理、化学和理论计算出的结构关联特征之间的关系。对这些 关系的理解有助于研究人员修改有前途分子的化学结构以使其向具有改善的生物特征曲 线的新分子转变。在大数据集中,数据经常被编组在一起,从而导致群集的数据。为了对该数据进行 有意义的分析,同质或非编组的数据之间的比较是优选的。因此,算法已演化为将成编组的 信息群集成同质的子组。一种分析编组数据的方法是对数据使用线性回归分析的变型(例如有时被称为 “回归树”或“分级和递归树”或“CART”)。回归树分析涉及基于各X变量或X变量组合的 一系列数据分割。数据可被分割的可能方法的数目随着观察到的变量数而快速增加。为此, 回归树通常适用于仅具有少量变量的数据集,并且回归树分析通常止于变量大于10-20个的数据集就中止,这部分因为计算开销。基于回归树分析的结果,数据被编组成树或分支组 织,有时被称为树状图。一种类型的分级数据群集基于主要组成分析(PCA)。这类技术包括对每个分级层 面将一数据集投射到PCA分析的第一主组成轴上。投射数据因此沿第一主组成轴单向地对 齐,并且该数据在第一主组成轴的中间位置附近被分割。这种分割或群集被递归地迭代,直 到群集元之间的最大距离超过预定(例如用户定义的)阈值为止。如同CART分析,基于 PCA的分析对大数据集来说相对较慢。又一缺点是基于PCA的分析一般仅考虑X-变量而忽 略Y变量对所产生数据关系的影响。另一种技术涉及随机二进制(0或1) Y矢量值,它将Y变量分成两个随机组。偏最 小二乘(PLS)算法使用单组成模型来预测新的Y变量,并且预测到的Y变量代替随机Y变 量值。在分析收敛后,预测到的Y变量被圆整至最近的整数(或者0或者1),并且经圆整的 Y变量用来将数据分割成若干组。如同基于PCA的分析和CART分析,该方法只对X变量起 作用,尽管对内部计算应用了 PLS。这种技术的延伸通过建立多重(例如3、4或更多)分割 而不是二进制分割(0或1)建立架构而实现两个以上的群集。神经网络型分析是分析数据的另一种方法。然而,神经网络型分析对于许多应用 而言尚无法足够快地计算,并且当变量数目超过10-20时也存在困难。概述前述方法的缺陷包括在大量变量和变量组合中研究许多可行分割的计算密集性 和开销。当变量数目适中或很大时(例如大于约20),回归树和神经网络型分析遭遇到困难。本文描述的理念包括使用偏最小二乘(PLS)方法进行数据分析以及数据群集或 编组。使用偏最小二乘法分析数据以在迭代进程中将相对大的数据集分割成较小的子集 (也被称为组或群集)。每次数据分割导致具有较高层内部同质性(例如群集中较小的变 化)和最大外部异质性(例如相对于其它群集具有更多变化)的组。用于数据分析和组织 的最小二乘法具有将大数据集分成相同观察资料或数据点(例如关联于工艺变量和产出 变量的数据点)的群集或组而没有关联于先前方法的计算密集性或开销的优点。偏最小二 乘法还保持子集(群集)中的工艺变量和产出变量之间的关系,这有助于分析。偏最小二乘法可解决具有相对大量变量的数据集,包括超过10000个变量的数据 集。此外,当数据集包括多个共线变量或工艺变量和产出变量之间的关系时和/或由于检 测器故障或数据存储问题数据部分地从数据集中丢失的情形下,偏最小二乘法也可工作。 偏最小二乘法的另一优势是计算机处理相当快速,利于相对快速计算和/或在图表或曲线 图上显示分级组织的数据。使用偏最小二乘法的另一优点是Y变量(例如响应)影响群集和对群集的确定。 例如,Y变量可明确地用作确定是否和在何种情况下将数据分割成多个子组的的“分割标 准”或参数的一部分。另一优点是偏最小二乘法既可工作在二进制和连续Y变量下,又可工 作在一个或多个Y变量下。偏最小二乘分析是“自顶向下”方法,由于分析从整个数据集开 始并将数据相继分成更小的组。自顶向下方法与自底朝上方法形成对照,所述自底朝上方 法从具有一个数据点的组开始并将这些组编入(2个数据点的组)直到全部观察资料并入 一个数据群集。由于是否群集数据的判断涉及监测观察资料间距离(例如X变量之间的相似性)以及观察资料-群集和群集-群集距离(例如同质性和异质性的相异点),自底朝上 方法往往计算开销很大。本文所述方法的另一优势是方法产生有用的结果,即便数据集或 观察资料中存在丢失或噪声数据。本专利技术的一些实施方式的特征在于使用四分点的差异计笪弁。基于偏最小二乘分析编组、分割或群集的优势在于,PLS回归模型的X得分作为分 割或编组标准的一部分,与X变量本身的值相对。当PLS方法应用于一对矩阵(即X变量 的X矩阵和Y变量的Y矩阵)时,结果是数据的划分、编组或分割的序列。数据被逐行(例 如逐观察资料)地分割成由PLS模型表示的树结构或树形图。树形图中的每个节点代表特 定编组或群集中的数据的PLS模型。总的来说,为了将一个数据集或群集分成两个(或更多个),确定某个分割值或位 置。例如,针对第一矩阵(X矩阵)中的X变量计算第一得分tl,并根据得分tl分类群集的 观察资料。然后基于若干因数加权组合的改进而确定分割的位置,所述因数包括(a)x矩阵 的方差、(b) Y矩阵的方差和(c)关联于每个后继数据集中的观察资料数量的函本文档来自技高网...

【技术保护点】
一种计算机实现的方法,包括:提供第一数据矩阵和第二数据矩阵,所述第一和第二数据矩阵中的每一个包括一个或多个变量(矩阵列)和多个数据点(矩阵行);使用偏最小二乘(PLS)分析或正交PLS(OPLS)分析从所述第一数据矩阵确定第一得分;以及将所述第一和第二数据矩阵逐行地分割成第一组和第二组,所述分割是基于所述第一数据矩阵的第一得分、所述第一数据矩阵的方差、以及所述第一和第二组的方差相对于所述第一和第二数据矩阵的方差的关系。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:SB沃尔德J特里格L埃里克松
申请(专利权)人:MKS仪器股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利