用于处理大宽数据的过程控制工具制造技术

技术编号:30404091 阅读:28 留言:0更新日期:2021-10-20 11:00
一种用于处理来自自动化制造操作的宽数据的过程控制工具。该工具包括特征选择器、分析服务器和可视化引擎。特征选择器从至少一个制造过程应用中接收过程输入数据,其中过程输入数据包括多个观察值和相关联的变量,将所接收的过程输入数据转换成在每个观察值中针对每个变量具有一行的堆叠格式,将所标识的类别变量转换成数字变量,并且将所标识的时间序列数据转换成固定数量的区间,计算对预测因子值与结果变量之间的关系的强度进行测量的统计数据,对预测因子值进行排序、过滤、以及旋转。分析服务器执行至少一个操作,以标识过滤后的预测因子值中的预测因子值之间的交互,例如使用最大似然计算或预定义搜索。可视化引擎显示交互以用于管理制造操作。交互以用于管理制造操作。交互以用于管理制造操作。

【技术实现步骤摘要】
【国外来华专利技术】用于处理大宽数据的过程控制工具
[0001]相关申请的交叉引用本申请要求2018年12月14日提交的题为“System and Method for Selecting Important Parameters and Measurements in Wide Datasets”的美国临时专利申请第62/780,095号的优先权,其全部内容出于所有目的通过引用全部并入本文。


[0002] 本公开大体上涉及用于制造操作的过程控制工具,并且尤其涉及用于在由复杂制造操作所生成的大宽(big and wide)数据结构中发现重要参数的过程控制工具。

技术介绍

[0003]存在用于解决大数据要求的许多具体用例、最佳分析实践、方法和系统。然而,可用的系统和软件工具将大数据表征为具有大量的逻辑行或具有相对较少的逻辑列或变量的情况(分析单位)。作为具体示例,典型的客户交易数据库可以包含数百万或数亿的客户和交易(“行”和分析单位),其中,每个逻辑行可以仅包含相对少的(例如,几百或几千的)特性或“变量”,诸如最近交易的日期、购买的产品、花费的金额、人口统计信息、和描述特定客户的其他属性等。对于这样的数据,用于分析建模、聚集或预测建模的现有方法被良好地定义并成熟,并且这些方法通常将分析推送到计算节点的集群,其中,行(客户)上的计算可以被并行化以满足针对相应应用的性能要求。
附图说明
[0004]为了更完整地理解本公开的特征和优点,现在请参考详细描述以及附图,其中,不同附图中的对应数字指代对应部分,并且其中:图1是根据某些示例性实施例的用于管理从自动化制造操作生成的宽大数据的过程控制系统的图示;图2A和图2B是根据某些示例性实施例的用于过程系统的过程控制工具的特征选择、分析和可视化的算法的流程图的图示;图3是根据某些示例性实施例的大宽数据结构变换的图示;以及图4是描绘根据某些示例性实施例的计算机器和系统应用的框图。
具体实施方式
[0005]虽然下文详细论述本公开的各种实施例的制作和使用,但应当理解,本公开提供了许多可应用的专利技术概念,其可在各种各样的特定上下文中实施。本文所讨论的具体实施例仅是说明性的,并不限定本公开的范围。为了清楚起见,在本公开中可能没有描述实际实现的所有特征。当然,应当理解,在任何这种实际实施例的开发中,必须做出许多实现特定的决定以实现开发者的特定目标,例如符合系统相关和商业相关的约束,这将因实现的不同而不同。此外,应当理解,这种开发努力可能是复杂且耗时的,但是对于受益于本公开的
本领域普通技术人员而言将是常规任务。
[0006]数据结构通过许多列和行来表征,并且它们通常包含极大量的列和相对少的行,尽管通常也有数百万行。这种大宽数据结构实际上确实跨各种领域以增加的频率出现,而尤其是在其中工具和过程被非常好地装备的半导体制造中。通常,可以按批次、晶片和管芯来对准几百万个参数,从而在所有处理步骤之上详细描述制造过程。通常,在自动化制造中,可以存在由设施、机器或工具以及传感器索引的数千个传感器和(例如,电气)测试数据参数。此外,传感器可以记录运行期间的过程条件的时空映射;当将这种测量结果编码到针对每个传感器的变量(列)中时,数据的维度或宽度进一步增大。这些类型的记录为每个逻辑行(例如批次/晶片)创建了大量的时间序列,从而进一步波动地增大了数据的维度或宽度。时间序列数据可以被聚合为跨所有行的固定数量的经过时间区间(interval),并且聚合测量结果可作为预测因子变量被附加到后续分析。针对数百个时间序列而执行的该数据准备步骤可附加大量的预测因子变量,从而进一步增大数据的维度或宽度。
[0007] 除了大量变量的问题之外,描述半导体制造过程的数据通常涉及具有许多独特标签的离散测量结果。例如,许多晶片被移动通过涉及特定工具的大量处理步骤。当大量独特工具(具有独特工具标签)处理每个单独批次时,所得数据将记录在大量处理步骤中的每一个处施加的相应特定离散标签。由于在每个处理步骤处使用了数百个工具(标签),所以必须解决这些离散变量中的高基数(high cardinality)问题。高基数数据问题与宽大数据问题有关,因为离散数据通常被重新编码到多个指示符列中(例如,经由一个热或虚变量编码),从而进一步附加到数据中的通常已经大量的变量中。
[0008]许多应用的要求是执行有用的根本原因分析、预测建模、风险建模、故障标识和分类以及产量预报等,其中,必须针对由可能数百万个变量表征的大宽数据来应用分析。在此上下文中的术语“建模”是指分析目标和方法,诸如:(1)出于构建一些重要结果的预测模型(例如,用于可靠性分析、产量预测或根本原因分析)的目的的监督学习:(2)出于标识大数据的行和/或列中的结构(例如,如由时间序列数据的连续块定义的行的聚集、变量的聚集、状态的聚集)的目的的无监督学习;和/或(3)异常检测(例如,相对于由大多数数据定义的“正常”模式,在一些、大多数或所有测量变量上的不寻常模式的检测)。
[0009]这些分析通常要求建模流水线的开发,即,被布置到这样的处理步骤的流水线中的顺序处理步骤,以便对相应的分析问题进行准备、分析和报告。这里的具体问题是,更难以用数百万列来并行化用于这种数据的建模流水线。将数据从现场存储位置移动到远程分析计算环境或将整个数据集装入存储器以供计算是不切实际或不可能的。目前,没有可以令人满意地和高效地解决与大宽数据相关联的分析挑战的可用的普遍接受或立即可用的方法或系统。此外,被设计成处理大数据的任何现有解决方案完全缺乏执行实时或接近实时所需的建模和分析以有效地解决复杂制造场景中的操作问题的能力,在该复杂制造场景中,制造过程中的异常的延时检测会导致产品的损失以及时间因而金钱的损失。
[0010]本文呈现的系统解决了上述问题,并且包括在分布式处理环境中工作以按顺序和/或异步地高效执行分析的两个组件、以及提供对数据的实时或接近实时访问的第三可视化组件。在一个实施例中,两个组件中的第一组件靠近过程数据工作,并且在过程数据被缩减到较小尺寸之后,数据可以被移动到第二组件,在该第二组件处,可以在更高效的存储器内环境中处理数据。即,在本实施例中,第一组件进行数据附近的预测因子的初始特征选
择;第二组件采用所选预测因子的子集并使用高效的存储器内(或单个专用计算环境内计算)执行附加处理(即,更密集的处理)。
[0011] 第一组件是多节点并行数据处理系统,例如Apache Hadoop
®
或Apache Spark
TM
,其中,执行初始数据准备、特征选择、特征工程和其他数据聚合、缩放和其他操作,以将大宽数据变换成可被更高效地处理和过滤的堆叠结构。然而,应当理解,堆叠数据是仅在需要时执行的可选步骤。结果可以被旋转(pivot)成宽数据集以用于后续处理。该组件可以受益于可用于并行化和优化的数据库内(即,集群内)数据处理的技术,诸如通过TIBCO Spotfire
®
数据科学。然后,这些步骤之后是最终模型构建和在专用分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于处理来自自动化制造操作的宽数据的过程控制工具,所述过程控制工具包括:特征选择器,其被配置成:从至少一个制造过程应用,接收过程输入数据,其中,所述过程输入数据包括多个观察值和相关联的变量;将标识的类别变量转换为数值变量,并且将标识的时间序列数据转换为固定数量的区间;以及计算统计数据,其测量预测因子值与结果变量之间的关系的强度;分析服务器,其被配置成:执行至少一个操作以标识预测因子值之间的交互;可视化引擎,其被配置成显示所述交互以用于管理所述制造操作。2.根据权利要求1所述的过程控制工具,其中,所述特征选择器还被配置成将所接收的过程输入数据转换为在每个观察值中针对每个变量具有一行的堆叠格式。3.根据权利要求1所述的过程控制工具,其中,使用冲击编码技术将标识的类别变量转换成数值变量。4.根据权利要求2所述的过程控制工具,其中,所述特征选择器还被配置成:基于所计算的统计数据对所述预测因子值进行排序;基于阈值将所述预测因子值过滤成预测因子值的子集;以及将所述子集旋转成宽格式,其中,每个变量在表格数据集中用其自己的列来表达。5. 根据权利要求4所述的过程控制工具,其中,所述分析服务器被配置成:接收经旋转的预测因子值的子集;以及执行统计和建模操作、以及预定义搜索中的至少一个,以标识所述子集中的预测因子值之间的交互;其中,所述统计和建模操作包括回归算法、神经网络、深度学习网络和递归划分算法中的至少一个。6.根据权利要求1所述的过程控制工具,其中,所述分析服务器还被配置成在存储器内、虚拟存储器内和多线程计算中的至少一个中操作。7.根据权利要求1所述的过程控制工具,其中,所述特征选择器和所述分析服务器同时且异步地工作。8.根据权利要求1所述的过程控制工具,其中,所述分析服务器是专用分析服务器。9.根据权利要求1所述的过程控制工具,其中,所述过程输入数据被表征为具有宽数据集或宽大数据集。10.一种处理来自自动化制造操作的宽数据的方法,所述方法包括:从至少一个制造过程应用,接收过程输入数据,其中,所述过程输入数据包括多个观察值和相关联的变量;将标识的类别变量转换为数值变量,并且将标识的时间序列数据转换为固定数量的区间;以及计算统计数据,其测量预测因子值与结果变量之间的关系的强度;执行至少一个操作以标识预测因子值之间的交互;以及
...

【专利技术属性】
技术研发人员:T
申请(专利权)人:泰必高软件公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1