通过确定输入数据中的模式进行数据挖掘制造技术

技术编号:2916575 阅读:183 留言:0更新日期:2012-04-11 18:40
通过以下方式执行包含多个事务(每个事务具有至少一个项目)的输入数据中的模式检测。接收用于感兴趣模式的过滤器条件,并确定与生成候选模式有关的第一适用过滤器条件集合。选择已评估的候选模式作为父候选模式并维护有关所述父候选模式的评估信息。通过扩展所述父候选模式并考虑第一过滤器条件集合来生成子候选模式。相对于共同在多个类似候选模式集合内的输入数据并根据有关所述父候选模式的所述评估信息来评估所述子候选模式。递归地使用至少一个成功通过评估步骤的子候选模式作为父候选模式。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及数据挖掘。具体地说,本专利技术涉及确定输入数据中的模式。
技术介绍
数据挖掘一般指用于从输入数据提取信息的数据驱动的方法。其他用于从输入数据提取信息的方法通常是假设驱动的(hypothesis driven),其中从输入数据的角度证明一组假设是正确还是错误。输入数据量可能很庞大,因此数据挖掘技术通常需要考虑如何有效处理大量数据。考虑制造产品作为一个实例。其中,输入数据可以包括各种与组件的起源和功能、组件在制造厂中的处理、组件如何装配在一起相关的数据。在制造上下文中,数据挖掘的目的可以是解决与质量分析和质量保证相关的问题。数据挖掘可以例如用于根本原因分析、制造厂内的预警系统,以及减少索赔。作为第二个实例,考虑各种信息技术系统。其中,数据挖掘可进一步用于入侵检测、系统监视和问题分析。数据挖掘还具有各种其他用途,例如在零售和服务领域可以分析典型客户行为,以及在医学和生命科学领域用于发现临床研究中的因果关系。模式检测是数据挖掘科目,其中输入数据包括多个事务集合,而每个事务包括一个项目集合。事务还可以被排序。可以根据时间排序,但是备选地可以定义任何排序。例如,可以为每个事务提供顺序号。关联规则是描述项目如何在事务内出现的模式。另一方面,顺序规则指顺序事务中项目集合的特定顺序。考虑一个项目集合I={I1,I2,...Im

【技术保护点】
一种用于检测包含多个事务的输入数据中的模式的计算机化方法,每个事务具有至少一个项目,所述方法包括以下步骤: 接收用于感兴趣模式的过滤器条件, 根据所接收的过滤器条件,确定与生成候选模式有关的第一适用过滤器条件集合, 选择已评估的候选模式作为父候选模式并维护有关所述父候选模式的评估信息, 通过扩展所述父候选模式并考虑第一过滤器条件集合来生成子候选模式, 相对于共同在多个类似候选模式集合内的输入数据并根据有关所述父候选模式的所述评估信息来评估所述子候选模式,每个集合具有最多预定数量的类似候选模式并且至少一个集合具有至少两个类似候选模式,以及 递归地使用至少一个成功通过评估步骤的子候选模式作为父候选模式。

【技术特征摘要】
【国外来华专利技术】EP 2006-3-14 06111138.1;EP 2006-10-4 06121743.61.一种用于检测包含多个事务的输入数据中的模式的计算机化方法,每个事务具有至少一个项目,所述方法包括以下步骤:接收用于感兴趣模式的过滤器条件,根据所接收的过滤器条件,确定与生成候选模式有关的第一适用过滤器条件集合,选择已评估的候选模式作为父候选模式并维护有关所述父候选模式的评估信息,通过扩展所述父候选模式并考虑第一过滤器条件集合来生成子候选模式,相对于共同在多个类似候选模式集合内的输入数据并根据有关所述父候选模式的所述评估信息来评估所述子候选模式,每个集合具有最多预定数量的类似候选模式并且至少一个集合具有至少两个类似候选模式,以及递归地使用至少一个成功通过评估步骤的子候选模式作为父候选模式。2.如权利要求1所述的计算机化方法,其中每个类似候选模式集合中的候选模式彼此的差别在于被添加到公共父候选模式的一个相应项目。3.如权利要求1或2所述的计算机化方法,其中生成子候选模式的步骤包括以下步骤中的至少一个步骤:将一个新项目添加到所述父候选模式的第一个项目集合;将一个新项目添加到所述父候选模式的最后一个项目集合;以及将包括一个项目的新项目集合附加到所述父候选模式。4.如任一上述权利要求所述的计算机化方法,其中所述预定数量取决于执行所述计算机化方法的计算系统的特性。5.如任一上述权利要求所述的计算机化方法,包括根据所述输入数据来计算统计度量以便在生成和评估步骤中的至少一个步骤内使用,所述统计度量包括以下项中的至少一项:项目对统计信息和权重统计信息。6.如权利要求5所述的计算机化方法,包括当应用所述第一过滤器条件集合时,根据所述统计度量来限制所述候选模式的搜索空间。7.如权利要求5或6所述的计算机化方法,包括根据所述统计度量来确定以下项中的至少一项:要扩展哪些子候选模式,以及扩展子候选模式的顺序。8.如任一上述权利要求所述的计算机化方法,其中所述过滤器条件包括至少一个基于以下项中的至少一项的条件:权重、关于输入数据的总权重、支持事务的平均权重、规则体的权重、规则头的权重、关于输入数据的规则头的总权重、关于输入数据的规则体的总权重,以及可访问的其他总权重。9.如任一上述权利要求所述的计算机化方法,包括提供表示所述输入数据中的事务集合的数据结构,所述数据结构具有:事务集合中不同项目的标识符的列表、指示所述列表中的标识符数量的信息,以及指示所述事务集合中所述不同项目的存在的位字段信息,根据所述列表组织所述位字段信息以便于相对于所述事务集合来评估模式,以及针对所述位字段信息使用位图操作评估所述候选模式。10.如任一上述权利要求所述的计算机化方法,包括维护表示所述输入数据中的事务、已评估的候选模式、已评估的候选模式的评估信息、要评估的候选模式,以及结果模式的数据结构;以及根据可用的总存储器和所述数据结构的使用,动态确定在生成和评估子候选模式期间要将哪些数据结构保存...

【专利技术属性】
技术研发人员:A多奈希T博林格C林根费尔德
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1