基于占有率的模式挖掘制造技术

技术编号:10846390 阅读:33 留言:0更新日期:2014-12-31 17:14
一种模式挖掘的示例方法包括:经由逻辑电路识别多个事务中存在的多个模式,所述事务包括项目的集合,以及经由所述逻辑电路基于所述事务中的所识别的模式的占有率来选择所识别的模式之一。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
数据挖掘涉及在数据库中搜索数据点或数据集以解决特定问题。频繁的模式挖掘涉及以识别频繁出现在数据集中的模式为目的的数据挖掘。用于识别模式的最常见度量是频率,频率是模式显现在事务数据库中的次数。在这种情境中,频率被用作针对模式兴趣度的主要量度。附图说明图1是用于执行模式挖掘的示例系统的框图。图2是图1的示例数据挖掘器的更详细框图。图3图示了用于示例事务数据库的子集树。图4是表示可被执行以实现用于执行模式挖掘的数据挖掘器的示例机器可读指令的流程图。图5是表示可被执行以实现用于执行模式挖掘的数据挖掘器的示例机器可读指令的流程图。图6是表示可被执行以实现用于提供品质模式的数据挖掘器的示例机器可读指令的流程图。图7A和7B是表示可被执行以实现用于修剪子集树的项目集修剪器的示例机器可读指令的流程图。图8是表示可被执行以实现用于估计品质边界的品质计算器的示例机器可读指令的流程图。图9A和9B是表示可被执行以实现用于估计品质边界的品质计算器的示例机器可读指令的流程图。图10是能够执行图4-9B的指令以实现图1和/或2的数据挖掘器的示例处理器平台的框图。具体实施方式本文公开的示例方法、装置和制品使用本文中被称为占有率的量度。占有率被定义为模式(或项目集)在其支持事务中占有(例如,支配)项目的程度。在一些示例中,模式挖掘应用优选下述模式:这些模式占有它们显现于其中的事务的大部分。示例方法、装置和制品使用占有率来针对某些类型的应用提供改进的模式挖掘。贯穿本公开,可互换地使用术语“模式”和“项目集”。在其中使用占有率可能有利的第一示例应用处于用于网页的打印区域推荐上。由网页浏览器的打印功能生成的打印输出可能是不令人满意的,这是由于该打印输出包含大部分的不相关内容(例如导航菜单、广告、相关链接等)。为了解决该问题,惠普提供了HP智能打印服务,其包含用户友好界面,使得用户能够容易地选择她感兴趣的打印区域。这种选择可以被存储在打印日志中(例如,在用户同意的情况下)。感兴趣的挑战是:基于由其他用户生成的打印日志来自动地且准确地推荐感兴趣的打印区域,使得用户在不执行手动选择的情况下接收到感兴趣的打印区域。如果每个内容片段(clip)(例如,由另一用户选择的内容区域)是项目,并且用户在给定网页上所选的所有片段被视为项目的事务,则来自所有用户的打印日志数据形成事务数据库。由此,可以基于该事务数据库将给定网页中的项目集(例如,内容片段的集合)推荐给用户。所推荐的项目集可以频繁出现,以反映大多数用户的兴趣。然而,项目集的完整性也是重要的。所推荐的内容片段的集合应当占有它显现于其中的事务(例如,用户所选的片段集合)的大部分,使得该推荐是完整的(例如,因此用户未感觉到该推荐将丢失相关内容)。在第二示例应用中,投资证券组合(investment portfolio)推荐应用可以有利地使用占有率来识别投资策略中的模式。对于包含高品质且多样化的投资证券组合的大集合的事务数据库,每个事务表示由有经验的投资者所拥有的金融资产(例如股票、债券等)的集合。该示例应用的目标是从数据库挖掘(例如,确定、识别)品质(例如,感兴趣的)模式(例如,高品质和/或多样化的模式),这可以用于将投资计划推荐给新投资者。该示例应用可以有利地优选频繁显现于数据库中的投资模式。然而,由于良好的投资证券组合通常作为整体起作用以实现投资平衡并降低风险,因此该示例应用还可以评价下述投资模式:这些投资模式覆盖它们显现于其中的事务的大部分。例如,给定相等频率的两个模式X和Y,如果X覆盖其支持事务的90%资产而Y仅覆盖30%,则自然将X视为更好的投资模式。因此,模式的占有率潜在地对于证券投资推荐应用是非常有用的。在上面讨论的两个示例应用中,占有率变成模式兴趣度的另一量度,这是对“频率”的有利补充(在本文中也被称为“支持”)。在本文公开的一些示例方法、装置和制品中,如果一种模式不仅是频繁的(例如,其支持值高于阈值α),而且在其支持事务中具有高占有率(例如,具有高覆盖、进行支配),则该模式被视为感兴趣的。如果一种模式的占有率处于阈值β以上,则该模式被视为支配的。如果一种模式既是频繁的又是支配的,则该模式被视为有品质的。本文公开的示例方法、装置和制品挖掘相对于支持阈值α和占有率阈值β的有品质模式。本文公开的一些示例方法、装置和制品解决了挖掘前k名有品质模式(其中,k是有品质模式的期望数目,使得k=5将导致挖掘前5名有品质模式)的问题。术语k可以由用户定义。在一些这种示例中,前k名有品质模式是相对于支持和占有率的加权和来确定的。针对支持和/或占有率的权重也可以由用户定义。在一些示例中,当更多项目被添加到给定项目集时,占有率的值不单调增大或减小。一些示例方法、装置和制品确定(例如计算、估计等)针对所识别模式的占有率和/或品质的上界,并使用该一个或多个上界来修剪针对有品质模式挖掘的搜索过程。一些示例方法、装置和制品考虑调和占有率(harmonic occupancy)。一些其他示例考虑算术占有率。如本文所使用,事务数据库是事务的集合。每个事务是项目的集合。I指代有区别的项目的全集。T是事务的全集。项目集是项目的非空集合。事务集是事务的集合。包含项目集X中的所有项目的事务是X的支持事务,被表示为Tx。项目集X的频率被表示为freq(X),且等于Tx中的事务的数目。X的支持被定义为                                               。对于给定的最小支持阈值α(0<α≤1),如果,则X被称为频繁的。对于项目集X,我们识别所有其支持事务Tx。对于每个事务t∈Tx,我们计算|X|(项目集X中的项目的数目)除以|t|(事务t中的项目的数目)(例如,|X|/|t|)的比率。针对所有支持事务Tx聚合出这些比率,以计算针对X的占有率的单个值。在一些示例中,占有率指代比率的平均。附加地或可替换地,还可以使用其他聚合函数,诸如quantile或min。形式上,项目集X的占有率被表示为,其中,average()是集合中的所有值的平均函数。可以使用两个不同示例平均函数——调和平均和算术平均——中的任一个来确定占有率。下面参照表1中定义的事务数据库来说明调和占有率和算术占有率。表1:事务数据库对于一些值的集合A,A中的值的调和平均是:。对于一些值的集合A,A中的值的算术平均是:。项目集X的调和占有率被定义为:。项目集X的算术占有率被定义为:。在一些示例中,项目集的占有率是模式中的项目的第一数目与模式的一个或多个支持事务中的总项目的第二数目之比针对支持该模式的事务的聚合。使用平均函数作为该聚合,项目集X的占有率是X中的项目的占有率与它显现于其中的事务中的项目的数目的平均比率。换言之,如果项目集X包括5个项目,并且X显现于其中的平均事务包括未被包括在X中的5个项目,则项目集X具有占有率0.50。占有率的高值本文档来自技高网...

【技术保护点】
一种模式挖掘的方法,包括:经由逻辑电路识别多个事务中存在的多个模式,所述事务包括项目的集合;以及经由所述逻辑电路基于所述事务中的所识别的模式的占有率来选择所识别的模式之一。

【技术特征摘要】
【国外来华专利技术】1. 一种模式挖掘的方法,包括:
经由逻辑电路识别多个事务中存在的多个模式,所述事务包括项目的集合;以及
经由所述逻辑电路基于所述事务中的所识别的模式的占有率来选择所识别的模式之一。
2. 根据权利要求1所述的方法,其中,所识别的模式的占有率包括下述内容针对支持所识别的模式的事务的聚合:
所识别的模式中的项目的第一数目与所识别的模式的支持事务中的总项目的第二数目之比。
3. 根据权利要求1所述的方法,进一步包括:基于占有率来计算所识别的模式的品质。
4. 根据权利要求3所述的方法,其中,计算所识别的模式的品质进一步基于所识别的模式的支持。
5. 根据权利要求1所述的方法,进一步包括:针对所述多个事务生成子集树。
6. 根据权利要求5所述的方法,进一步包括:基于相应占有率的比较或所述多个事务的相应品质与阈值的比较中的至少一个来修剪所述子集树。
7. 根据权利要求5所述的方法,进一步包括:基于所述子集树的第一分支的占有率上界与所述子集树的第二分支的占有率上界的比较来修剪所述子集树的第一子树,所述第二分支独立于所述第一分支。
8. 根据权利要求1所述的方法,进一步包括:基于占有率来推荐所识别的模式。
9. 根据权利要求1所述的方法,进一步包括:
基于所计算出的所述模式的支持和所计算出的所识别...

【专利技术属性】
技术研发人员:P罗M王L唐L张
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1