海量数据集上主观兴趣度的关联规则优化算法制造技术

技术编号:10075572 阅读:195 留言:0更新日期:2014-05-24 05:28
一种海量数据集上主观兴趣度的关联规则优化算法,本发明专利技术使用复合模板同时优化分析,即分为总体印象知识模板(GI)、相对精确知识模板(RPC),这种分类扩大了用户含义表达范围,有助于从不同侧重点对关联规则进行优化,此外,把限制与包含模板的作用转而体现在不同兴趣度上,细化兴趣度为四种类型,包括一致度、后件不可预知度、前件不可预知度、不可预知度,使得优化粒度非常清晰;优化结合了复合模板的兴趣度计算模型,使得兴趣度的计算能合理适应复合分析环境。

【技术实现步骤摘要】

本专利技术是一种有关海量数据集上主观兴趣度的关联规则优化算法,该方法能够发现大量数据中项集之间有趣的关联或者相关联系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析等,属于关联规则挖掘中的关联规则优化算法领域。
技术介绍
对海量数据进行关联挖掘导出的关联规则数量巨大,这给分析、决策人员的判断带来了困难,而且仅基于支持度-置信度框架的传统关联规则挖掘算法并不能指出用户真正感兴趣的规则,给用户对所导出规则的分析带来了不便,规则优化则成为了提升规则质量、发现有价值规则的有效手段。目前现有的规则优化算法主要从两个方面对关联规则进行优化:1.客观关联规则优化:一般从规则的结构、集合性质、统计结果、离差模型等入手进行分析,这类方法包括RuleCover算法、冗余删除算法。客观性优化方法能有效删除多余、无效的规则。2.主观关联规则优化:一般利用领域知识、模板、兴趣度等主观量度对规则进行分析。Piatetsky-Shapiro首先提出了兴趣度问题。Hoschka和Klosgen首次提出模板的概念。离差分析法被提出用来衡量真实结果与期望结果间的距离,而Piatetsky-Shapiro和Matheus把离差与兴趣度相结合,分析了离差的兴趣度。Klemettinen等人在中也提出了规则模板的概念,并使用包含模板和限制模板分别过滤有趣规则和非有趣规则。虽然客观优化方法删除多余规则的效果明显,但无法实现主观优化方法所带来的优点。从用户需求分析,对主观思路进行研究有以下两点意义:①面对挖掘出来的规则,用户唯一的目标就是去寻找那些特殊的、没有被发现的规则。若仅给出一堆杂乱无序的规则,用户便需要花费较多的时间来分析和发现有价值的规则。②当规则数量成千上万时,用户希望能快速切入主题、发现价值,而不是面对规则无从下手。同时,模板是主观兴趣度算法中使用到的一个重要的工具,是用户表达含义的载体,但目前基于模板的优化方法一般仅涉及一个模板的分析。兴趣度是规则有趣程度的客观度量,目前基于兴趣度的优化方法一般结合具体领域知识提出相应的兴趣度计算模型,用来衡量规则的有趣程度。然而,在一般的规则优化方案中,模板使用单一模板进行优化分析,用户含义表达受限;模板类型种类少,部分论文提出限制模板、包含模板这两种模板类型用于过滤与匹配规则。另一方面兴趣度,一般只涉及一种兴趣度类型,分析的细化程度受限;兴趣度计算模型单一、杂乱,优化效果难以评判。
技术实现思路
本专利技术针对目前兴趣度优化算法存在的不足:兴趣度计算方法欠妥;用户含义表达受限;领域知识、模板、兴趣度等主观量度未有机结合,本算法提出了一种海量数据集上主观兴趣度的关联规则优化算法对上述不足进行了改进本专利技术为解决上述技术问题所采用的技术方案是:海量数据集上主观兴趣度的关联规则优化算法,其特征在于该优化算法包括:1-(a).数据获取步骤:为优化算法提供基础数据;1-(b).用户指定模板步骤:所述模板是用户表达含义的载体,具体地:形如A1...Ai...Ak=>Ak+1,的蕴含式,其中Ai可以是属性名、类名或者C+、C*的表达式,若为C+表示一个或多个类C的实例,若为C*表示零或多个类C的实例;用户选择指定GI模板、RPC模板或者同时指定GI模板和RPC模板;所述GI模板:用户因项间关系模糊而给出的不确定的知识模板,称为总体印象知识模板,简称GI模板,表示为gi[S1,...,Sm]其中,Si可以是一个属性名、类名或者一条表达式;所述RPC模板:用户知晓项间关系且明确关系方向而给出的相对合理的知识模板,称为相对精确知识模板,简称RPC,表示为rpc[S1,...,Sm=>V1,...,Vg]其中,Sk可以是一个属性名、类名或者一条表达式;1-(c).解析模板步骤:根据模板对待优化的关联规则进行扫描计数;1-(d).获取相关参数步骤:获取模板的相关数据及不匹配度量;1-(e).计算模板权重累计值步骤:当指定多个模板时,模板权重为weight=1/n,其中n模板数,设Xij、Yij分别为Ri中前件、后件与GIj或RPCj中前件、后件不匹配程度的度量。TXi为Xij的权重累计值,TYi为Yij的权重累计值。TXi、TYi按如下公式计算:TXi=TXi+1/n*Xij;TYi=TYi+1/n*Yij;1-(f).兴趣度计算:1-(f-1).根据公式计算一致度的步骤:规则Ri的兴趣度表示规则前件、后件与指定模板集U匹配的程度,用符号confi表示,称为规则Ri的一致度;confi=TXi*TYi1-(f-2).根据公式计算后件不可预知度的步骤:规则Ri的兴趣度表示规则后件与指定模板集U不匹配的程度,用符号unexpYi表示,称为规则Ri的后件不可预知度;unexpYi=TXi-TYi,TXi-TYi>00,TXi-TYi≤0]]>1-(f-3).根据公式计算前件不可预知度的步骤:规则Ri的兴趣度表示规则前件与指定模板集U不匹配的程度,用符号unexpXi表示,称为规则Ri的前件不可预知度;unexpXi=TYi-TXi,TYi-TXi>00,TYi-TXi≤0]]>1-(f-4).根据公式计算不可预知度的步骤:规则Ri的兴趣度表示规则前件、后件与指定模板集U不匹配的程度,用符号unexpi表示,称为规则Ri的不可预知度;unexpi=1-max(confi,unexpYi,unexpXi)。进一步地,当用户仅指定GI模板时,所述一致度公式为:conf1=0,TX1=0,TY1=0TY1,TX1=0,TY1≠0TX1,TX1≠0,TY1=0TX1*TY1,others.]]>具体地,所述获取相关参数步骤包含:若为GI模板:设TNj为GIj中元素总数;XMij、YMij分别为Ri中前件、后件与GIj中元素相匹配的个数;TMij为GIj中已被Ri中元素所匹配的元素总数若TNj=0,则TMij/TNj=1Xij=min(XMij/XNi,TMij/TNj),ifXMij/XNi>YMij/YNiXMij/XNi,elseXNij/XNi≤YMij/YNi]]>Yij=YMij/YNi,ifXMij/XNi>YMij/YNimin(YMij/YNi,TMij/TNj),elseXMij/XNi≤YMij/YNi]]>若为RPC模板:设TXNj、TYNj分别为RPCj本文档来自技高网
...
海量数据集上主观兴趣度的关联规则优化算法

【技术保护点】
海量数据集上主观兴趣度的关联规则优化算法,其特征在于该优化算法包括:1?(a).数据获取步骤:为优化算法提供基础数据;1?(b).用户指定模板步骤:所述模板是用户表达含义的载体,具体地:形如A1...Ai...Ak=>Ak+1,的蕴含式,其中Ai包含属性名、类名或者C+、C*的表达式,若为C+表示一个或多个类C的实例,若为C*表示零或多个类C的实例;用户选择指定GI模板、RPC模板或者同时指定GI模板和RPC模板;所述GI模板:用户因项间关系模糊而给出的不确定的知识模板,称为总体印象知识模板,简称GI模板,表示为gi[S1,...,Sm]其中,Si类型包含一个属性名、类名或者一条表达式;所述RPC模板:用户知晓项间关系且明确关系方向而给出的相对合理的知识模板,称为相对精确知识模板,简称RPC,表示为rpc[S1,...,Sm=>V1,...,Vg]其中,Sk类型包含一个属性名、类名或者一条表达式;1?(c).解析模板步骤:根据模板对待优化的关联规则进行扫描计数;1?(d).获取相关参数步骤:获取模板的相关数据及不匹配度量;1?(e).计算模板权重累计值步骤:当指定多个模板时,模板权重为weight=1/n,其中n为模板数,设Xij、Yij分别为第i条相关规则Ri中前件、后件与GIj或RPCj中前件、后件不匹配程度的度量,TXi为Xij的权重累计值,TYi为Yij的权重累计值,TXi、TYi按如下公式计算:TXi=TXi+1/n*Xij;TYi=TYi+1/n*Yij;1?(f).兴趣度计算:1?(f?1).根据公式计算一致度的步骤:规则Ri的兴趣度表示规则前件、后件与指定模板集U匹配的程度,用符号confi表示,称为规则Ri的一致度;confi=TXi*TYi1?(f?2).根据公式计算后件不可预知度的步骤:规则Ri的兴趣度表示规则后件与指定模板集U不匹配的程度,用符号unexpYi表示,称为规则Ri的后件不可预知度;unexpYi=TXi-TYi,TXi-TYi>00,TXi-TYi≤0]]>1?(f?3).根据公式计算前件不可预知度的步骤:规则Ri的兴趣度表示规则前件与指定模板集U不匹配的程度,用符号unexpXi表示,称为规则Ri的前件不可预知度;unexpXi=TYi-TXi,TYi-TXi>00,TYi-TXi≤0]]>1?(f?4).根据公式计算不可预知度的步骤:规则Ri的兴趣度表示规则前件、后件与指定模板集U不匹配的程度,用符号unexpi表示,称为规则Ri的不可预知度;unexpi=1?max(confi,unexpYi,unexpXi)。...

【技术特征摘要】
1.海量数据集上主观兴趣度的关联规则优化算法,其特征在于该优化算法包括:
1-(a).数据获取步骤:为优化算法提供基础数据;
1-(b).用户指定模板步骤:所述模板是用户表达含义的载体,具体地:形如
A1...Ai...Ak=>Ak+1,的蕴含式,其中Ai包含属性名、类名或者C+、C*的表达式,若
为C+表示一个或多个类C的实例,若为C*表示零或多个类C的实例;用户选择指
定GI模板、RPC模板或者同时指定GI模板和RPC模板;
所述GI模板:用户因项间关系模糊而给出的不确定的知识模板,称为总体印
象知识模板,简称GI模板,表示为gi[S1,...,Sm]其中,Si类型包含一个属性名、
类名或者一条表达式;
所述RPC模板:用户知晓项间关系且明确关系方向而给出的相对合理的知识
模板,称为相对精确知识模板,简称RPC,表示为rpc[S1,...,Sm=>V1,...,Vg]其中,
Sk类型包含一个属性名、类名或者一条表达式;
1-(c).解析模板步骤:根据模板对待优化的关联规则进行扫描计数;
1-(d).获取相关参数步骤:获取模板的相关数据及不匹配度量;
1-(e).计算模板权重累计值步骤:当指定多个模板时,模板权重为weight=1/n,其
中n为模板数,设Xij、Yij分别为第i条相关规则Ri中前件、后件与GIj或RPCj中前
件、后件不匹配程度的度量,TXi为Xij的权重累计值,TYi为Yij的权重累计值,TXi、
TYi按如下公式计算:
TXi=TXi+1/n*Xij;
TYi=TYi+1/n*Yij;
1-(f).兴趣度计算:
1-(f-1).根据公式计算一致度的步骤:规则Ri的兴趣度表示规则前件、后件与指定
模板集U匹配的程度,用符号confi表示,称为规则Ri的一致度;
confi=TXi*TYi1-(f-2).根据公式计算后件不可预知度的步骤:规则Ri的兴趣度表示规则后件与指
定模板集U不匹配的程度,用符号unexpYi表示,称为规则Ri的后件不可预知度;
unexpYi=TXi-TYi,TXi-TYi>00,TXi-TYi≤0]]>1-(f-3).根据公式计算前件不可预知度的步骤:规则Ri的兴趣度表示规则前件
与指定模板集U不匹配的程度,用符号unexpXi表示,称为规则Ri的前件不可预知
度;
unexpXi=TY...

【专利技术属性】
技术研发人员:牛新征周冬梅侯孟书杨健
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1