基于频繁和占有特征的skyline模式挖掘方法及装置制造方法及图纸

技术编号:26342473 阅读:38 留言:0更新日期:2020-11-13 20:34
本发明专利技术公开了一种基于频繁和占有特征的skyline模式挖掘方法及装置,该方法包括:获取包括至少一件事务的事务数据集,每件事务中包括至少一个单项;对所有单项进行统计,获取各单项在事务数据集中的频繁度;根据各单项的频繁度,按照降序方式对各单项的PEL数据结构进行排序;根据广度优先遍历方法,逐层遍历根据排序后的各单项的PEL数据结构形成的当前模式以及扩展模式,挖掘出满足预设挖掘条件的skyline模式。本发明专利技术在挖掘过程中有效避免了因用户设置阈值的不合理而使得挖掘出的数据差异极大的问题;同时大幅度减少了数据计算量和算法搜索空间的规模,有效节省了内存开销,提升了挖掘算法的整体效率。

【技术实现步骤摘要】
基于频繁和占有特征的skyline模式挖掘方法及装置
本专利技术涉及数据挖掘
,具体涉及一种基于频繁和占有特征的skyline模式挖掘方法及装置。
技术介绍
数据挖掘(DataMining)技术是一种对海量数据进行深层次分析以获取更有价值的信息和知识的高级数据分析技术。在数据挖掘研究中,面向模式兴趣度,基于约束条件的频繁项集模式挖掘比单一的频繁项集模式挖掘效率更高,内存开销更少,更好的度量了模式的兴趣度,因此,面向模式兴趣度的频繁模式挖掘逐渐趋于成熟。目前,在一些科研成果中,提出了多类度量信息,通过与频率结合共同对数据集进行约束挖掘。然而,在面向模式兴趣度的频繁项集模式挖掘的过程中存在一些不足之处,也是该领域的难题之一,具体如下:其一是模式约束挖掘的尺度,需要用户自设约束度量信息的最低阈值,当计算的度量信息大于最低阈值时才被挖掘出,因此阈值设定不合理将直接导致挖掘出大量不合理的模式;其二,虽然挖掘的模式是频繁的且具有一定模式兴趣度信息的,但挖掘的模式很可能是不完整的,会丢失很重要的信息成分。需要注意的是,本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
技术实现思路
本专利技术提供一种基于频繁和占有特征的skyline模式挖掘方法及装置,以解决现有基于频繁项集模式挖掘技术中,存在的挖掘的模式不完整且因用户设置阈值的不合理而使得挖掘出的数据差异极大的问题。第一方面,本专利技术实施例提供一种基于频繁和占有特征的skyline模式挖掘方法,所述方法包括:获取包括至少一件事务的事务数据集,每件事务中包括至少一个单项;对所述事务数据集中包括的所有单项进行统计,获取各所述单项在所述事务数据集中的频繁度;根据各所述单项的频繁度,按照降序方式对各所述单项的PEL数据结构进行排序;根据广度优先遍历方法,逐层遍历根据排序后的各所述单项的PEL数据结构形成的当前模式以及由所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式。作为本专利技术第一方面的优选方式,所述根据广度优先遍历方法,逐层遍历根据各所述单项的PEL数据结构形成的当前模式以及以所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式包括:按照排序后的各所述单项的PEL数据结构,分别对应形成各当前模式以及由所述当前模式扩展得到的扩展模式;依次判断各所述当前模式是否满足预设挖掘条件;若是,则确定所述当前模式为满足预设挖掘条件的skyline模式,保留所述当前模式并根据预设剪枝条件对所述当前模式的扩展模式进行剪枝;依次判断所述当前模式的扩展模式是否满足预设挖掘条件;若是,则确定所述当前模式的扩展模式为满足预设挖掘条件的skyline模式,保留所述当前模式的扩展模式。作为本专利技术第一方面的优选方式,所述依次判断各所述当前模式是否满足预设挖掘条件包括:根据排序后的各所述单项的PEL数据结构,获取各所述当前模式的频繁度、扩展前景值和占有特征值;按顺序依次判断所述当前模式的频繁度是否大于等于预设最小频繁度;若是,则判断所述当前模式的占有特征值是否大于等于当前频繁度对应的初始的最大占有特征值;若是,则确定所述当前模式满足预设挖掘条件,并将所述当前模式的占有特征值作为当前频繁度以及小于当前频繁度的其余频繁度对应的最大占有特征值,继续执行按顺序依次判断所述当前模式的频繁度是否大于等于预设最小频繁度的步骤。作为本专利技术第一方面的优选方式,所述扩展前景值根据如下公式计算得到:其中,ExValue(X)为模式X的扩展前景值,|item_length|为模式X的长度,Dx为事务数据集中包含模式X的事务形成的支持数据集,|Dx|为Dx中包含的事务数量,为Dx中包括的事务的长度之和,id为事务在事务数据集中的编号,Surplusid为模式X在Dx中包括的各事务中的后继模式数,为模式X在Dx中包括的各事务中的后继模式数之和。作为本专利技术第一方面的优选方式,所述占有特征值根据如下公式计算得到:其中,occu(X)为模式X的占有特征值,sup_count为模式X的频繁度,为模式X的长度与Dx中包括的各事务的长度的比值之和。作为本专利技术第一方面的优选方式,所述最大占有特征值根据如下公式计算得到:occumax[count]=Max{occu(X)|sup_count(X)≥count},其中,occumax[count]为模式X的频繁度为count时对应的最大占有特征值。作为本专利技术第一方面的优选方式,所述保留所述当前模式并根据预设剪枝条件对所述当前模式的扩展模式进行剪枝包括:判断所述当前模式的扩展前景值是否小于当前频繁度对应的最大占有特征值;若是,则剪掉所述当前模式扩展得到的扩展模式。作为本专利技术第一方面的优选方式,所述依次判断所述当前模式的扩展模式是否满足预设挖掘条件包括:获取各所述当前模式的扩展模式的频繁度、扩展前景值和占有特征值;按顺序依次判断所述当前模式的扩展模式的频繁度是否大于等于预设最小频繁度;若是,则判断所述当前模式的扩展模式的占有特征值是否大于等于当前频繁度对应的最大占有特征值;若是,则确定所述当前模式的扩展模式满足预设挖掘条件,并将所述当前模式的扩展模式的占有特征值作为当前频繁度对应的最大占有特征值,继续执行按顺序依次判断所述当前模式的扩展模式的频繁度是否大于等于预设最小频繁度的步骤。作为本专利技术第一方面的优选方式,所述将所述当前模式的扩展模式的占有特征值作为所述当前模式的扩展模式的频繁度对应的最大占有特征值之后,还包括:依次判断满足预设挖掘条件的所述当前模式的占有特征值是否大于等于当前频繁度对应的最大占有特征值;若是,则确定所述当前模式满足预设挖掘条件,保留所述当前模式;否则,删除所述当前模式。第二方面,本专利技术实施例提供一种基于频繁和占有特征的skyline模式挖掘装置,所述装置包括:数据集获取单元,用于获取包括至少一件事务的事务数据集,每件事务中包括至少一个单项;频繁度获取单元,用于对所述事务数据集中包括的所有单项进行统计,获取各所述单项在所述事务数据集中的频繁度;单项排序单元,用于根据各所述单项的频繁度,按照降序方式对各所述单项的PEL数据结构进行排序;模式挖掘单元,用于根据广度优先遍历方法,逐层遍历根据排序后的各所述单项的PEL数据结构形成的当前模式以及由所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式。第三方面,本专利技术实施例还提供一种计算设备,包括处理器和存储器,其中存储器内存储有执行指令,处理器读取存储器内的执行指令用于执本文档来自技高网...

【技术保护点】
1.一种基于频繁和占有特征的skyline模式挖掘方法,其特征在于,所述方法包括:/n获取包括至少一件事务的事务数据集,每件事务中包括至少一个单项;/n对所述事务数据集中包括的所有单项进行统计,获取各所述单项在所述事务数据集中的频繁度;/n根据各所述单项的频繁度,按照降序方式对各所述单项的PEL数据结构进行排序;/n根据广度优先遍历方法,逐层遍历根据排序后的各所述单项的PEL数据结构形成的当前模式以及由所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式。/n

【技术特征摘要】
1.一种基于频繁和占有特征的skyline模式挖掘方法,其特征在于,所述方法包括:
获取包括至少一件事务的事务数据集,每件事务中包括至少一个单项;
对所述事务数据集中包括的所有单项进行统计,获取各所述单项在所述事务数据集中的频繁度;
根据各所述单项的频繁度,按照降序方式对各所述单项的PEL数据结构进行排序;
根据广度优先遍历方法,逐层遍历根据排序后的各所述单项的PEL数据结构形成的当前模式以及由所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式。


2.根据权利要求1所述的方法,其特征在于,所述根据广度优先遍历方法,逐层遍历根据各所述单项的PEL数据结构形成的当前模式以及以所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式包括:
按照排序后的各所述单项的PEL数据结构,分别对应形成各当前模式以及由所述当前模式扩展得到的扩展模式;依次判断各所述当前模式是否满足预设挖掘条件;
若是,则确定所述当前模式为满足预设挖掘条件的skyline模式,保留所述当前模式并根据预设剪枝条件对所述当前模式的扩展模式进行剪枝;
依次判断所述当前模式的扩展模式是否满足预设挖掘条件;
若是,则确定所述当前模式的扩展模式为满足预设挖掘条件的skyline模式,保留所述当前模式的扩展模式。


3.根据权利要求2所述的方法,其特征在于,所述依次判断各所述当前模式是否满足预设挖掘条件包括:
根据排序后的各所述单项的PEL数据结构,获取各所述当前模式的频繁度、扩展前景值和占有特征值;
按顺序依次判断所述当前模式的频繁度是否大于等于预设最小频繁度;
若是,则判断所述当前模式的占有特征值是否大于等于当前频繁度对应的初始的最大占有特征值;
若是,则确定所述当前模式满足预设挖掘条件,并将所述当前模式的占有特征值作为当前频繁度以及小于当前频繁度的其余频繁度对应的最大占有特征值,继续执行按顺序依次判断所述当前模式的频繁度是否大于等于预设最小频繁度的步骤。


4.根据权利要求3所述的方法,其特征在于,所述扩展前景值根据如下公式计算得到:



其中,ExValue(X)为模式X的扩展前景值,|item_length|为模式X的长度,Dx为事务数据集中包含模式X的事务形成的支持数据集,|Dx|为Dx中包含的事务数量,为Dx中包括的事务的长度之和,id为事务在事务数据集中的编号,Surplusid为模式X在Dx中包括的各事务中的后继模式数,Surplusid为模式X在Dx中包括的各事务中的后继模式数之和。


5.根据...

【专利技术属性】
技术研发人员:尤涛胡焜刘青春杜承烈贺睿瞢
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1