【技术实现步骤摘要】
基于频繁和占有特征的skyline模式挖掘方法及装置
本专利技术涉及数据挖掘
,具体涉及一种基于频繁和占有特征的skyline模式挖掘方法及装置。
技术介绍
数据挖掘(DataMining)技术是一种对海量数据进行深层次分析以获取更有价值的信息和知识的高级数据分析技术。在数据挖掘研究中,面向模式兴趣度,基于约束条件的频繁项集模式挖掘比单一的频繁项集模式挖掘效率更高,内存开销更少,更好的度量了模式的兴趣度,因此,面向模式兴趣度的频繁模式挖掘逐渐趋于成熟。目前,在一些科研成果中,提出了多类度量信息,通过与频率结合共同对数据集进行约束挖掘。然而,在面向模式兴趣度的频繁项集模式挖掘的过程中存在一些不足之处,也是该领域的难题之一,具体如下:其一是模式约束挖掘的尺度,需要用户自设约束度量信息的最低阈值,当计算的度量信息大于最低阈值时才被挖掘出,因此阈值设定不合理将直接导致挖掘出大量不合理的模式;其二,虽然挖掘的模式是频繁的且具有一定模式兴趣度信息的,但挖掘的模式很可能是不完整的,会丢失很重要的信息成分。需要注意的是,本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
技术实现思路
本专利技术提供一种基于频繁和占有特征的skyline模式挖掘方法及装置,以解决现有基于频繁项集模式挖掘技术中,存在的挖掘的模式不完整且因用户设置阈值的不合理而使得挖掘出的数据差异极大的问题。第一方面,本专利技术实施例提供一种基于频繁和占有特征 ...
【技术保护点】
1.一种基于频繁和占有特征的skyline模式挖掘方法,其特征在于,所述方法包括:/n获取包括至少一件事务的事务数据集,每件事务中包括至少一个单项;/n对所述事务数据集中包括的所有单项进行统计,获取各所述单项在所述事务数据集中的频繁度;/n根据各所述单项的频繁度,按照降序方式对各所述单项的PEL数据结构进行排序;/n根据广度优先遍历方法,逐层遍历根据排序后的各所述单项的PEL数据结构形成的当前模式以及由所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式。/n
【技术特征摘要】
1.一种基于频繁和占有特征的skyline模式挖掘方法,其特征在于,所述方法包括:
获取包括至少一件事务的事务数据集,每件事务中包括至少一个单项;
对所述事务数据集中包括的所有单项进行统计,获取各所述单项在所述事务数据集中的频繁度;
根据各所述单项的频繁度,按照降序方式对各所述单项的PEL数据结构进行排序;
根据广度优先遍历方法,逐层遍历根据排序后的各所述单项的PEL数据结构形成的当前模式以及由所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式。
2.根据权利要求1所述的方法,其特征在于,所述根据广度优先遍历方法,逐层遍历根据各所述单项的PEL数据结构形成的当前模式以及以所述当前模式扩展得到的扩展模式,从所述当前模式以及所述当前模式的扩展模式中挖掘出满足预设挖掘条件的skyline模式包括:
按照排序后的各所述单项的PEL数据结构,分别对应形成各当前模式以及由所述当前模式扩展得到的扩展模式;依次判断各所述当前模式是否满足预设挖掘条件;
若是,则确定所述当前模式为满足预设挖掘条件的skyline模式,保留所述当前模式并根据预设剪枝条件对所述当前模式的扩展模式进行剪枝;
依次判断所述当前模式的扩展模式是否满足预设挖掘条件;
若是,则确定所述当前模式的扩展模式为满足预设挖掘条件的skyline模式,保留所述当前模式的扩展模式。
3.根据权利要求2所述的方法,其特征在于,所述依次判断各所述当前模式是否满足预设挖掘条件包括:
根据排序后的各所述单项的PEL数据结构,获取各所述当前模式的频繁度、扩展前景值和占有特征值;
按顺序依次判断所述当前模式的频繁度是否大于等于预设最小频繁度;
若是,则判断所述当前模式的占有特征值是否大于等于当前频繁度对应的初始的最大占有特征值;
若是,则确定所述当前模式满足预设挖掘条件,并将所述当前模式的占有特征值作为当前频繁度以及小于当前频繁度的其余频繁度对应的最大占有特征值,继续执行按顺序依次判断所述当前模式的频繁度是否大于等于预设最小频繁度的步骤。
4.根据权利要求3所述的方法,其特征在于,所述扩展前景值根据如下公式计算得到:
其中,ExValue(X)为模式X的扩展前景值,|item_length|为模式X的长度,Dx为事务数据集中包含模式X的事务形成的支持数据集,|Dx|为Dx中包含的事务数量,为Dx中包括的事务的长度之和,id为事务在事务数据集中的编号,Surplusid为模式X在Dx中包括的各事务中的后继模式数,Surplusid为模式X在Dx中包括的各事务中的后继模式数之和。
5.根据...
【专利技术属性】
技术研发人员:尤涛,胡焜,刘青春,杜承烈,贺睿瞢,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。