【技术实现步骤摘要】
频繁模式挖掘方法及装置
本专利技术实施例涉及数据处理
,并且更具体地,涉及一种频繁模式挖掘方法及装置。
技术介绍
频繁模式是频繁项集、子序列或子结构频繁的出现在数据集中的模式,这里的频繁项集、子序列或子结构指的是同时出现在数据集中的两个或多个词汇。频繁模式对于挖掘数据之间的关联、相关性和许多其他方面的联系能够起到至关重要的作用,此外,对频繁模式的研究有助于数据分类、数据聚类以及其他方面的数据挖掘,因此频繁模式的挖掘就成了一项重要的数据挖掘任务和数据挖掘研究关注的问题。当前,对频繁模式的挖掘主要依靠两种算法:Apriori算法和FPGrowth算法。其中,Apriori算法在对频繁模式挖掘过程中,首先形成候选项集,然后对候选项集进行匹配以及计数,来判断这些候选项集是不是频繁项集。该算法会产生大量的候选项集,造成空间的大量消耗,并且匹配数据量庞大的候选集会产生巨大的时间以及资源消耗,代价非常大。为了避免产生并匹配大数据量的候选项集,现有技术中提出了上述FPGrowth算法,该算法直接接收分隔完成的数据集,并利用该数据集构造FP-Tree,之后利用递归的方法在FP-Tree上进行频繁模式挖掘,该方法能够挖掘到频繁模式而不产生上述候选集合,客服了上述Apriori算法的缺陷。但是FPGrowth算法直接以文本分词、间隔作为其输入,空间开销很大,此外FPGrowth算法由频繁模式长度为1开始进行频繁模式挖掘,在挖掘过程中,频繁模式长度递增,直到挖掘结束,而在实际应用场景中,更多关注的是对特定频繁模式长度的频繁模式挖掘,因此上述方式的挖掘进行了大量没有意义的工作 ...
【技术保护点】
1.一种频繁模式挖掘方法,其特征在于,所述方法包括如下步骤:将结构化数据集中的各个分词转换为对应的编码,形成各个分词与对应的编码的一一映射关系;将各个所述编码中的任意N个编码进行组合,得到若干个第一候选组合,并筛选满足第一预定条件的所述第一候选组合,得到若干个第二候选组合;其中,N为大于或等于2的正整数,所述满足预定条件的所述第一候选组合为其中的所有编码对应的分词的长度均在预定长度范围之内的第一候选组合;筛选满足第二预定条件的所述第二候选组合,得到若干个目标频繁项集编码组合;其中,所述满足第二预定条件的所述第二候选组合为其支持度在预定支持度范围内的第二候选组合;根据所述分词与对应的编码的一一映射关系,获取每个所述目标频繁项集编码组合对应的分词,得到每个所述目标频繁项集编码组合对应的频繁项集。
【技术特征摘要】
1.一种频繁模式挖掘方法,其特征在于,所述方法包括如下步骤:将结构化数据集中的各个分词转换为对应的编码,形成各个分词与对应的编码的一一映射关系;将各个所述编码中的任意N个编码进行组合,得到若干个第一候选组合,并筛选满足第一预定条件的所述第一候选组合,得到若干个第二候选组合;其中,N为大于或等于2的正整数,所述满足预定条件的所述第一候选组合为其中的所有编码对应的分词的长度均在预定长度范围之内的第一候选组合;筛选满足第二预定条件的所述第二候选组合,得到若干个目标频繁项集编码组合;其中,所述满足第二预定条件的所述第二候选组合为其支持度在预定支持度范围内的第二候选组合;根据所述分词与对应的编码的一一映射关系,获取每个所述目标频繁项集编码组合对应的分词,得到每个所述目标频繁项集编码组合对应的频繁项集。2.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:根据所述结构化数据集中,各个分词的数据源文件以及对应的编码,形成编码与数据源文件的标识的映射关系;其中,每个所述数据源文件具有一个唯一的所述标识;根据所述编码与所述标识的映射关系,确定每个所述目标频繁项集编码组合中各个编码对应的所述标识的交集,得到每个所述目标频繁项集编码组合对应的所述标识的集合;根据每个所述标识的集合,确定每个所述目标频繁项集编码组合对应的数据源文件的集合。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括形成所述结构化数据集的步骤,该步骤包括如下子步骤:对输入文本进行切分词处理,得到包含若干个分词的分词数据集;利用停用词集合,去除所述分词数据集中的停用词;去除所述分词数据集中的重复分词,只保留其中的一个分词;对所述分词数据集中的各个分词进行分隔分词的处理,得到满足预定结构的结构化数据集。4.根据权利要求2所述的方法,其特征在于,所述方法在获取每个所述目标频繁项集编码组合对应的分词之前,还包括如下步骤:利用各个所述目标频繁项集编码组合构建FP-Tree。5.根据权利要求1所述的方法,其特征在于,所述方法利用如下步骤确定所述第二候选组合的所述支持度:确定当前所述第二候选组合中的各个编码;根据所述分词与对应的编码的一一映射关系以及所述编码与所述标识的映射关系,筛选当前所述第二候选组合中的各个编码对应的分词共同出现的数据源文件,并计算筛选得到的数据源文件的数量,得到共现文件数量;根据编码与标识的映射关系,计算得到每个第二候选组合对应的源文件数量;其中,源文件数量即为对应的第二候选组合中各个编码对应的数据源文件的数量的和;计算所有的所述源文件数量的和,得到源文件总数量;计算所述共现文件数量与所述源文件总数量的商,得到当前所述第二候选组合的支持度。6.根据权利要求1所述的方法,其特征在于,所述方法还包括设置所述预定支持度范围以及所述预定长度范围的步骤。7.一种频繁模式挖掘装置,其特征在于,所述装置包括:编码转换模...
【专利技术属性】
技术研发人员:李德彦,晋耀红,席丽娜,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。