频繁模式挖掘方法及装置制造方法及图纸

技术编号:19511518 阅读:22 留言:0更新日期:2018-11-21 07:54
本发明专利技术实施例提供了一种频繁模式挖掘方法及装置,本发明专利技术实施例首先将各个分词转换为对应的编码,之后利用编码进行筛选,得到目标频繁项集编码组合,其中目标频繁项集编码组合包括频繁项集中各个词汇对应的编码,利用编码组成的目标频繁项集编码组合构造FP‑Tree或进行频繁模式挖掘,而不是直接利用词汇构造FP‑Tree或进行频繁项集挖掘,可以有效降低频繁模式挖掘过程中的空间消耗。同时,本发明专利技术实施例的技术方案中利用预定长度范围筛选频繁项集对应的编码,能够针对不同应用场景进行有意义频繁模式长度的频繁模式挖掘,从而有效降低了频繁模式挖掘的时间消耗和资源消耗,增强了本发明专利技术的技术方案的工程化应用能力。

【技术实现步骤摘要】
频繁模式挖掘方法及装置
本专利技术实施例涉及数据处理
,并且更具体地,涉及一种频繁模式挖掘方法及装置。
技术介绍
频繁模式是频繁项集、子序列或子结构频繁的出现在数据集中的模式,这里的频繁项集、子序列或子结构指的是同时出现在数据集中的两个或多个词汇。频繁模式对于挖掘数据之间的关联、相关性和许多其他方面的联系能够起到至关重要的作用,此外,对频繁模式的研究有助于数据分类、数据聚类以及其他方面的数据挖掘,因此频繁模式的挖掘就成了一项重要的数据挖掘任务和数据挖掘研究关注的问题。当前,对频繁模式的挖掘主要依靠两种算法:Apriori算法和FPGrowth算法。其中,Apriori算法在对频繁模式挖掘过程中,首先形成候选项集,然后对候选项集进行匹配以及计数,来判断这些候选项集是不是频繁项集。该算法会产生大量的候选项集,造成空间的大量消耗,并且匹配数据量庞大的候选集会产生巨大的时间以及资源消耗,代价非常大。为了避免产生并匹配大数据量的候选项集,现有技术中提出了上述FPGrowth算法,该算法直接接收分隔完成的数据集,并利用该数据集构造FP-Tree,之后利用递归的方法在FP-Tree上进行频繁模式挖掘,该方法能够挖掘到频繁模式而不产生上述候选集合,客服了上述Apriori算法的缺陷。但是FPGrowth算法直接以文本分词、间隔作为其输入,空间开销很大,此外FPGrowth算法由频繁模式长度为1开始进行频繁模式挖掘,在挖掘过程中,频繁模式长度递增,直到挖掘结束,而在实际应用场景中,更多关注的是对特定频繁模式长度的频繁模式挖掘,因此上述方式的挖掘进行了大量没有意义的工作,造成资源和时间的浪费,并且造成了FPGrowth算法的工程化应用能力较弱。综上,如何降低频繁模式挖掘过程中空间、时间以及资源消耗成为目前亟需解决的技术问题。
技术实现思路
本专利技术实施例提供一种频繁模式挖掘方法及装置,其能够降低频繁模式挖掘过程中的空间消耗,并且能够针对不同应用场景进行有意义频繁模式长度的频繁模式挖掘,从而有效降低了频繁模式挖掘的时间消耗和资源消耗。第一方面,提供了一种频繁模式挖掘方法,所述方法包括如下步骤:将结构化数据集中的各个分词转换为对应的编码,形成各个分词与对应的编码的一一映射关系;将各个所述编码中的任意N个编码进行组合,得到若干个第一候选组合,并筛选满足第一预定条件的所述第一候选组合,得到若干个第二候选组合;其中,N为大于或等于2的正整数,所述满足预定条件的所述第一候选组合为其中的所有编码对应的词汇的长度均在预定长度范围之内的第一候选组合;筛选满足第二预定条件的所述第二候选组合,得到若干个目标频繁项集编码组合;其中,所述满足第二预定条件的所述第二候选组合为其支持度在预定支持度范围内的第二候选组合;根据所述分词与对应的编码的一一映射关系,获取每个所述目标频繁项集编码组合对应的分词,得到每个所述目标频繁项集编码组合对应的频繁项集。结合第一方面,在第一种可能的实现方式中,所述方法还包括如下步骤:根据所述结构化数据集中,各个分词的数据源文件以及对应的编码,形成编码与数据源文件的标识的映射关系;其中,每个所述数据源文件具有一个唯一的所述标识;根据所述编码与所述标识的映射关系,确定每个所述目标频繁项集编码组合中各个编码对应的所述标识的交集,得到每个所述目标频繁项集编码组合对应的所述标识的集合;根据每个所述标识的集合,确定每个所述目标频繁项集编码组合对应的源文件的集合。结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括形成所述结构化数据集的步骤,该步骤包括如下子步骤:对输入文本进行切分词处理,得到包含若干个分词的分词数据集;利用停用词集合,去除所述分词数据集中的停用词;去除所述分词数据集中的重复分词,只保留其中的一个分词;对所述分词数据集中的各个分词进行分隔分词的处理,得到满足预定结构的结构化数据集。结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述方法在获取每个所述目标频繁项集编码组合对应的分词之前,还包括如下步骤:利用各个所述目标频繁项集编码组合构建FP-Tree。结合第一方面,在第四种可能的实现方式中,所述方法利用如下步骤确定所述第二候选组合的所述支持度:确定当前所述第二候选组合中的各个编码;根据所述分词与对应的编码的一一映射关系以及所述编码与所述标识的映射关系,筛选当前所述第二候选组合中的各个编码对应的分词共同出现的数据源文件,并计算筛选得到的数据源文件的数量,得到共现文件数量;根据所述分词与对应的编码的一一映射关系以及所述编码与所述标识的映射关系,计算每个所述第二候选组合中各个编码对应的数据源文件的数量的和,得到每个所述第二候选组合对应的源文件数量;计算所有的所述源文件数量的和,得到源文件总数量;计算所述共现文件数量与所述源文件总数量的商,得到当前所述第二候选组合的支持度。结合第一方面,在第五可能的实现方式中,所述方法还包括设置所述预定支持度范围以及所述预定长度范围的步骤。第二方面,提供了一种频繁模式挖掘装置,所述装置包括:编码转换模块,用于将结构化数据集中的各个分词转换为对应的编码,形成各个分词与对应的编码的一一映射关系;第一筛选模块,用于将各个所述编码中的任意N个编码进行组合,得到若干个第一候选组合,并筛选满足第一预定条件的所述第一候选组合,得到若干个第二候选组合;其中,N为大于或等于2的正整数,所述满足预定条件的所述第一候选组合为其中的所有编码对应的词汇的长度均在预定长度范围之内的第一候选组合;第二筛选模块,用于筛选满足第二预定条件的所述第二候选组合,得到若干个目标频繁项集编码组合;其中,所述满足第二预定条件的所述第二候选组合为其支持度在预定支持度范围内的第二候选组合;频繁项集确定模块,用于根据所述分词与对应的编码的一一映射关系,获取每个所述目标频繁项集编码组合对应的分词,得到每个所述目标频繁项集编码组合对应的频繁项集。结合第二方面,在第一种可能的实现方式中,所述装置还包括:数据源追踪模块,用于根据所述结构化数据集中,各个分词的数据源文件以及对应的编码,形成编码与数据源文件的标识的映射关系;其中,每个所述数据源文件具有一个唯一的所述标识;源文件获取模块,用于根据所述编码与所述标识的映射关系,确定每个所述目标频繁项集编码组合中各个编码对应的所述标识的交集,得到每个所述目标频繁项集编码组合对应的所述标识的集合;源文件确定模块,用于根据每个所述标识的集合,确定每个所述目标频繁项集编码组合对应的源文件的集合。结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括数据处理模块,所述数据处理模块用于对输入文件进行预处理,得到所述结构化数据集;所述数据处理模块包括:切分词子模块,用于对输入文本进行切分词处理,得到包含若干个分词的分词数据集;停用词处理子模块,用于利用停用词集合,去除所述分词数据集中的停用词;去重子模块,用于去除所述分词数据集中的重复分词,只保留其中的一个分词;分隔分词子模块,用于对所述分词数据集中的各个分词进行分隔分词的处理,得到满足预定结构的结构化数据集。结合第二方面,在第三种可能的实现方式中,所述装置还包括支持度确定模块,用于确本文档来自技高网
...

【技术保护点】
1.一种频繁模式挖掘方法,其特征在于,所述方法包括如下步骤:将结构化数据集中的各个分词转换为对应的编码,形成各个分词与对应的编码的一一映射关系;将各个所述编码中的任意N个编码进行组合,得到若干个第一候选组合,并筛选满足第一预定条件的所述第一候选组合,得到若干个第二候选组合;其中,N为大于或等于2的正整数,所述满足预定条件的所述第一候选组合为其中的所有编码对应的分词的长度均在预定长度范围之内的第一候选组合;筛选满足第二预定条件的所述第二候选组合,得到若干个目标频繁项集编码组合;其中,所述满足第二预定条件的所述第二候选组合为其支持度在预定支持度范围内的第二候选组合;根据所述分词与对应的编码的一一映射关系,获取每个所述目标频繁项集编码组合对应的分词,得到每个所述目标频繁项集编码组合对应的频繁项集。

【技术特征摘要】
1.一种频繁模式挖掘方法,其特征在于,所述方法包括如下步骤:将结构化数据集中的各个分词转换为对应的编码,形成各个分词与对应的编码的一一映射关系;将各个所述编码中的任意N个编码进行组合,得到若干个第一候选组合,并筛选满足第一预定条件的所述第一候选组合,得到若干个第二候选组合;其中,N为大于或等于2的正整数,所述满足预定条件的所述第一候选组合为其中的所有编码对应的分词的长度均在预定长度范围之内的第一候选组合;筛选满足第二预定条件的所述第二候选组合,得到若干个目标频繁项集编码组合;其中,所述满足第二预定条件的所述第二候选组合为其支持度在预定支持度范围内的第二候选组合;根据所述分词与对应的编码的一一映射关系,获取每个所述目标频繁项集编码组合对应的分词,得到每个所述目标频繁项集编码组合对应的频繁项集。2.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:根据所述结构化数据集中,各个分词的数据源文件以及对应的编码,形成编码与数据源文件的标识的映射关系;其中,每个所述数据源文件具有一个唯一的所述标识;根据所述编码与所述标识的映射关系,确定每个所述目标频繁项集编码组合中各个编码对应的所述标识的交集,得到每个所述目标频繁项集编码组合对应的所述标识的集合;根据每个所述标识的集合,确定每个所述目标频繁项集编码组合对应的数据源文件的集合。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括形成所述结构化数据集的步骤,该步骤包括如下子步骤:对输入文本进行切分词处理,得到包含若干个分词的分词数据集;利用停用词集合,去除所述分词数据集中的停用词;去除所述分词数据集中的重复分词,只保留其中的一个分词;对所述分词数据集中的各个分词进行分隔分词的处理,得到满足预定结构的结构化数据集。4.根据权利要求2所述的方法,其特征在于,所述方法在获取每个所述目标频繁项集编码组合对应的分词之前,还包括如下步骤:利用各个所述目标频繁项集编码组合构建FP-Tree。5.根据权利要求1所述的方法,其特征在于,所述方法利用如下步骤确定所述第二候选组合的所述支持度:确定当前所述第二候选组合中的各个编码;根据所述分词与对应的编码的一一映射关系以及所述编码与所述标识的映射关系,筛选当前所述第二候选组合中的各个编码对应的分词共同出现的数据源文件,并计算筛选得到的数据源文件的数量,得到共现文件数量;根据编码与标识的映射关系,计算得到每个第二候选组合对应的源文件数量;其中,源文件数量即为对应的第二候选组合中各个编码对应的数据源文件的数量的和;计算所有的所述源文件数量的和,得到源文件总数量;计算所述共现文件数量与所述源文件总数量的商,得到当前所述第二候选组合的支持度。6.根据权利要求1所述的方法,其特征在于,所述方法还包括设置所述预定支持度范围以及所述预定长度范围的步骤。7.一种频繁模式挖掘装置,其特征在于,所述装置包括:编码转换模...

【专利技术属性】
技术研发人员:李德彦晋耀红席丽娜
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1