一种频繁邻接序列模式挖掘方法技术

技术编号：20363130 阅读：56 留言：0更新日期：2019-02-16 16:38

本发明专利技术提供一种频繁邻接序列模式挖掘方法,包括以下步骤：序列数据整理；获取序列数据库中的所有项目的数量mt及最大的序列长度L；创建l阶空的稀疏张量与维数为l的空数组；遍历序列数据库，查询长度为l的序列并存入维数为l的数组中；将每一数组中的每一行(列)分别对应为稀疏张量中的位置索引，累计稀疏张量中每个元素的值，该值即为所对应序列模式的频数；在稀疏张量中筛选出频数在最小支持度以上的元素，该元素对应的序列模式即为频繁序列模式。去除了冗余的频繁模式和循环序列模式，同时通过利用稀疏张量数据结构，有效地避免了维度爆炸，算法时间复杂度低，在进行大规模频繁序列挖掘时有较好的时效性。本发明专利技术应用于数据挖掘技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种频繁邻接序列模式挖掘方法
本专利技术涉及数据挖掘
，尤其涉及一种频繁邻接序列模式挖掘方法。
技术介绍
序列模式挖掘是查找序列集合中的频繁序列模式的重要方法，给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，同时给定一个用户指定的最小支持度阈值minsup，序列模式挖掘就是找出所有出现频率不低于minsup的子序列。常用的基本序列模式挖掘算法有类Apriori算法(AprioriAll、AprioriSome、DynamicSome)和基于数据投影的算法(FreeSpan，PrefixSpan)等。Apriori类算法的思想大致相同，首先遍历序列数据库生成候选序列并利用先验性质进行剪枝得到频繁序列模式，每次遍历都是通过连接上次得到的频繁序列模式生成新的长度加1的候选序列，然后扫描每个候选序列验证其是否为频繁序列模式，要对数据库进行反复多次的扫描。FreeSpan算法利用当前挖掘的频繁序列模式集将序列数据库递归地投影到一组更小的投影数据库上，分别在每个投影数据库上增长子序列，PrefixSpan是FreeSpan的改进算法，其投影时不考虑所有可能出现的频繁子序列，只检查前缀序列，然后把相应的后缀投影成投影数据库，之后在其中只检查局部频繁模式，不需要生成候选子序列。PrefixSpan算法在处理数据时有较高的效率，但在实际使用时仍存在一定的问题，例如产生冗余序列等。PrefixSpan算法是挖掘频繁序列模式的经典算法，通过分而治之的策略，相较于其他算法，其具有较高的时间效率。在该算法中，序列数据库被递归地投影到一组较小的投影数据库...

【技术保护点】
1.一种频繁邻接序列模式挖掘方法，其特征在于，包括以下具体步骤：S1、对序列数据集中的数据进行整理，获取序列数据库；S2、获取序列数据库中的所有项的数量mt及最长序列的长度L；S3、创建l阶空的稀疏张量与维数为l的空数组，其中l＝2,3,···，L；S4、遍历序列数据库，查询长度为l的序列并存入维数为l的数组中，其中l＝2,3,···，L；S5、将每一数组中的每一行(列)分别对应为稀疏张量中的位置索引，累计稀疏张量中每个元素的值，该值即为所对应序列模式的频数；S6、在稀疏张量中筛选出频数在最小支持度以上的元素，该元素对应的序列模式即为频繁序列模式。

【技术特征摘要】
1.一种频繁邻接序列模式挖掘方法，其特征在于，包括以下具体步骤：S1、对序列数据集中的数据进行整理，获取序列数据库；S2、获取序列数据库中的所有项的数量mt及最长序列的长度L；S3、创建l阶空的稀疏张量与维数为l的空数组，其中l＝2,3,···，L；S4、遍历序列数据库，查询长度为l的序列并存入维数为l的数组中，其中l＝2,3,···，L；S5、将每一数组中的每一行(列)分别对应为稀疏张量中的位置索引，累计稀疏张量中每个元素的值，该值即为所对应序列模式的频数；S6...

【专利技术属性】
技术研发人员：王江，周鋆，王培超，易侃，任华，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人