一种基于改进Apriori算法的相似模型检索方法技术

技术编号:32970543 阅读:13 留言:0更新日期:2022-04-09 11:36
本发明专利技术涉及一种基于改进Apriori算法的相似模型检索方法,属于相似性检索技术领域。本发明专利技术为提高Apriori关联规则挖掘效率,采用改进Apriori算法实现增量快速更新与阈值快速更新,根据“频繁项集任一子集必是频繁项集”原则,利用现有频繁项集,对新增候选项集进行剪枝,接着生成新频繁项集,然后通过频繁项集计算关联规则。最后,使用余弦相似度算法挖掘潜在相似模型。本发明专利技术为相似算法模型检索提供了高效的技术方案,具有重要的现实应用价值。具有重要的现实应用价值。具有重要的现实应用价值。

【技术实现步骤摘要】
一种基于改进Apriori算法的相似模型检索方法


[0001]本专利技术属于相似性检索
,具体涉及一种基于改进Apriori算法的相似模型检索方法。

技术介绍

[0002]随着计算机科学的快速发展,算法模型已成为人类重要的智慧成果,加之人工智能发展如火如荼,机器学习模型作为人工智能的“灵魂”,其知识产权保护愈加引起人们的重视。然而,当下的算法模型知识产权保护中尚存在著作权和专利权保护的纷争,算法模型只有在继承与保护中才能得到有效长远的发展。此外,在这知识井喷的时代,算法模型成果每年都有巨大的产出,面对大量算法模型数据集的算法相似性检索任务,显得尤为艰巨,使用检索技术检索相似算法模型,其效率必然是一个重要考量指标。因此,本专利技术根据算法模型的使用情况,使用改进Apriori算法挖掘算法模型之间的关联规则,提升关联规则的挖掘效率,再利用余弦相似度算法挖掘潜在相似模型,最后对潜在相似模型进行源码级别上的相似度计算或人工鉴别。该方法为算法的继承与保护提供了强有力的技术保障,避免了低相似性相关性算法模型在文本层面上进行相似度计算,造成计算资源的浪费。
[0003]计算机科学以及数据挖掘领域中,先验算法(Apriori Algorithm)是关联规则学习的经典算法之一。先验算法采用广度优先搜索算法进行搜索并采用树结构来对候选项目集进行高效计数。它通过长度为k

1的候选项目集来产生长度为k的候选项目集,然后从中删除包含不常见子模式的候选项。根据向下封闭性引理,该候选项目集包含所有长度为k的频繁项目集。之后,就可以通过扫描交易数据库来决定候选项目集中的频繁项目集。
[0004]关联规则挖掘是由Rakesh Agrawal等人在1993年的SIDMOD会议上提出,经过了二十几年的发展,目前在互联网、电商、医疗、金融等行业得到广泛应用。D.W.Cheung等人提出了关联规则快速更新算法FUP,解决了在最小支持度和最小置信度保持不变的情况下,增加数据集时的关联规则更新问题。在国内,冯玉才等人提出了IUA和PIUA算法,解决了最小支持度和最小置信度发生变化的情况下,关联规则快速更新的问题。上述研究表面,Apriori在频繁项集的挖掘效率仍然存在许多改进空间,其应用场景也存在许多探索空间。本专利技术使用Apriori关联规则算法应用于潜在相似模型挖掘,开辟Apriori关联规则算法在相似性检索领域的开创性应用。

技术实现思路

[0005](一)要解决的技术问题
[0006]本专利技术要解决的技术问题是:如何设计一种快速高效的潜在相似模型检索方案。
[0007](二)技术方案
[0008]为了解决上述技术问题,本专利技术提供了一种基于改进Apriori算法的相似模型检索方法,包括以下步骤:
[0009]S1、选取模型数据集D,对模型数据集D进行去重、排序,创建一项候选集C1;
[0010]S2、扫描数据集D,计算一项候选集C1在数据集D中的支持度,判断支持度是否大于最小支持度minSupport,大于最小支持度minSupport的项集形成一项频繁集L1;
[0011]S3、根据L1进行组合计算,得到所有可能的候选项集C2,计算二项候选集C2在数据集D中的支持度,大于最小支持度minSupport的项集形成二项频繁集L2,迭代执行此步,得到k项频繁集Lk;
[0012]S4、通过频繁项集Lk递归计算可信度,记录可信度大于最小可信度minConf的集合,生成关联规则;
[0013]S5、新增数据集Dn,使用Apriori增量快速更新算法快速生成新的频繁项集Lk,再递归计算可信度,通过可信度计数生成关联规则;
[0014]S6、更新最小支持度minSupport,使用Apriori阈值快速更新算法生成新的频繁项集Lk,再递归计算可信度,通过可信度计数生成关联规则;
[0015]S7、使用余弦相似度算法计算S6中关联规则rules的相似度,对余弦相似度设定阈值剔除非潜在相似模型,得到潜在相似模型。
[0016]优选地,所述Apriori增量快速更新算法是在数据集D有新增Dn的情况下,只遍历计算新增候选集的支持度计数,原有候选集不再遍历计算其支持度计数,候选集再根据支持度阈值得出频繁集。
[0017]优选地,所述Apriori增量快速更新算法的具体实现流程如下:
[0018]首先,Apriori增量快速更新算法每一次遍历计算候选集的支持度计数后,都将该支持度计数存储起来,然后,当数据集有新增候选集时,遍历计算新增候选集的支持度计数,再读取原有候选集的支持度计数,将原有候选集的支持度计数与新增候选集的支持度计数相加,最后,将合并后的候选集的支持度计数除以更新后的数据集总长度,得出更新后的数据集中各候选集的支持度,候选集再根据支持度阈值得出频繁集。
[0019]优选地,所述数据集的更新模型中,设ssCnt为支持度,lenOld为原数据集长度,lenNew为插入新增数据集后的新数据集长度,通过公式newCnt=ssCnt/(LenOld+LenNew),重新计算原有频繁项集支持度,原有非频繁项集与新增候选集组成并集计算支持度,将原有频繁项集支持度与并集计算支持度相加再作阈值判断得到新频繁项集。
[0020]优选地,所述Apriori阈值快速更新算法是在支持度阈值更新后,只遍历计算因阈值更新而产生的新的候选集,原本满足支持度阈值的候选集不再做遍历计算,候选集再根据新的支持度阈值得出频繁集。
[0021]优选地,支持度阈值更新包括两种情况:情况一,新支持度阈值比原支持度阈值大,此时利用频繁项集的支持度计数,通过遍历之间删除不满足newSupport的频繁项集;情况二,新支持度阈值比原支持度阈值小,此时重新计算频繁一项集newL1,得到新增频繁一项集L1

=newL1

L1,将满足新最小支持度newSupport的频繁项集Lk分为三类:
[0022]①
第一类频繁集Lk1:候选集通过apriori_gen(Lk1‑
1)得出;
[0023]②
第二类频繁集Lk2:候选集通过apriori_gen(Lk2‑1′
)得出;
[0024]③
第三类频繁集Lk3:候选集通过apriori_gen(Lk3‑
1,Lk3‑1′
)得出;
[0025]分别针对这三类频繁集,进行处理,其中apriori_gen()函数用于计算频繁项集组合而成所有可能的候选集。
[0026]优选地,对于类型

,通过apriori_gen(Lk1‑
1)

Lk1的方式修剪这部分候选集,并
计算剩余候选数据集在数据集D中的支持度。
[0027]优选地,对于类型

,直接计算候选集apriori_gen(Lk2‑1′
)在数据集D中的支持度。...

【技术保护点】

【技术特征摘要】
1.一种基于改进Apriori算法的相似模型检索方法,其特征在于,包括以下步骤:S1、选取模型数据集D,对模型数据集D进行去重、排序,创建一项候选集C1;S2、扫描数据集D,计算一项候选集C1在数据集D中的支持度,判断支持度是否大于最小支持度minSupport,大于最小支持度minSupport的项集形成一项频繁集L1;S3、根据L1进行组合计算,得到所有可能的候选项集C2,计算二项候选集C2在数据集D中的支持度,大于最小支持度minSupport的项集形成二项频繁集L2,迭代执行此步,得到k项频繁集Lk;S4、通过频繁项集Lk递归计算可信度,记录可信度大于最小可信度minConf的集合,生成关联规则;S5、新增数据集Dn,使用Apriori增量快速更新算法生成新的频繁项集Lk,再递归计算可信度,通过可信度计数生成关联规则;S6、更新最小支持度minSupport,使用Apriori阈值快速更新算法生成新的频繁项集Lk,再递归计算可信度,通过可信度计数生成关联规则;S7、使用余弦相似度算法计算S6中关联规则的相似度,对余弦相似度设定阈值剔除非潜在相似模型,得到潜在相似模型。2.如权利要求1所述的方法,其特征在于,所述Apriori增量快速更新算法是在数据集D有新增Dn的情况下,只遍历计算新增候选集的支持度计数,原有候选集不再遍历计算其支持度计数,候选集再根据支持度阈值得出频繁集。3.如权利要求1所述的方法,其特征在于,所述Apriori增量快速更新算法的具体实现流程如下:首先,Apriori增量快速更新算法每一次遍历计算候选集的支持度计数后,都将该支持度计数存储起来,然后,当数据集有新增候选集时,遍历计算新增候选集的支持度计数,再读取原有候选集的支持度计数,将原有候选集的支持度计数与新增候选集的支持度计数相加,最后,将合并后的候选集的支持度计数除以更新后的数据集总长度,得出更新后的数据集中各候选集的支持度,候选集再根据支持度阈值得出频繁集。4.如权利要求3所述的方法,其特征在于,所述数据集的更新模型中,设ssCnt为支持度,lenOld为原数据集长度,lenNew为插入新增数据集后的新数据集长度,通过公式newCnt=ssCnt/(LenOld+LenNew),重新计算原有频繁项集支持度,原有非频繁项...

【专利技术属性】
技术研发人员:陈晓东马小乐黄家辉魏向元王成欢黄腾王韫泽秦天浩
申请(专利权)人:航天科工智能运筹与信息安全研究院武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1