当前位置: 首页 > 专利查询>航天科工智能运筹与信息安全研究院武汉有限公司专利>正文

一种基于改进Apriori算法的相似模型检索方法技术

技术编号：32970543 阅读：13 留言：0更新日期：2022-04-09 11:36

本发明专利技术涉及一种基于改进Apriori算法的相似模型检索方法，属于相似性检索技术领域。本发明专利技术为提高Apriori关联规则挖掘效率，采用改进Apriori算法实现增量快速更新与阈值快速更新，根据“频繁项集任一子集必是频繁项集”原则，利用现有频繁项集，对新增候选项集进行剪枝，接着生成新频繁项集，然后通过频繁项集计算关联规则。最后，使用余弦相似度算法挖掘潜在相似模型。本发明专利技术为相似算法模型检索提供了高效的技术方案，具有重要的现实应用价值。具有重要的现实应用价值。具有重要的现实应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进Apriori算法的相似模型检索方法

[0001]本专利技术属于相似性检索
，具体涉及一种基于改进Apriori算法的相似模型检索方法。

技术介绍

[0002]随着计算机科学的快速发展，算法模型已成为人类重要的智慧成果，加之人工智能发展如火如荼，机器学习模型作为人工智能的“灵魂”，其知识产权保护愈加引起人们的重视。然而，当下的算法模型知识产权保护中尚存在著作权和专利权保护的纷争，算法模型只有在继承与保护中才能得到有效长远的发展。此外，在这知识井喷的时代，算法模型成果每年都有巨大的产出，面对大量算法模型数据集的算法相似性检索任务，显得尤为艰巨，使用检索技术检索相似算法模型，其效率必然是一个重要考量指标。因此，本专利技术根据算法模型的使用情况，使用改进Apriori算法挖掘算法模型之间的关联规则，提升关联规则的挖掘效率，再利用余弦相似度算法挖掘潜在相似模型，最后对潜在相似模型进行源码级别上的相似度计算或人工鉴别。该方法为算法的继承与保护提供了强有力的技术保障，避免了低相似性相关性算法模型在文本层面上进行相似度计算，造成计算资源的浪费。
[0003]计算机科学以及数据挖掘领域中，先验算法(Apriori Algorithm)是关联规则学习的经典算法之一。先验算法采用广度优先搜索算法进行搜索并采用树结构来对候选项目集进行高效计数。它通过长度为k
‑
1的候选项目集来产生长度为k的候选项目集，然后从中删除包含不常见子模式的候选项。根据向下封闭性引理,该候选项目集包含所有长度为k的频繁项

【技术保护点】

【技术特征摘要】
1.一种基于改进Apriori算法的相似模型检索方法，其特征在于，包括以下步骤：S1、选取模型数据集D，对模型数据集D进行去重、排序，创建一项候选集C1；S2、扫描数据集D，计算一项候选集C1在数据集D中的支持度，判断支持度是否大于最小支持度minSupport，大于最小支持度minSupport的项集形成一项频繁集L1；S3、根据L1进行组合计算，得到所有可能的候选项集C2，计算二项候选集C2在数据集D中的支持度，大于最小支持度minSupport的项集形成二项频繁集L2，迭代执行此步，得到k项频繁集Lk；S4、通过频繁项集Lk递归计算可信度，记录可信度大于最小可信度minConf的集合，生成关联规则；S5、新增数据集Dn，使用Apriori增量快速更新算法生成新的频繁项集Lk，再递归计算可信度，通过可信度计数生成关联规则；S6、更新最小支持度minSupport，使用Apriori阈值快速更新算法生成新的频繁项集Lk，再递归计算可信度，通过可信度计数生成关联规则；S7、使用余弦相似度算法计算S6中关联规则的相似度，对余弦相似度设定阈值剔除非潜在相似模型，得到潜在相似模型。2.如权利要求1所述的方法，其特征在于，所述Apriori增量快速更新算法是在数据集D有新增Dn的情况下，只遍历计算新增候选集的支持度计数，原有候选集不再遍历计算其支持度计数，候选集再根据支持度阈值得出频繁集。3.如权利要求1所述的方法，其特征在于，所述Apriori增量快速更新算法的具体实现流程如下：首先，Apriori增量快速更新算法每一次遍历计算候选集的支持度计数后，都将该支持度计数存储起来，然后，当数据集有新增候选集时，遍历计算新增候选集的支持度计数，再读取原有候选集的支持度计数，将原有候选集的支持度计数与新增候选集的支持度计数相加，最后，将合并后的候选集的支持度计数除以更新后的数据集总长度，得出更新后的数据集中各候选集的支持度，候选集再根据支持度阈值得出频繁集。4.如权利要求3所述的方法，其特征在于，所述数据集的更新模型中，设ssCnt为支持度，lenOld为原数据集长度，lenNew为插入新增数据集后的新数据集长度，通过公式newCnt＝ssCnt/(LenOld+LenNew)，重新计算原有频繁项集支持度，原有非频繁项...

【专利技术属性】
技术研发人员：陈晓东，马小乐，黄家辉，魏向元，王成欢，黄腾，王韫泽，秦天浩，
申请(专利权)人：航天科工智能运筹与信息安全研究院武汉有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人