一种自适应的分布式流数据关联规则挖掘方法技术

技术编号：28498410 阅读：26 留言：0更新日期：2021-05-19 22:36

本发明专利技术公开了一种自适应的分布式流数据关联规则挖掘方法，属于机器学习数据挖掘技术领域。本方法，在分布式计算集群中每个节点使用滑动时间窗口对单位时间内流式数据进行关联规则挖掘，然后对结果进行汇总得到当前一个时间段内的频繁项集。随后，利用深度强化学习方法对系统参数进行调整。本方法将关联规则挖掘技术、流式数据处理以及深度强化学习方法结合起来，不需要人工对数据进行标注，大大节省人工成本。同时，采用流式算法动态维护模型，可快速实时分析，能够广泛应用于物联网设备环境数据分析、电力状态实时监控分析、金融数据实时分析等众多领域。时分析等众多领域。时分析等众多领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应的分布式流数据关联规则挖掘方法

[0001]本专利技术涉及一种自适应的分布式流数据关联规则挖掘方法，属于机器学习数据挖掘

技术介绍

[0002]关联规则挖掘是数据挖掘领域的热门应用方向，旨在发现数据集中项与项之间的关系，在生活中有很多应用场景。例如，“购物篮分析”是一个常见的应用场景，利用关联规则挖掘技术，可以从消费者的消费记录中，发掘商品与商品之间的关联关系，进而通过绑定商品销售来提高销量。
[0003]传统的关联规则挖掘方法，专注于单机批量静态数据集，通过指定最小置信度进行挖掘。目前，常见的批量关联规则挖掘方法有Apriori、FP
‑
growth等。
[0004]分布式关联规则挖掘方法，通过对在分布式计算集群中不同节点的计算结果进行合并，得到当前系统数据分析的最终结果，将大数据分析庞大的计算任务进行拆分，利用集群中多台计算节点进行平均，能够实现超大规模数据的分析处理任务。
[0005]数据流，是一个用于支持实时分析的抽象的算法概念，是指一系列数据项以流的方式一个个的访问。数据流的挑战在于：算法要求实时维护模型，同时数据流代表数据是无限的，为了节省时间和空间，往往需要接受近似解决方案。
[0006]强化学习是解决马尔科夫决策过程问题的重要方法。相较于机器学习经典的有监督学习、无监督学习，强化学习可以在交互中学习，能够根据与环境交互过程中获得的奖励与惩罚不断学习知识，以动态调整系统参数。因此，强化学习适用于流式数据的分析方法，在数据动态变化的过程...

【技术保护点】

【技术特征摘要】
1.一种自适应的分布式流数据关联规则挖掘方法，其特征在于，包括以下步骤：步骤1：初始化系统参数：对关联规则挖掘处理过程中的各项参数进行预设，包括关联规则挖掘的最小支持度、最小置信度、数据挖掘最小覆盖率和最小误差；步骤2：对流式数据进行归一化处理：将数据流中当前transaction中的数据项进行标量化，生成数据项与标量的映射；步骤3：使用关联规则挖掘算法，对当前时间窗口内的流式数据进行处理，得到当前计算节点在一个时间段内的滑动窗口内的数据的关联规则；步骤4：合并分布式计算结果，并对计算结果进行评价：将分布式计算集群各计算节点关联规则挖掘的结果进行合并处理，得到当前时间段内关联规则挖掘的结果，评价数据处理的指标包括频繁项集挖掘的覆盖率：Coverage＝σ(stream)/σ(static)
ꢀꢀꢀꢀꢀ
(4)其中，σ(static)表示在静态数据集下关联规则挖掘的频繁项集数量，σ(stream)表示流式数据处理得到的频繁项集数量；召回率表示挖掘出的频繁项集数目与处理过的数据总数的比值：Recall＝σ(stream)/σ(N)
ꢀꢀꢀꢀꢀꢀꢀ
(5)其中，σ(N)表示处理过的数据总数。步骤5：深度强化学习，自动调整参数，并将调整后的系统参数应用于系统下一个时间段的滑动窗口的数据处理；关联规则挖掘得到的结果评价函数为f，而f
t
表示在时间段t得到的处理结果评价函数的累积奖赏和，设r
t
为神经网络观测系统执行动作a
t
‑1后得到的奖励/惩罚，则：f
t
‘
＝∑γ
t
′‑
t
·<...

【专利技术属性】
技术研发人员：闫波，赵菊文，宿红毅，郑宏，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人