一种自适应的分布式流数据关联规则挖掘方法技术

技术编号:28498410 阅读:26 留言:0更新日期:2021-05-19 22:36
本发明专利技术公开了一种自适应的分布式流数据关联规则挖掘方法,属于机器学习数据挖掘技术领域。本方法,在分布式计算集群中每个节点使用滑动时间窗口对单位时间内流式数据进行关联规则挖掘,然后对结果进行汇总得到当前一个时间段内的频繁项集。随后,利用深度强化学习方法对系统参数进行调整。本方法将关联规则挖掘技术、流式数据处理以及深度强化学习方法结合起来,不需要人工对数据进行标注,大大节省人工成本。同时,采用流式算法动态维护模型,可快速实时分析,能够广泛应用于物联网设备环境数据分析、电力状态实时监控分析、金融数据实时分析等众多领域。时分析等众多领域。时分析等众多领域。

【技术实现步骤摘要】
一种自适应的分布式流数据关联规则挖掘方法


[0001]本专利技术涉及一种自适应的分布式流数据关联规则挖掘方法,属于机器学习数据挖掘


技术介绍

[0002]关联规则挖掘是数据挖掘领域的热门应用方向,旨在发现数据集中项与项之间的关系,在生活中有很多应用场景。例如,“购物篮分析”是一个常见的应用场景,利用关联规则挖掘技术,可以从消费者的消费记录中,发掘商品与商品之间的关联关系,进而通过绑定商品销售来提高销量。
[0003]传统的关联规则挖掘方法,专注于单机批量静态数据集,通过指定最小置信度进行挖掘。目前,常见的批量关联规则挖掘方法有Apriori、FP

growth等。
[0004]分布式关联规则挖掘方法,通过对在分布式计算集群中不同节点的计算结果进行合并,得到当前系统数据分析的最终结果,将大数据分析庞大的计算任务进行拆分,利用集群中多台计算节点进行平均,能够实现超大规模数据的分析处理任务。
[0005]数据流,是一个用于支持实时分析的抽象的算法概念,是指一系列数据项以流的方式一个个的访问。数据流的挑战在于:算法要求实时维护模型,同时数据流代表数据是无限的,为了节省时间和空间,往往需要接受近似解决方案。
[0006]强化学习是解决马尔科夫决策过程问题的重要方法。相较于机器学习经典的有监督学习、无监督学习,强化学习可以在交互中学习,能够根据与环境交互过程中获得的奖励与惩罚不断学习知识,以动态调整系统参数。因此,强化学习适用于流式数据的分析方法,在数据动态变化的过程中,不断对模型进行调整与修正。

技术实现思路

[0007]本专利技术的目的是为了解决分布式流式数据中的关联规则挖掘问题,创造性地提出一种自适应的分布式流数据关联规则挖掘方法。本方法将关联规则挖掘技术、流式数据处理以及深度强化学习方法结合起来,可以广泛应用于物联网设备环境数据分析、电力状态实时监控分析、金融数据实时分析等众多领域。
[0008]本专利技术方法的创新点在于:在分布式计算集群中每个节点使用滑动时间窗口对单位时间内流式数据进行关联规则挖掘,然后对结果进行汇总得到当前一个时间段内的频繁项集。随后,利用深度强化学习方法对系统参数进行调整。针对有变化趋势的领域,如股票组合分析量化投资等,能够有较好的效果。
[0009]本专利技术采用以下技术方案实现:
[0010]一种自适应的分布式流数据关联规则挖掘方法,包括以下步骤:
[0011]步骤1:初始化系统参数。包括关联规则挖掘的最小支持度、最小置信度、数据挖掘最小覆盖率、最小误差,等等。
[0012]步骤2:对流式数据进行归一化,将数据流中当前transaction中的数据项进行标
量化,生成数据项与标量的映射;
[0013]步骤3:使用关联规则挖掘算法,对当前时间窗口内的数据进行处理,得到当前计算节点在一个时间段内的关联规则;
[0014]步骤4:对分布式计算集群各计算节点中计算得到的关联规则分析结果进行汇总,利用前缀树进行合并,得到当前时间段内系统处理的数据集的关联规则;
[0015]步骤5:将本阶段得到的分析结果相对于历史数据指标,包括准确率、覆盖率等,作为模型样本,可以使用在线演员

评论家方法(Actor

Critic method),对最小置信度、最大误差率等参数进行动态调整,并将调整后的系统参数应用于系统下一个时间段的滑动窗口的数据处理。
[0016]有益效果
[0017]本专利技术方法,对比现有技术,具有以下优点:
[0018]本方法采用无监督方式,不需要人工对数据进行标注,大大节省人工成本。同时,采用流式算法动态维护模型,可快速实时分析。本方法可适应大规模数据的关联规则挖掘。
附图说明
[0019]图1为流式数据标量化的案例;
[0020]图2为分布式计算集群合并关联规则挖掘结果的示例;
[0021]图3为自适应的关联规则挖掘系统流程图。
[0022]具体实施方法
[0023]下面结合附图对本专利技术方法做进一步说明。
[0024]一种自适应的分布式流数据关联规则挖掘方法,包括以下步骤:
[0025]步骤1:预设系统各项参数。
[0026]使用先验知识,对关联规则挖掘处理过程中的各项参数进行预设,包括关联规则挖掘的最小支持度、最小置信度、数据挖掘最小覆盖率、最小误差。
[0027]其中,关联规则挖掘的最小置信度为θ(θ∈(0,1]),滑动窗口大小N,针对流式数据中的任一transaction P,若满足:
[0028]freq(P,N)≥θ
×
N
ꢀꢀꢀ
(1)
[0029]则为最后挖掘所得结果。
[0030]设置最大置信度误差ε,ε∈(0,θ),若当前transaction P满足:
[0031]freq(P,N)<ε
×
θ
×
N
ꢀꢀꢀ
(2)
[0032]则将其丢弃。
[0033]步骤2:方法接入流式数据进行处理。
[0034]为提高数据挖掘的精度、降低处理复杂度,将流式数据中的transaction进行标量化,将所有的项进行标量映射。
[0035]具体地,对于数据项I(I∈P),有映射F,使得:
[0036]I
F
=F(I)
ꢀꢀꢀ
(3)
[0037]其中,I为输入数据,I
F
为对应的归一化之后的标量表示。
[0038]步骤3:对关联规则进行挖掘。
[0039]对于流式数据中的每一条transaction,根据公式(1)和(2),对当前时间段内滑动
窗口内的数据的关联规则进行挖掘。
[0040]步骤4:合并分布式计算结果,并对计算结果进行评价。
[0041]将分布式计算集群中各节点关联规则挖掘的结果进行合并处理,得到当前时间段内关联规则挖掘的结果,合并过程如图2所示。
[0042]评价数据处理的指标包括频繁项集挖掘的覆盖率:
[0043]Coverage=σ(stream)/σ(static)
ꢀꢀꢀ
(4)
[0044]其中,σ(static)表示在静态数据集下关联规则挖掘的频繁项集数量,σ(stream)表示流式数据处理得到的频繁项集数量。
[0045]召回率表示挖掘出的频繁项集数目与处理过的数据总数的比值:
[0046]Recall=σ(stream)/σ(N)
ꢀꢀꢀ
(5)
[0047]其中,σ(N)表示处理过的数据总数。
[0048]步骤5:深度强化学习,自动调整参数,并将调整后的系统参数应用于系统下一个时间段的滑动窗口的数据处理。
[0049]关联规则挖掘得到的结果评价函数为f,而f<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应的分布式流数据关联规则挖掘方法,其特征在于,包括以下步骤:步骤1:初始化系统参数:对关联规则挖掘处理过程中的各项参数进行预设,包括关联规则挖掘的最小支持度、最小置信度、数据挖掘最小覆盖率和最小误差;步骤2:对流式数据进行归一化处理:将数据流中当前transaction中的数据项进行标量化,生成数据项与标量的映射;步骤3:使用关联规则挖掘算法,对当前时间窗口内的流式数据进行处理,得到当前计算节点在一个时间段内的滑动窗口内的数据的关联规则;步骤4:合并分布式计算结果,并对计算结果进行评价:将分布式计算集群各计算节点关联规则挖掘的结果进行合并处理,得到当前时间段内关联规则挖掘的结果,评价数据处理的指标包括频繁项集挖掘的覆盖率:Coverage=σ(stream)/σ(static)
ꢀꢀꢀꢀꢀ
(4)其中,σ(static)表示在静态数据集下关联规则挖掘的频繁项集数量,σ(stream)表示流式数据处理得到的频繁项集数量;召回率表示挖掘出的频繁项集数目与处理过的数据总数的比值:Recall=σ(stream)/σ(N)
ꢀꢀꢀꢀꢀꢀꢀ
(5)其中,σ(N)表示处理过的数据总数。步骤5:深度强化学习,自动调整参数,并将调整后的系统参数应用于系统下一个时间段的滑动窗口的数据处理;关联规则挖掘得到的结果评价函数为f,而f
t
表示在时间段t得到的处理结果评价函数的累积奖赏和,设r
t
为神经网络观测系统执行动作a
t
‑1后得到的奖励/惩罚,则:f
t

=∑γ
t
′‑
t
·<...

【专利技术属性】
技术研发人员:闫波赵菊文宿红毅郑宏
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1