基于统计假设检验的学习自动机实现系统及方法技术方案

技术编号:26067523 阅读:75 留言:0更新日期:2020-10-28 16:40
本发明专利技术提供了一种基于统计假设检验的学习自动机实现系统及方法,包括:在泛在电力物联网中,导入模块:采用积极初始化算法,导入先验知识;动作选择模块:根据先验知识,采用统一选择策略选取动作,构建动作集;动作集更新模块:采用统计假设检验算法从动作集中消除不符合预设规则的动作;收敛判断模块:判断动作集大小,若不符合预设规则,则回调动作集更新模块,将剩余动作与环境进行交互,继续消除不符合预设规则的动作,直至动作集中仅剩一个动作,此时判断为已收敛,结束训练。本发明专利技术去除了复杂的参数调谐,收敛速度显著提升,即使在基于动作概率向量的方案不适用的大规模动作环境仍能保持高准确率和效率。

【技术实现步骤摘要】
基于统计假设检验的学习自动机实现系统及方法
本专利技术涉及学习自动机
,具体地,涉及一种基于统计假设检验的学习自动机实现系统及方法。
技术介绍
在泛在电力物联网系统的感知防御模块中,所面临的最严峻的挑战是泛在电力物联网系统中庞大的数据量和复杂的参数调谐问题导致诸如异常流量检测等防御模块效率低,实时性差,鲁棒性差,抗干扰能力差的问题。因此,特征及参数的优化是泛在电力物联网系统的感知防御模块的研究重心。学习自动机凭借其具备强化学习的特点以及在概率空间上运行不必关注样本间测度的特性,避免了参数调谐,且具备全局优化能力,与随机环境的反复交互也使其具备了强大的抗干扰能力。使用学习自动机对泛在电力物联网系统感知防御模块中的特征进行优化是可行的。统计假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。事先对总体参数或分布形式作出假设,然后利用样本信息来判断原假设是否成立,采用逻辑上的反证法,依据统计上的小概率原理。学习自动机(LA)是强化学习的重要研究方向,其旨在通过在与随机环境交互的学习过程中,探索所有可行选择中的最优动作,所述的最优动作是在当前的环境下,能得到环境奖励的概率最大的动作。即是在与环境的循环交互过程中获得经验,进而改善自己的动作。根据状态转移函数的不同,学习自动机可以分为固定结构随机自动机(FSSA)或可变结构随机自动机(VSSA)。FSSA的状态之间的转换是确定性的,而VSSA的状态之间的转换是随机的。FSSA是LA的原型,而VSSA通过更灵活和更广泛的应用场景来改进FSSA。而从动作集的种类来划分,LA可以分为连续动作集学习自动机(CALA)和有限动作集学习自动机(FALA)。CALA的动作集是一段实数轴上的区间,由无限多个数组成,而FALA的动作集是有限的。根据其反馈的类型,随机环境可以分为P模型,Q模型或S模型。对于P模型环境,反馈是{0,1}区间中的二值函数,对于Q模型环境,反馈是{β1,β2,···,βQ}(Q>2),中的特定值,而对于S模型环境,为[0,1]区间中的任意值。在学习自动机的种类中,在P模型环境中具有随机状态转移函数和有限动作集(VSFALA)的学习自动机较为常用。VSFALA的优良特性之一是∈最优性,它确保了VSFALA在与环境的交互次数接近无穷大时以1的概率收敛到最优动作。不同VSFALA方案的性能是在一定准确度的前提下通过收敛速度来评估的。所述的准确性定义为正确收敛的概率,即LA找到具有最高奖励概率的动作的概率。所述的收敛速率是迭代的平均次数,即,LA学习到正确最优行为所需要与环境交互的平均次数。LA方案的复杂性通过收敛时间来衡量,收敛时间定义为LA达到正确收敛时所消耗的时间。VSFALA的框架主要是基于动作概率向量P的学习过程。对于具有r个动作的动作集,P具有r个非负分量pi,i=1,2,···,r,∑pi=1,其中pi表示LA选择第i个动作的概率。该框架包括三个阶段:(1)根据动作概率向量选择一个动作;(2)与环境互动并获得反馈;(3)更新动作概率向量。当P中的最大动作概率大于预定义的阈值V,即max{pi}≥V时,VSFALA收敛。然而,目前旨在加快VSFALA收敛速度的方案在实际应用中都会受到两个主要限制:一、参数调谐带来的计算代价:大多数传统方案都是参数敏感的,参数调整的成本可能非常昂贵;二、在泛在电力物联网系统这种大规模动作环境下效率下降显著:在动作概率向量更新步骤中,步长随动作数的增加而减小。因此,在大规模动作方案中,步长较小,这可能会降低收敛速度。专利文献CN110222817A(申请号:201910390336.6)公开了一种基于学习自动机的卷积神经网络压缩方法、系统及介质,包括:参数初始化步骤:初始化学习自动机参数;状态值选择步骤:根据获得的初始化后的学习自动机参数,每个学习自动机依据预设的行为选择概率选择自己的状态值,获得每个学习自动机的状态值;网络结构更新步骤:根据获得的每个学习自动机的状态值更新网络结构,获得更新后网络结构。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于统计假设检验的学习自动机实现系统及方法,针对泛在电力物联网系统中前置采集器采集到的现场设备的上传信息和后置采集器采集到的控制器的命令信息等庞大的流量数据特征,使用基于统计假设检验的学习自动机,通过与环境的反复交互,不断自适应调整流量数据特征集合,动态比较各流量特征集合在当前环境中隐含的优劣性,从而学习到当前环境中的最优特征集合,传递给后续安全态势感知防御模块进行分析和应用,优化后的流量特征的冗余性低、信息量大,能有效提高安全态势感知防御模块的性能和效率。具体而言,对于一组泛在电力物联网系统采集平台采集到的流量特征集合,本专利技术会根据其策略主动丢弃一个特征,采用其他剩余特征进行分类器训练;对于训练好的特征分类器,通过评估其准确率,给予本专利技术的学习自动机一定程度的奖励反馈或惩罚反馈;学习自动机在接收到来自环境的奖惩反馈后,根据其自身的学习策略,调整内部状态,评估各特征对分类器分类结果的影响,直至收敛到当前对分类结果影响最小的行为,丢弃该特征后重复上述过程,从而实现流量特征的优化和选择。根据本专利技术提供的基于统计假设检验的学习自动机实现系统,包括:导入模块:在泛在电力物联网中,采用积极初始化算法,导入先验知识;动作选择模块:根据先验知识,采用统一选择策略选取动作,构建动作集;动作集更新模块:采用统计假设检验算法从动作集中消除不符合预设规则的动作;收敛判断模块:判断动作集大小,若不符合预设规则,则回调动作集更新模块,将剩余动作与环境进行交互,继续消除不符合预设规则的动作,直至动作集中仅剩一个动作,此时判断为已收敛,结束训练。优选的,所述积极初始化算法,对于每个动作ai的反馈序列Fi(0)的值随机地从{0,1}中设置。优选的,所述动作选择模块的学习过程分为多个回合,每个回合与环境的交互组成;其中每个回合的索引用l=1,2,3...L表示,L是直到收敛为止的总回合数;在第l回合设置的动作用A(l)表示,大小用|A(l)|表示;统一选择策略在第l轮中,当前动作集A(l)中的每个动作均被无差别地选择一次与环境交互。根据本专利技术提供的基于统计假设检验的学习自动机实现方法,包括:步骤1:根据林德伯格列维定理,将两个动作的收敛概率作为两个高斯随机变量的均值进行比较,从而引入z检验:步骤2:通过比较收敛概率确定预定最佳动作,通过将任意一个动作与预定最佳动作的z检验统计量与临界值进行比较,剔除次优动作,更新动作集,进而确定最佳动作。优选的,所述林德伯格列维定理包括:假设动作ai被选择了n次,反馈序列为{βi(1),βi(2),···,βi(n)},Pr{βi(k)=1}=di,Pr{βi(k)=0}=1-di,则有:βi(1)表示动作ai的第一个反馈序列;di表示动作ai的任意一个反馈序列被选中的概率值;k表示计数,动作ai对应的任意本文档来自技高网
...

【技术保护点】
1.一种基于统计假设检验的学习自动机实现系统,其特征在于,包括:/n导入模块:在泛在电力物联网中,采用积极初始化算法,导入先验知识;/n动作选择模块:根据先验知识,采用统一选择策略选取动作,构建动作集;/n动作集更新模块:采用统计假设检验算法从动作集中消除不符合预设规则的动作;/n收敛判断模块:判断动作集大小,若不符合预设规则,则回调动作集更新模块,将剩余动作与环境进行交互,继续消除不符合预设规则的动作,直至动作集中仅剩一个动作,此时判断为已收敛,结束训练。/n

【技术特征摘要】
1.一种基于统计假设检验的学习自动机实现系统,其特征在于,包括:
导入模块:在泛在电力物联网中,采用积极初始化算法,导入先验知识;
动作选择模块:根据先验知识,采用统一选择策略选取动作,构建动作集;
动作集更新模块:采用统计假设检验算法从动作集中消除不符合预设规则的动作;
收敛判断模块:判断动作集大小,若不符合预设规则,则回调动作集更新模块,将剩余动作与环境进行交互,继续消除不符合预设规则的动作,直至动作集中仅剩一个动作,此时判断为已收敛,结束训练。


2.根据权利要求1所述的基于统计假设检验的学习自动机实现系统,其特征在于,所述积极初始化算法,对于每个动作ai的反馈序列Fi(0)的值随机地从{0,1}中设置。


3.根据权利要求2所述的基于统计假设检验的学习自动机实现系统,其特征在于,所述动作选择模块的学习过程分为多个回合,每个回合与环境的交互组成;其中每个回合的索引用l=1,2,3...L表示,L是直到收敛为止的总回合数;在第l回合设置的动作用A(l)表示,大小用|A(l)|表示;
统一选择策略在第l轮中,当前动作集A(l)中的每个动作均被无差别地选择一次与环境交互。


4.一种基于统计假设检验的学习自动机实现方法,其特征在于,采用权利要求3所述的基于统计假设检验的学习自动机实现系统,包括:
步骤1:根据林德伯格列维定理,将两个动作的收敛概率作为两个高斯随机变量的均值进行比较,从而引入z检验:
步骤2:通过比较收敛概率确定预定最佳动作,通过将任意一个动作与预定最佳动作的z检验统计量与临界值进行比较,剔除次优动作,更新动作集,进而确定最佳动作。


5.根据权利要求4所述的基于统计假设检验的学习自动机实现方法,其特征在于,所述林德伯格列维定理包括:假设动作ai被选择了n次,反馈序列为{βi(1),βi(2),···,βi(n)},Pr{βi(k)=1}=di,Pr{βi(k)=0}=1-di,则有:



βi(1)表示动作ai的第一个反馈序列;di表示动作ai的任意一个反馈序列被选中的概率值;k表示计数,动作ai对应的任意一个反馈序列;N表示正态分布;pr表示动作ai的任意一个反馈序列被选中的概率。


6.根据权利要求5所述的基于统计假设检验的学习自动机实现方法,其特征在于,动作集更新的过程包括:
在第l轮学习过程结束后,对于动作ai∈A(l),反馈序列记为:Fi(l)={βi(1...

【专利技术属性】
技术研发人员:狄冲王嘉略杨君中李生红董之微金世鑫任帅朱钰赵东艳
申请(专利权)人:上海交通大学国网辽宁省电力有限公司电力科学研究院
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1