基于统计假设检验的学习自动机实现系统及方法技术方案

技术编号：26067523 阅读：75 留言：0更新日期：2020-10-28 16:40

本发明专利技术提供了一种基于统计假设检验的学习自动机实现系统及方法，包括：在泛在电力物联网中，导入模块：采用积极初始化算法，导入先验知识；动作选择模块：根据先验知识，采用统一选择策略选取动作，构建动作集；动作集更新模块：采用统计假设检验算法从动作集中消除不符合预设规则的动作；收敛判断模块：判断动作集大小，若不符合预设规则，则回调动作集更新模块，将剩余动作与环境进行交互，继续消除不符合预设规则的动作，直至动作集中仅剩一个动作，此时判断为已收敛，结束训练。本发明专利技术去除了复杂的参数调谐，收敛速度显著提升，即使在基于动作概率向量的方案不适用的大规模动作环境仍能保持高准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于统计假设检验的学习自动机实现系统及方法
本专利技术涉及学习自动机
，具体地，涉及一种基于统计假设检验的学习自动机实现系统及方法。
技术介绍
在泛在电力物联网系统的感知防御模块中，所面临的最严峻的挑战是泛在电力物联网系统中庞大的数据量和复杂的参数调谐问题导致诸如异常流量检测等防御模块效率低，实时性差，鲁棒性差，抗干扰能力差的问题。因此，特征及参数的优化是泛在电力物联网系统的感知防御模块的研究重心。学习自动机凭借其具备强化学习的特点以及在概率空间上运行不必关注样本间测度的特性，避免了参数调谐，且具备全局优化能力，与随机环境的反复交互也使其具备了强大的抗干扰能力。使用学习自动机对泛在电力物联网系统感知防御模块中的特征进行优化是可行的。统计假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。事先对总体参数或分布形式作出假设，然后利用样本信息来判断原假设是否成立，采用逻辑上的反证法，依据统计上的小概率原理。学习自动机(LA)是强化学习的重要研究方向，其旨在通过在与随机环境交互的学习过程中，探索所有可行选择中的最优动作，所述的最优动作是在当前的环境下，能得到环境奖励的概率最大的动作。即是在与环境的循环交互过程中获得经验，进而改善自己的动作。根据状态转移函数的不同，学习自动机可以分为固定结构随机自动机(FSSA)或可变结构随机自动机(VSSA)。FSSA的状态之间的转换是确定性的，而VSSA的状态之间的转换是随机的。FSSA是LA的原型，而VSSA通过更灵活和更广泛的应用场景来改进FS...

【技术保护点】
1.一种基于统计假设检验的学习自动机实现系统，其特征在于，包括：/n导入模块：在泛在电力物联网中，采用积极初始化算法，导入先验知识；/n动作选择模块：根据先验知识，采用统一选择策略选取动作，构建动作集；/n动作集更新模块：采用统计假设检验算法从动作集中消除不符合预设规则的动作；/n收敛判断模块：判断动作集大小，若不符合预设规则，则回调动作集更新模块，将剩余动作与环境进行交互，继续消除不符合预设规则的动作，直至动作集中仅剩一个动作，此时判断为已收敛，结束训练。/n

【技术特征摘要】
1.一种基于统计假设检验的学习自动机实现系统，其特征在于，包括：
导入模块：在泛在电力物联网中，采用积极初始化算法，导入先验知识；
动作选择模块：根据先验知识，采用统一选择策略选取动作，构建动作集；
动作集更新模块：采用统计假设检验算法从动作集中消除不符合预设规则的动作；
收敛判断模块：判断动作集大小，若不符合预设规则，则回调动作集更新模块，将剩余动作与环境进行交互，继续消除不符合预设规则的动作，直至动作集中仅剩一个动作，此时判断为已收敛，结束训练。

2.根据权利要求1所述的基于统计假设检验的学习自动机实现系统，其特征在于，所述积极初始化算法，对于每个动作ai的反馈序列Fi(0)的值随机地从{0,1}中设置。

3.根据权利要求2所述的基于统计假设检验的学习自动机实现系统，其特征在于，所述动作选择模块的学习过程分为多个回合，每个回合与环境的交互组成；其中每个回合的索引用l＝1,2,3...L表示，L是直到收敛为止的总回合数；在第l回合设置的动作用A(l)表示，大小用|A(l)|表示；
统一选择策略在第l轮中，当前动作集A(l)中的每个动作均被无差别地选择一次与环境交互。

4.一种基于统计假设检验的学习自动机实现方法，其特征在于，采用权利要求3所述的基于统计假设检验的学习自动机实现系统，包括：
步骤1：根据林德伯格列维定理，将两个动作的收敛概率作为两个高斯随机变量的均值进行比较，从而引入z检验：
步骤2：通过比较收敛概率确定预定最佳动作，通过将任意一个动作与预定最佳动作的z检验统计量与临界值进行比较，剔除次优动作，更新动作集，进而确定最佳动作。

5.根据权利要求4所述的基于统计假设检验的学习自动机实现方法，其特征在于，所述林德伯格列维定理包括：假设动作ai被选择了n次，反馈序列为{βi(1)，βi(2)，···，βi(n)}，Pr{βi(k)＝1}＝di，Pr{βi(k)＝0}＝1-di，则有：

βi(1)表示动作ai的第一个反馈序列；di表示动作ai的任意一个反馈序列被选中的概率值；k表示计数，动作ai对应的任意一个反馈序列；N表示正态分布；pr表示动作ai的任意一个反馈序列被选中的概率。

6.根据权利要求5所述的基于统计假设检验的学习自动机实现方法，其特征在于，动作集更新的过程包括：
在第l轮学习过程结束后，对于动作ai∈A(l)，反馈序列记为：Fi(l)＝{βi(1...

【专利技术属性】
技术研发人员：狄冲，王嘉略，杨君中，李生红，董之微，金世鑫，任帅，朱钰，赵东艳，
申请(专利权)人：上海交通大学，国网辽宁省电力有限公司电力科学研究院，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人