一种Transformer自适应深度强化学习分布式柔性负荷智能调控方法技术

技术编号：40705860 阅读：3 留言：0更新日期：2024-03-22 11:05

本发明专利技术提出一种Transformer自适应深度强化学习分布式柔性负荷智能调控方法，该方法将深度学习模型Transformer、基于演员‑评论家网络的近端策略优化方法和一种约束意识的并且使用排名提炼的令牌剪枝方法相结合，用以对用电消耗负荷的预测和储能单元发电负荷预测，并且能根据预测结果生成智能调控指令用以对柔性负荷进行调度和控制。所提Transformer自适应深度强化学习的分布式柔性负荷智能调控方法能解决样本稀缺、数据分布可变的现实场景下负荷预测准确率低的问题，实现优化安排发电和节省电能，优化负荷预测的精度和鲁棒性，提高柔性负荷预测和调控的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电力系统智能电网领域，涉及人工智能的调控方法，适用于电力系统的居民用电领域的柔性负荷的。

技术介绍

1、现有的一种通过集成transformer和领域知识的自适应深度学习负荷预测框架采用集成长短期记忆网络和领域知识预测局部波动以获得无量纲趋势，由于忽略负荷分布变化和历史数据不足的问题和尚未解决的负荷分布变化的挑战，导致模型的负荷数据分布学习和预测效果不佳。

2、另外，在资源受限的场景中，部署预训练transformer模型到下游任务上是具有挑战性的，因为它们的推理成本很高，并且随着输入序列长度的增加而迅速增加。

3、因此，提出一种transformer自适应深度强化学习分布式柔性负荷智能调控方法，来解决模型的负荷数据分布学习和预测效果不佳和部署预训练transformer模型到下游任务推理成本随着输入序列长度的增加而迅速增加的问题，同时提高模型的负荷预测的精度和鲁棒性。

技术实现思路

1、本专利技术提出一种transformer自适应深度强化学习分布式柔性负荷智能调控方法，将基于演员-评论家网络的近端策略优化方法、深度学习模型transformer和一种约束意识的并且使用排名提炼的令牌剪枝方法相结合；所提自适应深度强化学习分布式柔性负荷智能调控方法在使用过程中的步骤为：

2、步骤(1)：将分布于本区域的柔性负荷测控终端定义为多智能体，多智能体标记为{agent1，agent2，…，agenti}，其中，agent1表示在区域1的智能

3、多智能体为一个区域内互不影响的独立的柔性负荷测控终端，构成分布式自管理智能体，各智能体通过试错和奖励机制来学习自身的控制策略；

4、多智能体由演员网络和评论家网络组成；

5、步骤(2)：设计本区域内各智能体的状态集合为s＝{s1，s2，...，sm}，本区域内各智能体的动作集合为a＝{a1，a2，...，am}；s1，s2，...，sm代表在本区域内智能体的m个状态，智能体状态集合代表影响负荷情况的天气因素、日历因素及历史负荷；a1，a2，...，am为在本区域内智能体的m个动作，智能体动作集合代表分布式柔性负荷测控终端对柔性负荷的调节指令；

6、步骤(3)：获取智能体的当前状态作为输入矩阵itransformer，in，t+1＝(wt+1，c，itransformer，，out，t)，输入包括天气因素矩阵wt+1、日历因素矩阵c以及transformer的前一个输出矩阵itransformer，out，t；将原始负荷序列转换为负荷比序列，负荷比能进一步分解为无量纲趋势和局部波动，从训练数据中提取负荷比的每周平均趋势，然后应用低通滤波器对趋势进行平滑处理，并将滤波后的趋势用作无量纲趋势；智能体输出分布式柔性负荷控制指令动作控制分布式柔性负荷调度终端；

7、其中，天气因素收集第二天的天气预报数据并添加随机噪声，天气数据变量wt+1，f为：

8、wt+1，f＝wt+1(1+n×p) (1)

9、其中，wt+1，f表示在时间在t+1处的天气预报数据，wt+1表示真实天气数据，n表示正态分布噪声，p表示添加的噪声比例；

10、其中，天气因素包括温度、湿度和风速；

11、其中，日历因素包括与日历周期相关的负荷消耗的任何变化，包括一日内用电高峰期、工作日和假期和供暖和制冷时段，在负荷预测中使用日历因素能捕捉每周和季节性的能源消耗模式，从而提高预测峰值需求的准确率；

12、步骤(4)：将智能体的状态和动作序列通过词嵌入方法映射到一个抽象的输入连续向量表示，包含输入的所有信息；

13、天气数据经处理后，输入矩阵变成itransformer，in，t+1＝(wt+1，f，c，itransformer，out，t)；

14、将itransformer，in，t+1输入到transformer模型中；

15、由此步骤开始迭代过程，迭代总次数为kiteration，初始迭代次数为0；

16、步骤(5)：通过一种约束感知和排序提取的标记剪枝方法将原始负荷序列中不必要的标记删除，使模型在保持准确性的同时提高在线推理速度：

17、首先，一个transformer层包裹着一个多头自注意力层和前馈层，具有残差连接和层归一化；给定序列中的元素数目为n和隐藏大小d，设第j层的隐藏状态xj＝(x1，x2，...，xn)∈rn×d，多头注意力下的第j层的隐藏状态xj为：

18、xj＝ln(ln(xj-1+mha(xj-1))+ffn(ln(xj-1+mha(xj-1)))) (2)

19、其中，x1＝itransformer，in，1为第j层的第1个令牌，x2＝itransformer，in，2为第j层的第2个令牌，xn＝itransformer，n为第j层的第n个令牌；其中，mha()为多头注意力层，ffn()为前馈层，ln()函数作用为层归一化；

20、自注意力机制状态attentionh为：

21、

22、其中，xq为自注意力查询输入矩阵，是自注意力查询矩阵，xk为自注意力键输入矩阵，是自注意力键矩阵，xv为自注意力值输入矩阵，为自注意力值矩阵；softmax()函数将每个元素映射为一个介于0和1之间的值；t表示输入序列的时间步数，是项的指数，表示的t次方；

23、为解决多头注意力层在应用长序列时，计算复杂度o(d2n+n2d)随序列中的元素数目n以二次关系增长导致运算成本快速上升的问题，引入令牌修剪，即随着推理的进行，不重要的令牌逐渐被丢弃，o()表示算法的时间复杂度；对于每个transformer层，最初具有n个令牌，目标是从中删除特定数量的不重要的令牌，被删除特定数量的不重要的令牌将不会在后续层中被考虑，降低运算成本，从而使模型推理与未进行令牌修剪的模型相比明显更快；

24、然后，利用排名感知的令牌提取，解决基于关注值的令牌重要性排名存在的对长距离依赖的建模能力弱的问题，基于注意力值的方法定义l层中的令牌xj的重要性分数sl(xj)为：

25、

26、其中，nh表示多头注意力的头的数量，h表示多头注意力头的索引，取值范围为[1，nh]；xj为输入序列中索引为j的令牌，xk为输入序列中索引为k的令牌，表示令牌xk从令牌xj在头h上获得的注意力值；

27、然后，对于给定的部署约束，选择transformer层的最佳子集，并通过改进的l0正则化来优化transformer层的最佳子集层内的令牌修剪决策：

28、引入一组二进制决策门掩码来表示稀疏率，并用表示丢弃令牌，用表示保留令牌，其中，i是层索引；使用二进制决策门掩码构造约束感知损失函数；本文档来自技高网...

【技术保护点】

1.一种Transformer自适应深度强化学习分布式柔性负荷智能调控方法，其特征在于，该方法将基于演员-评论家网络的近端策略优化方法、深度学习模型Transformer和一种约束意识的并且使用排名提炼的令牌剪枝方法相结合；所提自适应深度强化学习分布式柔性负荷智能调控方法在使用过程中的步骤为：

【技术特征摘要】

1.一种transformer自适应深度强化学习分布式柔性负荷智能调控方法，其特征在于，该方法将基于演员-评论家网络的近端策略优化方法、深度学习模型...

【专利技术属性】
技术研发人员：殷林飞，魏凯跃，
申请(专利权)人：广西大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人