一种用于城市能源应急站点新增的强化多目标烟花算法制造技术

技术编号:32785218 阅读:16 留言:0更新日期:2022-03-23 19:44
本发明专利技术公开了一种用于城市能源应急站点新增位置确立的强化多目标烟花算法,该方法首先根据实际需求定义问题表示,以便协调提升到场及时率和减少未覆盖区域这两个目标。接着采用强化学习中Qlearning方法为多目标烟花自适应地选择下一步搜索策略,其中Q表的状态根据个体支配程度排名量化,行为分为爆炸、变异和交叉这三类行为。采用快速非支配排序作为多目标评价方法,加速收敛的同时得到均匀分布的最优解集。最后迭代至最大迭代次数,并将新增站点的位置、提升后的到场及时率与减少后的未覆盖区域输出。盖区域输出。

【技术实现步骤摘要】
一种用于城市能源应急站点新增的强化多目标烟花算法


[0001]本专利技术涉及一种用于城市能源应急抢修站点新增的进化优化方法,尤其涉及一种基于强化多目标烟花算法的城市能源应急抢修新增站点最佳位置确立的方法。

技术介绍

[0002]能源行业是我国经济建设和产业结构调整与升级的重点,其中燃气抢修站点的新增与燃气事故抢修任务的跨区域调度是城市公共基础设施应急抢修的重要组成部分,燃气供应的安全性和可靠性与城市人民的生活和社会稳定息息相关。与此同时,随着计算机硬件性能的飞速提升及其相关技术的迅猛发展,为智慧燃气的信息化建设提供了稳定、成熟、可靠、强大的技术支持,智慧化城市利用大数据、计算机硬件和优化算法大大提升城市的安全性。
[0003]演化算法的产生借鉴了大自然中生物的进化操作,一般包括了基因编码、种群初始化、交叉变异算子、保留机制等基本操作。与传统的基于微积分的方法和穷举方法等优化算法相比,进化计算是一种成熟的具有高鲁棒性和广泛适用性的全局优化方法,具有自组织、自适应、自学习的特性,能够不受问题性质的限制,有效地处理传统优化算法难以解决的复杂问题。因此,演化优化算法非常适用于求解现实生活中的城市能源应急抢修新增站点最佳位置这样的复杂优化问题。

技术实现思路

[0004]本专利技术旨在提供一种基于强化多目标烟花算法的城市能源应急抢修新增站点最佳位置确立的方法,从而为城市的能源公司的事故预警及事故处理提供重要依据。通过强化学习来为多目标烟花算法自适应地选择合适的策略,并根据经验积累不断优化该强化学习模型,结合贪心与随机策略提升算法选择迭代策略的效率,通过调整半径和子代数来平衡局部搜索与全局搜索,从而快速收敛到分布均匀的最优解集。
[0005]所述一种用于城市能源应急站点新增位置确立的强化多目标烟花算法,其特征在于,为了解决兼顾提升到场及时率和减少未覆盖区域的多目标站点新增位置确立问题,其数据处理及问题表示的步骤如下。
[0006]步骤1:(数据提取)首先提取事故数据中有效的数据字段, 包括事故数据中的事故ID、事故发生日期、事故发生时间、事故类型、事故地址、到达时间限制,接着提取抢修数据中有效的数据字段,包括事故ID、抢修派单日期、抢修派单时间、发车时间、到达时间。
[0007]步骤2:(数据合并)根据事故数据和抢修数据的公共属性事故ID合并事故数据与抢修数据。
[0008]步骤3:(数据转换)首先根据到达时间减去发车时间得到到场时间,对比事故类型对应的到场时间限制,计算抢修是否及时到场;接着根据合并后数据中的事故具体地址,调用百度地图API根据事故的具体地址计算出事故地点的经纬度。
[0009]步骤4:(问题表示)为了同时兼顾提升到场及时率与减少为覆盖区域这两个互相
矛盾的目标,找到一组分布均匀的折中解集,将问题表示如下。
[0010]所述为该多目标站点设立问题的数学表示方法,其中f1为到场及时率,A1为新增站点后及时到场事故总数,A2为未及时到场事故总数,B1为新增站点后未覆盖区域栅格数,B2为覆盖区域栅格数,所述栅格定义如下。
[0011]所述为栅格表示方法,为了简便计算,引入栅格这一概念,其计算方法为将经纬度转化为平面坐标后,除以256后得到栅格在X和Y两个方向上的编号。
[0012]所述一种用于城市能源应急站点新增位置确立的强化多目标烟花算法,其特征在于,为了快速得到一组收敛且分布均匀的最优解集,该方法通过强化学习来为动态多目标烟花算法自适应地调整参数,其进化优化的步骤如下。
[0013]步骤1:(种群初始化)为了更全面地搜索可行域,结合均匀与随机两种思想,得到均匀分布的初始种群;决策空间被分成N个相等的子空间,子空间的数量取决于种群的大小。
[0014]所述公式为每个子空间差距的计算方法,其中u为决策变量的上界,l为决策变量的下界,N为种群大小(种群中个体数量),于是每个子空间表示如下。
[0015]所述公式为各子空间的计算方法,分别用区间来表示,接着为每个个体分配对应子空间内的随机位置作为初始位置。
[0016]所述公式为个体初始化方法,其中rand表示0

1之间的随机数,u和l为该个体的上下界。
[0017]步骤2:(强化学习Q表初始化)强化学习通过不断的试错来学习策略,该策略可以根据当前状态与历史反馈来决定下一步的行为,其主要组成部分包括环境、状态、行为和奖励,其示意图如附图1所示;本算法采用常见的无模型强化学习算法Qlearning,它基于即时奖励和当前Q值函数逐步估计某状态采取某行为的价值。
[0018]Qlearning算法的关键步骤如下:
1)首先初始化Q表;2)随机选择一个初始状态St;3)当循环条件未终止时:从Q表中为当前状态St选择一个最好的行为At;执行行为At并得到即时的反馈R;为下一个状态获取最大的Q值;更新Q表;更新当前状态;所述Q表的更新方法如下。
[0019]所述公式为Q表的更新方法,其中St为当前的状态,At为要执行的行为,R是执行该行为后获得的奖励,β为0

1之间的时间因子,β为0时只考虑当前奖励,为1时寻找大的长期的回报,α为0

1之间的学习率,Qt+1为该时刻获得的总累计奖励;所述算法中当该产生的子代比父代优秀时,意味着该行为成功,其奖励值为1,否则为0;对于每个个体,其采取A行为的概率公式如下。
[0020]所述公式为在状态S下采取A行为的概率计算方法,其中Qt(Si,Aj)为Q表中该时刻的值,T是控制参数,Q表的设计如下。
[0021]所述表中S为该算法收敛度和多样性的综合衡量,A为烟花算法的爆炸、交叉、变异行为。
[0022]步骤3:(多目标评价)为综合评价种群个体的收敛度与多样性,引入非支配排序与拥挤度计算方法,非支配排序方法根据个体间的支配关系,按照支配度由高到底将个体放入不同的Pareto前沿,拥挤度计算方法对同一层的不同个体按照每个目标函数上的结果值
高低顺序排序,综合二者的快速非支配排序方法在考虑支配时结合了支配关系额拥挤程度,其支配定义与拥挤度计算方法如下。
[0023]所述为个体间支配的方法,prank为个体p的支配度排名,pdis为个体p的拥挤度。
[0024]所述为拥挤度计算方法,fj(X[i])为个体i的解在第j个目标函数上的适应值,min和max表示对fj函数适应值分别取最大和最小值,np为第p层前沿上的解的数量,按照适应度排序后,其第一个和最后一个个体的拥挤度设为无穷大,中间的个体按照前后两个个体间的距离与总体距离之比来设置。
[0025]步骤4:(个体参数更新)烟花算法启发与烟花爆炸产生火花的现象,不同烟花的爆炸半径及其产生的火花数量不同,适应度高的个体在较小的半径内产生较多的子代个体,适应度差的个体则在较大的区域内产生较少的子代,计算方法如下。
[0026]所述为第t代的基准半径,tmax为最大迭代次数,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.所述一种用于城市能源应急站点新增的强化多目标烟花算法,其特征在于,为了快速得到一组收敛且分布均匀的最优解集,该方法通过强化学习来为动态多目标烟花算法自适应地调整参数,其进化优化的步骤如下:步骤1:(种群初始化)为了更全面地搜索可行域,结合均匀与随机两种思想,得到均匀分布的初始种群;决策空间被分成N个相等的子空间,子空间的数量取决于种群的大小;所述公式为每个子空间差距的计算方法,其中u为决策变量的上界,l为决策变量的下界,N为种群大小(种群中个体数量);于是每个子空间表示为:所述公式为各子空间的计算方法,分别用区间来表示;步骤2:(强化学习Q表初始化)强化学习通过不断的试错来学习策略,该策略可以根据当前状态与历史反馈来决定下一步的行为,其主要组成部分包括环境、状态、行为和奖励,其示意图如附图2所示;本算法采用常见的无模型强化学习算法Qlearning,它基于即时奖励和当前Q值函数逐步估计某状态采取某行为的价值;Qlearning算法的关键步骤如下:1)首先初始化Q表;2)随机选择一个初始状态St;3)当循环条件未终止时:从Q表中为当前状态St选择一个最好的行为At,执行行为At并得到即时的反馈R;为下一个状态获取最大的Q值;更新Q表;更新当前状态;所述Q表的更新方法如下:所述公式为Q表的更新方法,其中St为当前的状态,At为要执行的行为,R是执行该行为后获得的奖励,β为0

1之间的时间因子,β为0时只考虑当前奖励,为1时寻找大的长期的回报,α为0

1之间的学习率,Qt+1为该时刻获得的总累计奖励;所述算法中当该产生的子代比父代优秀时,意味着该行为成功,其奖励值为1,否则为0;对于每个个体,其采取A行为的概率公式如下:所述公式为在状态S下采取A行为的概率计算方法,其中Qt(Si,Aj)为Q表中该时刻的
值,T是控制参数,Q表的设计如下:所述表中S为该算法收敛度和多样性的综合衡量,A为烟花算法的爆炸、交叉、变异行为;步骤3:(多目标评价)为综合评价种群个体的收敛度与多样性,引入非支配排序与拥挤度计算方法,非支配排序方法根据个体间的支配关系,按照支配度由高到底将个体放入不同的Pareto前沿,拥挤度计算方法对同一层的不同个体按照每个目标函数上的结果值高低顺序排序,综合二者的快速非支配排序方法结合了支配关系与拥挤程度,其快速支配方法如下:所述为个体间支配的方法,prank为个体p的支配度排名,pdis为个体p的拥挤度;所述为拥挤度计算方法,fj(X[i])为个体i的解在第j个目标...

【专利技术属性】
技术研发人员:唐枫冯翔李念文张健李正龑邬真侃
申请(专利权)人:上海燃气有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1