一种基于深度强化学习的传感器优化布置方法技术

技术编号:24758230 阅读:42 留言:0更新日期:2020-07-04 09:37
本发明专利技术提出一种基于深度强化学习的传感器优化布置方法,涉及结构健康监测和振动测试领域,首先,基于互信息相关理论推导得到工程结构传感器优化布置准则,然后通过基于深度强化学习的优化算法快速有效地寻找目标函数的最优解,即结构的最优传感器布置位置。本发明专利技术可以更加快速有效地寻找到工程结构的传感器最优布置,基于深度强化学习的优化算法可以同时利用深度神经网络的计算能力以及强化学习的决策能力,可以有效地解决复杂工程结构传感器布置时目标函数非凸、高维的问题,同时该方法的输出结果可以实现{0,1}离散表示,其中0表示未布置传感器,1表示布置传感器,从而明确地为某一位置传感器是否布置提供决策支持。

An optimal sensor placement method based on deep reinforcement learning

【技术实现步骤摘要】
一种基于深度强化学习的传感器优化布置方法
本专利技术涉及结构健康监测与振动测试
,特别是涉及一种基于深度强化学习的传感器优化布置方法。
技术介绍
在土木工程领域结构健康监测中,如何合理有效地布置传感器同时又可以满足经济性的要求,对于保证结构的安全性具有十分重要的作用。随着结构工程的不断发展,出现了越来越多的复杂结构,如大跨径桥梁、超高层建筑等。这些结构大多数体量巨大,自由度众多,需要布置众多测点,才能获取更多的结构动力信息。但是测点增多,所需的传感器数量和所配套的采集设备相应增多,仪器成本和数据分析工作量加大,因此研究如何将传感器布置在最佳位置上,用有限的传感器获取更完整、合理的数据,对结构健康监测具有重要的现实意义。基于这种现状,需要发展一种有效的传感器优化布置方法。传统的传感器优化布置方法主要包括:序列法、非线性规划优化方法、推断算法、随机类方法、转换为凸优化问题等,这些方法在解决复杂结构传感器布置这类NP-Hard(非凸、高维)问题时存在计算复杂且效率较低等问题;转换为凸优化问题后输出结果关于测点是否布置传感器不能用{0,1本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的传感器优化布置方法,其特征在于,所述方法包括:/n步骤一、基于工程结构的相关设计信息,建立相关结构参数的先验概率分布;所述相关结构参数包括结构固有频率ω

【技术特征摘要】
1.一种基于深度强化学习的传感器优化布置方法,其特征在于,所述方法包括:
步骤一、基于工程结构的相关设计信息,建立相关结构参数的先验概率分布;所述相关结构参数包括结构固有频率ω0、瑞利阻尼系数α与β、工程结构所受外力的振幅和频率a0与ω;
步骤二、基于贝叶斯理论和信息熵理论,利用互信息最大化基本理论建立传感器优化布置准则h(δ),其中δ表示传感器布置状态矩阵;
步骤三、基于传感器优化布置准则h(δ),利用基于深度强化学习的优化算法寻找其最优解;
步骤四、根据步骤三得到的优化效果,对优化算法中深度神经网络的相关参数进行调节;利用调参后的深度强化学习优化算法,进一步确定基于传感器优化布置准则h(δ)的最优解δ*,即传感器布置的最优位置。


2.根据权利要求1所述的方法,其特征在于,所述步骤二具体为:
步骤2.1、基于工程结构的设计信息得到相关结构参数向量θs=[ω0αβa0ω]的先验概率分布p(θs),随机抽样产生K个结构参数的样本
步骤2.2、基于每一个样本的数值,利用结构动力学模态分析相关理论,计算结构的模态坐标qj(t),其中t表示时间,j表示结构模态序号;
步骤2.3、得到模态坐标qj(t)后,在不同的振型下获得不同位置处的物理坐标xi(t);i表示自由度的序号,即结构布置传感器位置的序号;
步骤2.4、计算物理坐标xi(t)在当前样本下关于结构参数向量θs的梯度其中n表示不同时间步数;
步骤2.5、利用等式计算当前样本下结构不同位置的Q值;p和q表示θs中向量元素的序号;Q为组成的矩阵;Nt表示总时间步数;
步骤2.6、基于传感器布置状态矩阵δ,计算在传感器布置后的Q值,计算公式为Nd表示结构的自由度数目;其中δ是由0、1构成的矩阵,0表示不布置传感器,1表示布置传感器;
步骤2.7、重复步骤2.2至步骤2.6,计算基于每一个样本的Q(δ,θs)并保存这些值;
步骤2.8、最后对不同样本下的Q(δ,θs)值进行加权累加便能得到最终关于传感器优化布置准则的目标函数h(δ)=-∫logdetQ(δ,θs)p(θs)dθs。


3.根据权利要求1所述的方法,其特征在于,所述步骤三具体为:
步骤3.1、设计传感器布置初始状态、动作空间以及奖励函数;
步骤3.2、初始化各项训练参数;
步骤3.3、设计两个深度神经网络evaluate_net以及target_net,并初始化两个网络的参数θ;
步骤3.4、最初的传感器布置状态为St,基于深度神经网络evaluate_net的输出值q_eval与贪婪度ξ选择动作at;
步骤3.5、计算奖励值rt=-h(δt),基于动作at获得新的状态St+1;
步骤3.6、将序列(St,...

【专利技术属性】
技术研发人员:黄永李惠孟元旭
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1