【技术实现步骤摘要】
一种基于强化学习的降噪方法
本专利技术涉及噪声控制
,尤其涉及一种基于强化学习的降噪方法。
技术介绍
噪声是人们生产生活中常见的污染源,方方面面影响人们的工作效率和生活质量,长期处于噪声环境中,会诱发人体的多种慢性疾病,大幅度噪声振动还会破坏建筑物的结构强度。常用的隔音,吸声,降噪等手段主要对高频噪声有效,低频噪声波长长,衍射效果强,主要采用主动降噪方式消噪。由于大声学量情形下,噪声源辐射声波的会产生波形畸变以及诱发高次非线性谐波,并且在声波传播介质中含有的非线性因素,使得降噪系统需要具备较强的非线性噪声表达能力,进一步提升降噪性能,这是目前降噪系统所不具备的。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于强化学习的降噪方法,基于机器学习领域中的强化学习算法实现自适应主动降噪。为解决上述技术问题,本专利技术所采取的技术方案是:一种基于强化学习的降噪方法,基于现有的主动降噪系统实现;所述主动降噪系统包括布置在目标降噪区域的误差传感器,扬声器和控制器;误差传感器 ...
【技术保护点】
1.一种基于强化学习的降噪方法,基于现有的主动降噪系统实现;所述主动降噪系统包括布置在目标降噪区域的误差传感器,扬声器和控制器;误差传感器以一定频率采集目标降噪空间中的残余噪声信号;扬声器用于辐射次级声音信号,依据主动降噪原理,抵消空间中的噪声信号;控制器接收并分析误差传感器采集的目标降噪区域的残余噪声信号,并通过降噪策略控制扬声器的辐射声信号频率,相位和强度;其特征在于:该方法首先通过误差传感器采集到的残余噪声声压值与控制器控制次级扬声器发出抵消声信号的关系建立降噪策略函数;然后根据强化学习方法,依据降噪奖励函数对降噪过程进行建模,按照降噪策略执行降噪后,将后续各个时刻依 ...
【技术特征摘要】
1.一种基于强化学习的降噪方法,基于现有的主动降噪系统实现;所述主动降噪系统包括布置在目标降噪区域的误差传感器,扬声器和控制器;误差传感器以一定频率采集目标降噪空间中的残余噪声信号;扬声器用于辐射次级声音信号,依据主动降噪原理,抵消空间中的噪声信号;控制器接收并分析误差传感器采集的目标降噪区域的残余噪声信号,并通过降噪策略控制扬声器的辐射声信号频率,相位和强度;其特征在于:该方法首先通过误差传感器采集到的残余噪声声压值与控制器控制次级扬声器发出抵消声信号的关系建立降噪策略函数;然后根据强化学习方法,依据降噪奖励函数对降噪过程进行建模,按照降噪策略执行降噪后,将后续各个时刻依据奖励函数获得的累计奖励值最大化作为建模降噪策略的依据;建立关于累计奖励值的价值函数,并迭代更新价值函数,使当前动作的价值函数等于目标函数,得到最优价值函数,进一步得到最大化的累计奖励,并确定此时的降噪策略为最优;控制器按照当前最优降噪策略控制次级扬声器进行降噪。
2.根据权利要求1所述的一种基于强化学习的降噪方法,其特征在于:该降噪方法的具体过程为:
步骤1、通过训练、学习得到误差传感器采集到的残余噪声声压值与控制器控制次级扬声器发出抵消声信号的关系,确定降噪策略,用函数π表示,如下公式所示:
at=π(st)(1)
该函数的输入为当前误差传感器采集到的目标区域内噪声声压值,表示当前时刻t的环境st,输出为要执行的动作at,即控制器对次级扬声器辐射声信号的控制;
步骤2、建立奖励函数R,即当前环境st时,控制器执行动作at后的下一时刻的环境信息为st+1,此时st+1值小于st,表示该动作at对降噪有效果,则获得奖励Rt=st-st+1;
步骤3、将降噪系统按照降噪策略执行降噪后,后续各个时刻获得的累计奖励值最大化作为建模降噪策略π的依据;
所述累计奖励值的表达式为:
其中,Ut为t时刻的累计奖励值,γ为折扣因子,为[0,1]区间内取值,Rt+n表示执行完动作at后,后续n个时刻由于控制器做出at动作得到的奖励;
步骤4、对累计奖励值Ut函数求期望得到价值函数Q,如下公式...
【专利技术属性】
技术研发人员:姜彦吉,孙宁,郭羽含,沈学利,张宗桓,张雨晴,王宇泽,孟巧巧,田淞,
申请(专利权)人:辽宁工程技术大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。