一种基于深度强化学习的电磁辐射源辨识方法技术

技术编号:29585830 阅读:16 留言:0更新日期:2021-08-06 19:44
本发明专利技术提供了一种基于深度强化学习的电磁辐射源辨识方法,采用深度Q学习算法,构造一个DQN网络模型,依据网络最大动作价值函数和当前动作价值函数计算损失函数,更新网络参数,最终使得动作价值最大化,进而得到一个最优策略,输入电磁信号数据,DQN网络模型会依据最优策略输出预测的动作,即预测的调制方式,实现对电磁辐射信号调制方式的智能识别。本发明专利技术深度强化学习算法构建的DQN网络模型在训练阶段能够自主学习,在模型内部,神经网络会不断与环境进行交互,并根据输入的电磁辐射源信号数据输出动作价值函数和调制方式,使得动作价值能最大化,从而得到一个最优策略,实现对电磁辐射源信号调制方式的智能准确识别。

【技术实现步骤摘要】
一种基于深度强化学习的电磁辐射源辨识方法
本专利技术涉及电磁辐射源调制识别
,具体涉及一种电磁辐射源辨识方法。
技术介绍
随着各类无线电设备的广泛使用,电磁环境中的辐射源目标越来越多,不同用途的电磁信号在时、空、频域相互交叠,导致电磁频谱越来越堵。对电磁辐射信号进行精准辨识是电磁空间势态感知的重要前提。传统的电磁辐射源信号辨识方法一般将采样信号进行一定的变换和特征提取,通过可分离度较高的特征向量来实现信号识别。但是现有的电磁辐射源信号特征通常依赖专业经验,难以反映电磁信号的深层次本质特征,无法满足在实际复杂场景中的应用需求。近年来,深度学习在图像分类等计算机视觉任务中的成功,也促进了其在电磁辐射源信号智能识别中的应用。深度学习可以从大数据角度去主动学习电磁信号的抽象特征,通过多层神经网络提取信号深层次隐藏特征,避免了传统识别方法中特征提取和特征选择两个繁琐的过程,实现了端到端的学习模式的信号识别。许多研究人员利用全连接神经网络、卷积神经网络提出了系列的解决方案。而强化学习不同于深度学习,它是智能体(agent)和环境(environment)相互交互,通过“试错(trainanderror)”的方式来学习最优策略。深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。2017年,DeepMind团队发布的强化版的AlphaGoZero,使用了强化学习算法,通过自我博弈,AlphaGoZero经过三天的学习就超越了上一版本的AlphaGo。围棋被攻克证明了深度强化学习发展的潜力,将强化学习与深度学习结合,用神经网络拟合价值函数,使得价值函数的更新更加便捷。因此,深度强化学习在电磁信号辨识方面也有较好的应用前景。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种基于深度强化学习的电磁辐射源辨识方法,采用深度Q学习(DeepQ-learning,DQN)算法,构造一个DQN网络模型,包括模拟一个交互环境和构造一个拟合价值函数的神经网络。在训练阶段,模拟的交互环境会对神经网络输入一个状态,即一组电磁辐射源信号数据,神经网络会输出一个动作价值函数并选择一个动作,即一种调制方式,然后神经网络会依据网络最大动作价值函数和当前动作价值函数计算损失函数,更新网络参数,最终使得动作价值最大化,进而得到一个最优策略。在测试阶段,输入电磁信号数据,DQN网络模型会依据最优策略输出预测的动作,即预测的调制方式,就能实现对电磁辐射信号调制方式的智能识别。本专利技术解决其技术问题所采用的技术方案包括如下步骤:步骤一:电磁辐射源信号预处理;模型的输入使用电磁辐射源信号数据集,数据集的大小为M×2×N,其中M表示样本总数,N表示采样点数,每个原始样本由实部和虚部两部分组成,是一个2×N的矩阵,并且对应有信噪比和调制方式两个标签;对数据的调制方式进行编号处理,并将数据集按照比例划分为训练集和测试集;步骤二:构造DQN网络模型DQN网络模型包括两部分:模拟仿真交互环境和构建拟合动作价值函数的神经网络;(1)模拟仿真交互环境利用人工智能研究工具集OpenAIgym,模拟DQN网络模型的交互环境;首先,重置环境,环境随机返回一个状态,即一个电磁辐射源信号样本,神经网络根据步骤一输入的信号样本输出一个动作价值函数;不同的动作价值函数对应不同的可选择的动作,即不同的调制方式;根据当前的动作价值函数选择一种调制方式(相当于一次预测)输出到环境中;环境输出对该动作的即时奖励回报和下一个状态,即下一个电磁辐射源信号样本;(2)构建拟合价值函数的神经网络;拟合价值函数的神经网络由六层卷积层和两层全连接层联接构成,卷积层和全连接层中间用一个Flatten层连接;卷积神经网络对输入的电磁信号进行特征编码,然后将该特征本身使用全连接层来输出对应的动作价值函数;步骤三:训练DQN网络模型将训练集的电磁辐射源信号输入到步骤二中的DQN网络模型进行训练,训练的详细步骤如下:(1)根据步骤二中的定义的DQN环境模型,每次训练后得到当前状态s(state)、选择的动作a(action)、动作价值函数q(quality)、得到的奖励回报r(reward)和下一状态snext五个数据,当前状态对应当前的电磁辐射源信号数据、选择的动作对应预测的一种调制方式,下一状态对应下一组的电磁辐射源信号数据;(2)定义一个容量为X的经验池,将步骤(1)中每次训练得到的一组经验数据(s,a,q,r,snext)储存在经验池中;(3)从经验池中抽样经验组对神经网络进行训练和参数更新;(4)训练终止次数设置为Y,判断训练次数是否达到Y次,若达到Y次,则停止学习,得到训练好的DQN网络模型;若未达到Y次,则返回到步骤(1)继续学习;步骤四:将测试集输入步骤三训练好的DQN网络模型,统计模型识别电磁信号调制方式的准确率;将测试集中的电磁信号输入DQN网络模型,网络模型根据训练得到的动作价值函数输出对应动作价值函数最大的动作,即模型预测的调制方式,并与测试集中电磁信号对应的真实的调制方式进行比较,计算识别准确率。所述数据集按照7:3的比例划分为训练集和测试集。所述步骤(3)从经验池中抽样经验组对神经网络进行训练和参数更新的具体步骤为:在训练过程中,在经验池中随机抽取经验组,神经网络根据经验组中的当前状态,任意选择一个动作,并输出一个动作价值函数;计算动作价值函数与最大动作价值函数的损失函数,并进行神经网络的训练和参数更新;损失函数计算公式和更新公式如下:其中,L表示损失函数,θ表示网络参数,E表示求均方误差,r是得到的奖励回报,是最大动作价值函数,Q(s,a;θ)代表当前状态s,选择的动作a对应的动作价值函数,α是学习率。所述学习率α设置为α=0.5。所述识别准确率为识别正确的测试样本数与总测试样本数的比值。本专利技术的有益效果在于提出了一种基于深度强化学习的电磁辐射源辨识方法,利用强化学习中的DQN算法,与深度学习的训练机制不同,深度强化学习算法构建的DQN网络模型在训练阶段能够自主学习,在模型内部,神经网络会不断与环境进行交互,并根据输入的电磁辐射源信号数据输出动作价值函数和调制方式。在每次训练过程中,神经网络还会计算当前动作价值函数与最大动作价值函数的损失函数,用来更新网络模型和参数,使得动作价值能最大化,从而得到一个最优策略。在测试阶段,网络模型会依据最优策略,输出预测结果,实现对电磁辐射源信号调制方式的智能准确识别。附图说明图1是本专利技术的方法实现流程。图2是本专利技术采用的DQN网络模型结构。图3是本专利技术实施例对样本数据A在不同信噪比下识别得到的11种调制方式的识别准确率曲线图。图4是本专利技术实施例对样本数据A识别得到的准确率混淆矩阵图。具体实施方式下面结合附图和实施例对本专利技术进一步说明。本专利技术本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的电磁辐射源辨识方法,其特征在于包括下述步骤:/n步骤一:电磁辐射源信号预处理;/n模型的输入使用电磁辐射源信号数据集,数据集的大小为M×2×N,其中M表示样本总数,N表示采样点数,每个原始样本由实部和虚部两部分组成,是一个2×N的矩阵,并且对应有信噪比和调制方式两个标签;对数据的调制方式进行编号处理,并将数据集按照比例划分为训练集和测试集;/n步骤二:构造DQN网络模型/nDQN网络模型包括两部分:模拟仿真交互环境和构建拟合动作价值函数的神经网络;/n(1)模拟仿真交互环境/n利用人工智能研究工具集OpenAI gym,模拟DQN网络模型的交互环境;首先,重置环境,环境随机返回一个状态,即一个电磁辐射源信号样本,神经网络根据步骤一输入的信号样本输出一个动作价值函数;不同的动作价值函数对应不同的可选择的动作,即不同的调制方式;根据当前的动作价值函数选择一种调制方式输出到环境中;环境输出对该动作的即时奖励回报和下一个状态,即下一个电磁辐射源信号样本;/n(2)构建拟合价值函数的神经网络;/n拟合价值函数的神经网络由六层卷积层和两层全连接层联接构成,卷积层和全连接层中间用一个Flatten层连接;卷积神经网络对输入的电磁信号进行特征编码,然后将该特征本身使用全连接层来输出对应的动作价值函数;/n步骤三:训练DQN网络模型/n将训练集的电磁辐射源信号输入到步骤二中的DQN网络模型进行训练,训练的详细步骤如下:/n(1)根据步骤二中的定义的DQN环境模型,每次训练后得到当前状态s、选择的动作a、动作价值函数q、得到的奖励回报r和下一状态s...

【技术特征摘要】
1.一种基于深度强化学习的电磁辐射源辨识方法,其特征在于包括下述步骤:
步骤一:电磁辐射源信号预处理;
模型的输入使用电磁辐射源信号数据集,数据集的大小为M×2×N,其中M表示样本总数,N表示采样点数,每个原始样本由实部和虚部两部分组成,是一个2×N的矩阵,并且对应有信噪比和调制方式两个标签;对数据的调制方式进行编号处理,并将数据集按照比例划分为训练集和测试集;
步骤二:构造DQN网络模型
DQN网络模型包括两部分:模拟仿真交互环境和构建拟合动作价值函数的神经网络;
(1)模拟仿真交互环境
利用人工智能研究工具集OpenAIgym,模拟DQN网络模型的交互环境;首先,重置环境,环境随机返回一个状态,即一个电磁辐射源信号样本,神经网络根据步骤一输入的信号样本输出一个动作价值函数;不同的动作价值函数对应不同的可选择的动作,即不同的调制方式;根据当前的动作价值函数选择一种调制方式输出到环境中;环境输出对该动作的即时奖励回报和下一个状态,即下一个电磁辐射源信号样本;
(2)构建拟合价值函数的神经网络;
拟合价值函数的神经网络由六层卷积层和两层全连接层联接构成,卷积层和全连接层中间用一个Flatten层连接;卷积神经网络对输入的电磁信号进行特征编码,然后将该特征本身使用全连接层来输出对应的动作价值函数;
步骤三:训练DQN网络模型
将训练集的电磁辐射源信号输入到步骤二中的DQN网络模型进行训练,训练的详细步骤如下:
(1)根据步骤二中的定义的DQN环境模型,每次训练后得到当前状态s、选择的动作a、动作价值函数q、得到的奖励回报r和下一状态snext五个数据,当前状态对应当前的电磁辐射源信号数据、选择的动作对应预测的一种调制方式,下一状态对应下一组的电磁辐射源信号数据;
(2)定义一个容量为X的经验池,将步骤(1)中每次训练得到的一组经验数据(s,a...

【专利技术属性】
技术研发人员:陶明亮赖思绮范一飞粟嘉王伶张兆林李滔宫延云韩闯杨欣谢坚汪跃先
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1