条例推荐的策略梯度方法技术

技术编号:34526013 阅读:8 留言:0更新日期:2022-08-13 21:17
本发明专利技术公开了条例推荐的策略梯度方法,包括:获取态势数据x、条例y以及与x匹配的条例;选择与x不匹配但最相似的K个条例作为负样本,用于拒绝错误匹配,结构化的态势数据,分别使用基于规则的独热编码以及分类器编码语义向量得到它们的中间特征,然后拼接得到态势向量;对于条例y,使用LSTM从条例文本词向量中提取特征向量;使用MLP评估器学习两者间的匹配关系,判断策略网络学习是否正确;策略网络学习态势和条例的匹配结果,并以最大化策略网络在所有采样态势数据上获得的总奖励为目标,对策略网络进行优化;输出态势和条例数据的匹配结果。本发明专利技术可自动输出态势和条例数据的匹配结果。结果。结果。

【技术实现步骤摘要】
条例推荐的策略梯度方法


[0001]本专利技术属于人工智能
,尤其涉及条例推荐的策略梯度方法。

技术介绍

[0002]条例数据是针对某种情况采取某种措施的规定,是文本类型数据。例如:条例1

1:发现XX国XX类型船只在XX区域进行XX活动时,可以派出XX类型装备对其实施XX措施,若该船只出现XX举动,可以对其采取XX措施。态势数据是应对目标当前的状态信息,是由多个元素组成的结构化数据。对于自然语言分析来说,需要分析文本数据中是否存在结构化的数据,并对匹配的数据进行推荐,可以从海量数据中自动筛选出需要的数据。现有技术中对条例数据和态势数据的匹配研究还不充分。

技术实现思路

[0003]有鉴于此,本专利技术提出了条例推荐的策略梯度方法。
[0004]本专利技术公开的条例推荐的策略梯度方法,所述条例推荐为判断态势和条例数据是否匹配,包括以下步骤:
[0005]获取态势数据x、条例y以及与x匹配的条例;
[0006]选择与x不匹配但最相似的K个条例作为负样本,用于拒绝错误匹配,结构化的态势数据,分别使用基于规则的one

hot编码以及分类器编码语义向量得到它们的中间特征,然后拼接得到态势向量V
x

[0007]对于条例数据y,使用LSTM从条例文本词向量中提取特征向量V
y

[0008]使用MLP评估器学习两者间的匹配关系,并根据匹配关系标签,判断策略网络学习是否正确,若正确则给予正的奖励,否则给与负的奖励;
[0009]策略网络学习态势和条例的匹配结果,并以最大化策略网络在所有采样态势数据上获得的总奖励为目标,对策略网络进行优化;
[0010]输出态势和条例数据的匹配结果。
[0011]进一步的,所述策略网络包括智能体agent和环境env两个模块,所述智能体agent初始化状态,并按随机策略采取行动,行动使环境中的状态发生改变,同时环境产生反馈信号,所述智能体agent根据反馈信号调整策略,并按调整后的策略采取行动,所述智能体agent通过不断与环境env进行交互,使得总奖励最大化。
[0012]进一步的,环境包括历史信息、状态空间、行动空间和状态的转移过程,其中历史信息定义如下:
[0013]<s1,r1,a1,

,s
t
‑1,r
t
,a
t
,s
t
,

,s
T
‑1,r
T
,a
T
,s
T
>表示一个大小为T的episode的历史信息,其中<s
t
‑1,r
t
,a
t
,s
t
>为其中的一个转移;
[0014]为每个态势选取不匹配的K个最相似的条例,得到K+1候选对,那么定义状态空间为:
[0015][0016]其中其中表示与态势x
i
相匹配的条例,表示与态势x
i
第k相似但不匹配的条例(k=1,

,K);
[0017]调整策略分为两个步骤,一个是策略评估,得到采取当前策略中的各个动作所能得到的奖赏,二是策略改进,根据策略评估的结果选择最优的动作;这两个步骤不停的迭代更新直到收敛,得到最优的策略。
[0018]进一步的,在策略改进的过程中,在策略中引入随机性进行探索,让agent以小概率p0选择跳过当前状态进行探索,确保学习过程的动态特性,具体方法如下:
[0019]对于学习难度较大的样本,以一定概率跳过,使用以下方法评估样本的学习难度:
[0020][0021]其中τ为一超参数,为和x
i
相似度最大的条例,PRsim为相似度评估方法,或使用词向量的余弦相似度,当l=0时,和的差异越大,该样本的学习难度越大;当l=1时,反之;对于学习难度更大的样本,应以更大的概率跳过,即更少地去采样它,按以下方式调整第i个episode的第k个样本被跳过的概率大小,即探索策略的随机性大小:
[0022][0023]其中,超参数η为折扣系数,超参数p
min
为最小跳过概率。
[0024]进一步的,PRsim方法如下:
[0025]通过命名实体识别或人工标注方法将条例数据y按x的schema结构化为y
*
=(y
a
,y
t
,y
p
,y
L
,y
e
);
[0026]对x和y

使用态势数据编码器提取特征得到V
x
,
[0027]评估各个维度特征的重要性,并按重要性配置权重向量W;
[0028]计算V
x

是V
x
的转置。
[0029]进一步的,使用下式更新策略网络:
[0030][0031]其中,θ为策略。
[0032]本专利技术可自动输出态势和条例数据的匹配结果。
附图说明
[0033]图1本专利技术的模型架构图。
具体实施方式
[0034]下面结合附图对本专利技术作进一步的说明,但不以任何方式对本专利技术加以限制,基于本专利技术教导所作的任何变换或替换,均属于本专利技术的保护范围。
[0035]本专利技术将条例推荐定义为判断态势和条例是否匹配的一个决策问题,从而将连续判断每一种态势和其备选条例是否匹配的过程定义为一个序列决策过程,那么求解序列匹配的最佳策略就是一个序列决策问题。该方法构建一个策略网络学习态势和条例的匹配结果,并以最大化策略网络在所有(采样)态势数据上获得的总奖励为目标,对策略网络进行优化,从而求解序列决策问题。
[0036]图1展示了基于策略梯度方法的条例推荐模型的结构,对于输入的态势数据x、条例y以及与x匹配的条例,本方法选择与x不匹配但最相似的K个条例作为负样本,用于拒绝错误匹配。对于结构化的态势数据,我们分别使用基于规则的one

hot编码以及textCNN等分类器编码语义向量得到它们的中间特征,然后拼接得到态势向量V
x
;对于条例文本数据y,本方法使用LSTM从条例文本词向量中提前特征向量V
y
,最后使用MLP评估器学习两者间的匹配关系,并根据匹配关系标签,判断策略网络学习是否正确,若正确则给予正的奖励,否则给与负的奖励。
[0037]态势数据:应对目标当前的状态信息,是由多个元素组成的结构化数据,如名称、类型、所属势力、经度、纬度、历史活动类型及次数等。一条态势数据x定义为如下格式的结构化数据:
[0038][0039]本专利技术的输入输出如下:
[0040]1)输入:态势
‑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.条例推荐的策略梯度方法,其特征在于,所述条例推荐为判断态势和条例数据是否匹配,包括以下步骤:获取态势数据x、条例y以及与x匹配的条例;选择与x不匹配但最相似的K个条例作为负样本,用于拒绝错误匹配,结构化的态势数据,分别使用基于规则的one

hot编码以及分类器编码语义向量得到它们的中间特征,然后拼接得到态势向量V
x
;对于条例数据y,使用LSTM从条例文本词向量中提取特征向量V
y
;使用MLP评估器学习两者间的匹配关系,并根据匹配关系标签,判断策略网络学习是否正确,若正确则给予正的奖励,否则给与负的奖励;策略网络学习态势和条例的匹配结果,并以最大化策略网络在所有采样态势数据上获得的总奖励为目标,对策略网络进行优化;遍历条例数据集,将态势数据和条例数据输入训练好的策略网络,输出行动,若行动为1,表示推荐该条例,否则不推荐。2.根据权利要求1所述的条例推荐的策略梯度方法,其特征在于,所述策略网络包括智能体agent和环境env两个模块,所述智能体agent初始化状态,并按随机策略采取行动,行动使环境中的状态发生改变,同时环境产生反馈信号,所述智能体agent根据反馈信号调整策略,并按调整后的策略采取行动,所述智能体agent通过不断与环境env进行交互,使得总奖励最大化。3.根据权利要求1所述的条例推荐的策略梯度方法,其特征在于,环境包括历史信息、状态空间、行动空间和状态的转移过程,其中历史信息定义如下:<s1,r1,a1,

,s
t
‑1,r
t
,a
t
,s
t
,

,s
T
‑1,r
T
,a
T
,s
T
>表示一个大小为T的episode的历史信息,其中<s
t
‑1,r
t
,a
t
,s
t
&...

【专利技术属性】
技术研发人员:成清黄金才程光权刘忠杜航吴克宇范长俊张小可
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1