用于配置强化学习代理的技术制造技术

技术编号：39590819 阅读：12 留言：0更新日期：2023-12-03 19:43

公开了一种用于将强化学习代理配置成使用从度量重要性的任务特定定义中导出的奖励结构来执行任务的技术

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于配置强化学习代理的技术

[0001]本公开一般涉及机器学习领域
。
特别地，提出了一种用于配置强化学习代理以使用从度量重要性的任务特定定义中导出的奖励结构来执行任务的技术
。
该技术可以被体现在方法
、
计算机程序
、
设备和系统中
。

技术介绍

[0002]在强化学习中，代理可以观察环境并使自己适于环境，目的是最大化总结果
(outcome)。
代理可以维持环境中每个可能状态
‑
动作对的值，并且对于给定的状态，代理可以根据状态到动作映射函数来选择下一个动作，例如，作为在该状态中提供最高值的动作
。
当代理通过采取不同的动作
(
例如，通过试错法过程
)
来探索环境时，状态
‑
动作对的值可以基于归因于相应状态
‑
动作对的正或负奖励
(
这取决于所执行的动作在给定的状态下是否是期望的
)
来迭代地更新，其中对于给定的状态
‑
动作对，正奖励可以导致较高的值，并且负奖励可以导致较低的值
。
[0003]例如，可以使用
Markov
决策过程
(MDP)
模型对强化学习算法进行建模
。MDP
由
(S
，
A
，
P
，
R)
的元组给出，其中
Sr/>是可能状态的集合，
A
是动作的集合，
P(s
，
a
，
s
’
)
是状态
s
中的动作
a
将导致状态
s
’
的概率，
R(s
，
a
，
s
’
)
是动作
a
从状态
s
转变到
s
’
的奖励
。
奖励是由利益相关者
(stakeholder)
提供以建立给定状态
‑
行动对的成功
/
失败的主要输入
。
换句话说，奖励可以是提供给强化学习模型的人类生成的输入
。
奖励可以以归因于对应状态
‑
动作对的静态值
(
例如
+1、
–
1)
的形式来提供，或者以奖励函数的形式来提供
。
例如，可以使用价值或策略迭代算法来最大化奖励
。
[0004]虽然奖励设计
(reward engineering)
传统上是以试错法方式执行的
(
例如，对于不想要的动作设置
‑
100)
，但是此类方法可能导致多个问题，例如，包括
(i)
在偏离给定策略的特定状态的奖励的轻微波动，
(ii)
奖励的不一致估值，或者
(iii)
不能解释或获得来自用户对奖励模型的功效的反馈
。
给定强化学习代理和奖励监督者
(
例如，提供输入的利益相关者
)
，执行奖励设计的常规方式包括以下内容
。(1)
直接监督：在执行评估以优化行为的情况下，监督者直接观察代理的行为
。
这种方法具有挑战性，因为假设监督者知道关羽环境的“一切”来评估行动
。
可能存在从长远来看可能不一致的奖励的偏见或短视归因
。(2)
模仿学习：监督者解决问题，例如，具有安全和避免状态的细微差别，其中解决方案被转录到代理以复制和再现
。
这种方法也存在复杂性，因为监督者必须遵循代理能够理解的动作序列，并且对于代理学习新颖的奖励空间也存在约束，因为动作将被模仿
。(3)
逆向强化学习：在这种方法中，代理试图从历史数据中估计奖励函数
。
然而，假设该问题先前已经解决了，这可能并不总是如此
。
[0005]在所有这些技术中，奖励的主观性和一致性尚未被深入探索
。
然而，随着代理越来越多地被部署在具有不同上下文和偏好的复杂环境中，通常期望具有更健壮的奖励函数
。
如果奖励函数“表现更好”，则强化学习代理通常将执行更好的学习，这
——
在实践中
——
可能引起提高收敛速度或避免不期望状态，诸如陷入局部最小值
。
仅仅作为示例，虽然稀疏
奖励函数更容易定义
(
例如，如果你赢了游戏，则获得
+1
，否则
0)
，稀疏奖励也减慢了学习，因为代理在获得任何奖励之前需要采取许多行动
。
此外，通常也难以捕捉对可解释的动作或避免某些状态序列的需求，并且因此，引入概念
(
诸如可解释性和安全执行
)
通常进一步使过程复杂
。

技术实现思路

[0006]因此，需要一种用于奖励设计的技术，该技术引起更一致奖励结构，该奖励结构能够实现改进的强化学习输出和
/
或可解释性
。
[0007]根据第一方面，提供了一种用于将强化学习代理配置成使用从度量重要性的任务特定定义中导出的奖励结构来执行任务的方法
。
所述方法由执行配置器组件的计算单元来执行，并且包括获得度量重要性的定义，所述定义为与所述任务相关联的多个性能相关度量指定成对重要性值，每个成对重要性值指示所述任务的所述多个性能相关度量中的一个度量相对于另一个度量的相对重要性
。
所述方法还包括从度量重要性的所述定义中导出奖励结构
。
所述奖励结构为所述多个性能相关度量中的每一个来定义奖励，所述奖励要归因于由所述强化学习代理采取的在相应性能相关度量中产生正结果的动作
。
所述方法还包括将所述强化学习代理配置成在执行所述任务时采用所导出的奖励结构
。
[0008]从度量重要性的所述定义中导出所述奖励结构可以使用多准则决策制订
(MCDM)
技术来执行
。
度量重要性的所述定义可以被提供为矩阵
A
：其中
n
可以是所述多个性能相关度量的度量数量，并且
w
ij
可以是指示度量
A
i
相对于度量
A
j
的相对重要性的成对重要性值，其中
i
＝1，
…
，
n
，并且
j
＝1，
…
，
n。
从所述矩阵...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种用于将强化学习代理
(804)
配置成使用从度量重要性的任务特定定义中导出的奖励结构来执行任务的方法，所述方法由执行配置器组件
(802)
的计算单元来执行，并且包括：获得
(S202)
度量重要性的定义，所述定义为与所述任务相关联的多个性能相关度量指定成对重要性值，每个成对重要性值指示所述任务的所述多个性能相关度量中的一个度量相对于另一个度量的相对重要性；从度量重要性的所述定义中导出
(S204)
奖励结构，所述奖励结构为所述多个性能相关度量中的每一个来定义奖励，所述奖励要归因于由所述强化学习代理采取的在相应性能相关度量中产生正结果的动作；以及将所述强化学习代理
(804)
配置
(S206)
成在执行所述任务时采用所导出的奖励结构
。2.
如权利要求1所述的方法，其中，从度量重要性的所述定义中导出
(S204)
所述奖励结构是使用多准则决策制订
MCDM
技术来执行的
。3.
如权利要求1或2所述的方法，其中，度量重要性的所述定义被提供为矩阵
A
：其中
n
是所述多个性能相关度量的度量数量，并且
w
ij
是指示度量
A
i
相对于度量
A
j
的相对重要性的成对重要性值，其中
i
＝1，
…
，
n
，并且
j
＝1，
…
，
n。4.
如权利要求3所述的方法，其中，从所述矩阵
A
中导出
(S204)
所述奖励结构包括求解特征值问题
Aw
＝
λ
w
：其中
λ
是
A
的最大特征值，并且
w
＝
[w1…
w
n
]
是所述特征值问题的解，其中每个权重
w
i
作为对应度量
A
i
的所述奖励，其中
i
＝1，
…
，
n。5.
如权利要求5所述的方法，其中，通过将每个权重
w
i
除以所述权重
w1…
w
n
的总和来归一化
w
＝
[w1…
w
n
]
，其中
i
＝1，
…
，
n。6.
如权利要求3至5中任一项所述的方法，其中，所述矩阵
A
是正倒数矩阵
。7.
如权利要求4至6中任一项所述的方法，其中，从所述矩阵
A
中导出
(S204)
所述奖励结构包括使用由下式定义的不一致性值作为所述矩阵
A
与一致性的偏差的测量来执行所述矩阵
A
的一致性检查：
8.
如权利要求7所述的方法，其中，如果所述不一致性值高于预定义阈值，则从所述矩阵
A
中导出所述奖励结构包括在所述矩阵
A
的成对重要性值
w
ij
中标识导致不一致性的一个或多个项，并且扰动所述一个或多个项以减少所述不一致性
。9.
如权利要求8所述的方法，其中，标识和扰动导致不一致性的一个或多个项被迭代执
行，直到所述不一致性值低于所述预定义阈值
。10.
如权利要求7所述的方法，其中，如果所述不一致性值高于预定义阈值，则从所述矩阵
A
中导出所述奖励结构包括基于一组不同的特征值
λ1，
…
，
λ
n
和对应的线性无关特征向量
v1，
…
，
v
n
来重构所述矩阵
A
，其中所述矩阵
A
被重构为
A
＝
PDP
‑1其中矩阵
P
通过堆叠
v1，
…
，
v
n
作为列向量来构造，并且矩阵
D
是
D
＝
(
λ1，
…
，
λ
n
)。11.
如权利要求1至
10
中任一项所述的方法，其中，度量重要性的所述定义是从关于将由所述强化学习代理
(804)
执行的任务的要求规范中导出的
。12.
如权利要求
11
所述的方法，其中，所述要求规范使用正式要求规范语法来制定，可选地使用简单要求语法方法
EARS
来制定，其中所述要求规范的至少一部分是模式匹配的，以导出度量重要性的所述定义
。13.
如权利要求1至
12
中任一项所述的方法，其中，响应于请求所述强化学习代理
(804)
为什么采取了特定动作的原因的查询而提供的解释是在所导出的奖励结构的基础上提供的
。14.
从属于权利要求
11
或
12
时的权利要求
13
的方法，其中，参考所述要求规范的制订来提供所述解释，可选地指示采取了所述特定动作以便满足所述要求规范的所述制订
。15.
如权利要求1至
14
中任一项所述的方法，其中，所述强化学习代理
(804)
可操作以在多个部署设置中执行所述任务，其中，对于所述多个部署设置中的每个，获得特定于相应部署设置的度量重要性的不同定义，并将所述不同定义用于导出特定于所述相应部署设置的不同奖励结构，其中，所述强化学习代理
(804)
被配置成取决于所述强化学习代理
(804)
当前操作于的部署设置来采用所述不同奖励结构中的一个
。16.
如权利要求
15
所述的方法，其中，当所述强化学习代理
(804)
的操作被改变到不同部署设置时，所述强化学习代理
(804)
被自动重新配置以采用对应于所述不同部署设置的所述不同奖励结构
...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：瑞典爱立信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人