当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于MAS-Q-Learing的任务分配方法组成比例

技术编号:30018762 阅读:66 留言:0更新日期:2021-09-11 06:33
本发明专利技术公开了一种基于MAS

【技术实现步骤摘要】
一种基于MAS

Q

Learing的任务分配方法


[0001]本专利技术涉及任务分配领域,主要应用在众包场景中,具体涉及到众包场景下复杂任务分配的成本优化问题。

技术介绍

[0002]本专利技术的设计动力来源于当前众包中软件测试工作的新兴应用,一般的众测过程,在该众包过程中,任务分配不明确,众包工人众包工人无法得到个人收益最大化。

技术实现思路

[0003]专利技术目的:为了避免众包过程中任务分配不明确、众包工人无法得到个人收益最大化等问题,本专利技术提供一种基于MAS

Q

Learing的任务分配方法,本专利技术与传统离散数据结构的图不同,众包过程在时间维度上是连续的,因此需要可变和不确定的时间域来对智能体进行引导。使用了Q值学习方法并设计了知识共享机制,提高了模型的鲁棒性,通过允许各个智能体之间进行部分知识共享,其中大多数智能体彼此类似,并通过它们的集体状态相互影响,利用这种交互特性可以提高求解方案的可扩展性。其次,本专利技术针对小样本数据进行训练与求解,数据采用半监督的方式进行训练,对不确定性区域进行建模;并且我们的模型还能利用大型多智能体系统的对称性,将任务分配收敛成差分—凸函数规划问题,提高了算法的收敛性。最后,为了验证算法,在多智能体上开发的相关模拟器,将任务分配问题与爬山问题进行迁移学习,测试了不同规模的多智能体系统以及环境,表明本专利技术算法比传统的多智能体Q值学习效果更好。
[0004]技术方案:为实现上述目的,本专利技术采用的技术方案为:
[0005]一种基于MAS

Q

Learing的任务分配方法,包括如下步骤:
[0006]步骤1,数据采集:获取真实应用场景中的用户数据,用户数据包括用户产生的具有状态集、动作函数、选择概率和奖励函数的数据。
[0007]步骤2,数据预处理:采用马尔科夫决策对步骤1得到的用户数据进行建模,针对不同类型的任务对众包人员进行能力数据的归一化处理,将众包人员设计成智能体五元组,通过Q值学习方法计算他们的全局收益。
[0008]步骤3,状态转移:对邻近智能体的状态以及下一状态进行定位,以便利用邻近智能体的目标估计状态来辅助自身状态转移。邻居节点进行定位利用距离观测和邻居节点传递的信息计算出。
[0009]步骤4,多智能体系统建模:采用拉普拉斯矩阵用于描述各个智能体成员之间的关联关系,目的是构建一个多智能体系统内部各成员智能体进行信息交互的机制以及对应的拓扑模型,以此降低复杂问题的求解难度。
[0010]所述步骤4中多智能体系统建模如下:
[0011]步骤4a),智能体系统包括两个以上的智能体,智能体系统的拓扑结构由表示,计算得到单个智能体的动力学方程以及边状态定义。
[0012]步骤4b),更新单个智能体的动力学方程,然后计算得到对应的入度关联矩阵,由此推理得到拉普拉斯矩阵,建立信息反馈模型,进而获得智能体的信息交互反馈。
[0013]步骤4c),获得多智能体系统中智能体之间的信息反馈模型后,接下来对多智能体系统进行模型降阶,基于生成树子图结构降低求解的复杂度。对生成树进行线性变换获得生成余树,作为多智能体系统的内反馈项,最终获得降阶后的多智能体系统模型。
[0014]步骤5,多属性决策阶段:首先给出决策矩阵,判断权重是否已知并确定权重,根据决策矩阵的属性值得出属性矩阵的集结算子,同时根据求解目标和决策矩阵的形式,选择相应的多属性决策方法进行计算,其计算结果再经过权重分配和集结,并根据最后各方案得分情况进行决策。
[0015]步骤6,方法优化阶段:采用时间差分方法估计动作

值函数,同时给出了满足合理性、完整性条件的智能体状态函数。
[0016]优选的:步骤2中数据预处理方法如下:
[0017]步骤2a),将众包人员设计成智能体五元组:<S,A,P,γ,R>,其中,S为状态,A为动作函数,P为选择概率,γ为折扣因子,γ∈(0,1),R为奖励函数。
[0018]步骤2b),当处于某一时刻t时,智能体处于状态S
t+1
,从策略集中选取策略并生成动作函数A
t
,此时按照概率p
t
转移到下一状态S
t+1
,依此类推,遍历状态后,得到该智能体的全局收益。
[0019]优选的:所述步骤3中状态转移方法如下:
[0020]步骤3a),首先对智能体相对临近智能体的欧式距离进行推导,得到智能体j在智能体i下局部坐标系的相对估计位置,得到距离观测。
[0021]步骤3b),利用步骤3a)获得的距离观测和邻居节点传递的信息对邻居节点进行定位。
[0022]优选的:根据权利要求4所述基于MAS

Q

Learing的任务分配方法,其特征在于:所述步骤6中多属性决策阶段方法如下:在转移概率模型未知的条件下求解马尔科夫决策过程问题。设定状态(S),动作(A),奖励函数(r),转移概率(p),其马尔科夫性为p(s
t+1
|s0,a0,

,s
t
,a
t
)=p(s
t+1
|s
t
,a
t
),其中s
t
表示在t时间的状态,a
t
表示在t时间的行为;模型的优化目标为a
t
~π(
·
|s
t
),t=0,

T

1,π表示常数,π(
·
|s
t
)表示在状态s
t
下的概率。利用强化学习方法在p(s
t+1
|s
t
,a
t
)未知情况下求解马尔科夫决策过程问题,采用时间差分方法估计动作

值函数;
[0023]优选的:智能体状态满足完整性条件包括智能体决策需要的所有信息。
[0024]优选的:对于智能体的动作根据施加控制量的数值特点设计离散或连续的动作值。
[0025]本专利技术相比现有技术,具有以下有益效果:
[0026]本专利技术基于单人决策方法建立了多人模型。针对人群测试环境的特殊性,本专利技术设计了人群测试过程中的多属性决策机制。本专利技术选择Q值学习作为训练算法,并优化不完美信息共享机制的设计。通过不同的不完美信息共享场景,以及不同的伽玛值和数据集,本专利技术对训练结果进行了分析,证明本专利技术设计的系统具有良好的鲁棒性和适应性,本专利技术提出的方法和模型具有一定的适用性。对相关领域的未来研究具有参考价值。具有较强的
实用性,适用于所有的众包系统系统中。
附图说明
[0027]图1为本专利技术的方法整体流程图;
[0028]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MAS

Q

Learing的任务分配方法,其特征在于,包括如下步骤:步骤1,数据采集:获取真实应用场景中的用户数据,用户数据包括用户产生的具有状态集、动作函数、选择概率和奖励函数的数据;步骤2,数据预处理:采用马尔科夫决策对步骤1得到的用户数据进行建模,针对不同类型的任务对众包人员进行能力数据的归一化处理,将众包人员设计成智能体五元组,通过Q值学习方法计算他们的全局收益;步骤3,状态转移:对邻近智能体的状态以及下一状态进行定位,以便利用邻近智能体的目标估计状态来辅助自身状态转移;邻居节点进行定位利用距离观测和邻居节点传递的信息计算出;步骤4,多智能体系统建模:采用拉普拉斯矩阵用于描述各个智能体成员之间的关联关系,目的是构建一个多智能体系统内部各成员智能体进行信息交互的机制以及对应的拓扑模型,以此降低复杂问题的求解难度;步骤5,多属性决策阶段:首先给出决策矩阵,判断权重是否已知并确定权重,根据决策矩阵的属性值得出属性矩阵的集结算子,同时根据求解目标和决策矩阵的形式,选择相应的多属性决策方法进行计算,其计算结果再经过权重分配和集结,并根据最后各方案得分情况进行决策;步骤6,方法优化阶段:采用时间差分方法估计动作

值函数,同时给出了满足合理性、完整性条件的智能体状态函数。2.根据权利要求1所述基于MAS

Q

Learing的任务分配方法,其特征在于:步骤2中数据预处理方法如下:步骤2a),将众包人员设计成智能体五元组:<S,A,P,γ,R>,其中,S为状态,A为动作函数,P为选择概率,γ为折扣因子,γ∈(0,1),R为奖励函数;步骤2b),当处于某一时刻t时,智能体处于状态S
t+1
,从策略集中选取策略并生成动作函数A
t
,此时按照概率p
t
转移到下一状态S
t+1
,依此类推,遍历状态后,得到该智能体的全局收益。3.根据权利要求2所述基于MAS

Q

Learing的任务分配方法,其特征在于:所述步骤3中状态转移方法如下:步骤3a),首先对智能体相对临近智能体的欧式距离进行推导,得到智能体j在智能体i下局部坐标系的相对估计位置,得到距离观测;步骤3b),利用步骤3a)获得的距离观测和邻居节点传递的信息对邻居节点进行定位。4.根据权利要求3所述基于MAS

Q

Learing的任务分配方法,...

【专利技术属性】
技术研发人员:王崇骏张杰乔羽曹亦康李宁
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1