一种基于MAS-Q-Learing的任务分配方法组成比例

技术编号：30018762 阅读：66 留言：0更新日期：2021-09-11 06:33

本发明专利技术公开了一种基于MAS

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MAS
‑
Q
‑
Learing的任务分配方法

[0001]本专利技术涉及任务分配领域，主要应用在众包场景中，具体涉及到众包场景下复杂任务分配的成本优化问题。

技术介绍

[0002]本专利技术的设计动力来源于当前众包中软件测试工作的新兴应用，一般的众测过程，在该众包过程中，任务分配不明确，众包工人众包工人无法得到个人收益最大化。

技术实现思路

[0003]专利技术目的：为了避免众包过程中任务分配不明确、众包工人无法得到个人收益最大化等问题，本专利技术提供一种基于MAS
‑
Q
‑
Learing的任务分配方法，本专利技术与传统离散数据结构的图不同，众包过程在时间维度上是连续的，因此需要可变和不确定的时间域来对智能体进行引导。使用了Q值学习方法并设计了知识共享机制，提高了模型的鲁棒性，通过允许各个智能体之间进行部分知识共享，其中大多数智能体彼此类似，并通过它们的集体状态相互影响，利用这种交互特性可以提高求解方案的可扩展性。其次，本专利技术针对小样本数据进行训练与求解，数据采用半监督的方式进行训练，对不确定性区域进行建模；并且我们的模型还能利用大型多智能体系统的对称性，将任务分配收敛成差分—凸函数规划问题，提高了算法的收敛性。最后，为了验证算法，在多智能体上开发的相关模拟器，将任务分配问题与爬山问题进行迁移学习，测试了不同规模的多智能体系统以及环境，表明本专利技术算法比传统的多智能体Q值学习效果更好。
[0004]技术方案：...

【技术保护点】

【技术特征摘要】
1.一种基于MAS
‑
Q
‑
Learing的任务分配方法，其特征在于，包括如下步骤：步骤1，数据采集：获取真实应用场景中的用户数据，用户数据包括用户产生的具有状态集、动作函数、选择概率和奖励函数的数据；步骤2，数据预处理：采用马尔科夫决策对步骤1得到的用户数据进行建模，针对不同类型的任务对众包人员进行能力数据的归一化处理，将众包人员设计成智能体五元组，通过Q值学习方法计算他们的全局收益；步骤3，状态转移：对邻近智能体的状态以及下一状态进行定位，以便利用邻近智能体的目标估计状态来辅助自身状态转移；邻居节点进行定位利用距离观测和邻居节点传递的信息计算出；步骤4，多智能体系统建模：采用拉普拉斯矩阵用于描述各个智能体成员之间的关联关系，目的是构建一个多智能体系统内部各成员智能体进行信息交互的机制以及对应的拓扑模型，以此降低复杂问题的求解难度；步骤5，多属性决策阶段：首先给出决策矩阵，判断权重是否已知并确定权重，根据决策矩阵的属性值得出属性矩阵的集结算子，同时根据求解目标和决策矩阵的形式，选择相应的多属性决策方法进行计算，其计算结果再经过权重分配和集结，并根据最后各方案得分情况进行决策；步骤6，方法优化阶段：采用时间差分方法估计动作
‑
值函数，同时给出了满足合理性、完整性条件的智能体状态函数。2.根据权利要求1所述基于MAS
‑
Q
‑
Learing的任务分配方法，其特征在于：步骤2中数据预处理方法如下：步骤2a)，将众包人员设计成智能体五元组：<S,A,P,γ,R>，其中，S为状态，A为动作函数，P为选择概率，γ为折扣因子，γ∈(0,1)，R为奖励函数；步骤2b)，当处于某一时刻t时，智能体处于状态S
t+1
，从策略集中选取策略并生成动作函数A
t
，此时按照概率p
t
转移到下一状态S
t+1
，依此类推，遍历状态后，得到该智能体的全局收益。3.根据权利要求2所述基于MAS
‑
Q
‑
Learing的任务分配方法，其特征在于：所述步骤3中状态转移方法如下：步骤3a)，首先对智能体相对临近智能体的欧式距离进行推导，得到智能体j在智能体i下局部坐标系的相对估计位置，得到距离观测；步骤3b)，利用步骤3a)获得的距离观测和邻居节点传递的信息对邻居节点进行定位。4.根据权利要求3所述基于MAS
‑
Q
‑
Learing的任务分配方法，...

【专利技术属性】
技术研发人员：王崇骏，张杰，乔羽，曹亦康，李宁，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人