System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于反向拍卖的多目标移动群智感知激励机制方法技术_技高网

基于反向拍卖的多目标移动群智感知激励机制方法技术

技术编号:43868412 阅读:17 留言:0更新日期:2024-12-31 18:54
本发明专利技术公开一种基于反向拍卖的多目标移动群智感知激励机制方法,包括:对多目标群智感知系统进行数学建模,并基于反向拍卖建立包含平台效用、用户效用的社会福利数学模型;根据预算有限的约束条件,构建社会福利最大化优化目标;获取用户在每个时隙的地理位置和提交的数据质量;提取用户特征并聚类;基于深度强化学习,设计动态激励机制算法,选择合适的用户参与任务并支付相应报酬。本发明专利技术在有限的预算条件下,同时优化任务区域覆盖率、平台效用和用户效用,实现社会福利最大化;并且能够根据用户移动轨迹和数据质量的随时间变化,动态地选择用户并提供合适的报酬,提高了群智感知系统的适应性和总体效率。

【技术实现步骤摘要】

本专利技术涉及计算机数据处理,更为具体地说是指基于反向拍卖的多目标移动群智感知激励机制方法


技术介绍

1、近年来,随着物联网技术的快速发展,各种移动设备纷纷嵌入了麦克风、gps、摄像头和陀螺仪等多种传感器,人们可以在日常生活中利用这些设备感知周围环境数据,群智感知作为一种新兴的数据感知范式应运而生。群智感知主要是将感知任务外包给大量不特定的个体用户,充分利用他们固有的移动性和移动设备的多种传感能力,从而能够以较低的成本完成大规模的数据采集。由于其成本低、灵活性高等优势,群智感知在环境监测、交通数据采集和医疗保健等诸多领域得到了广泛应用。

2、虽然群智感知技术能够解决许多问题,但目前该技术仍面临用户参与度不足和数据质量不稳定的限制。因此,已经有研究提出了一些激励模型。例如,有人提出了以用户为中心的激励模型,在对用户成本给予补偿的同时,其主要目的在于寻求最优的用户集合以达到平台效用最大化的目的;也有人考虑任务与位置的相关性,以最小化平台成本为目的选择支付代价最小的用户作为赢标者。这些做法主要强调了单一目标的重要性,忽视了其余目标的优化价值。

3、另外,激励机制根据平台掌握的先验信息程度可以分为离线和在线两类。离线机制通常假设平台已经掌握了用户的全部信息,而在线机制则只依赖于用户的过去信息,没有未来信息。在基于位置的服务中,传统的激励策略通常根据大量的用户移动轨迹预测用户的运动模式,然后采用贪心算法来选择合适的用户执行任务。然而,这在实际场景中往往并不成立,新到达的任务由于收集的轨迹数据不足,无法准确预测用户的运动模式。


技术实现思路

1、本专利技术提供的目的是一种基于反向拍卖的多目标移动群智感知激励机制方法,以解决现有群智感知主要强调单一目标的重要性,而忽略了其它优化目标,且在激励机制中未考虑用户的动态变化和不确定性等缺点。

2、本专利技术采用如下技术方案:

3、基于反向拍卖的多目标移动群智感知激励机制方法,包括以下步骤:

4、步骤1:对多目标群智感知系统进行数学建模,并基于反向拍卖建立包含平台效用、用户效用的社会福利数学模型;

5、步骤2:根据预算有限的约束条件,构建社会福利最大化优化目标;

6、步骤3:获取用户在每个时隙的地理位置和提交的数据质量;

7、步骤4:提取用户特征并聚类;

8、步骤5:基于深度强化学习,设计动态激励机制算法,选择合适的用户参与任务并支付相应报酬。

9、一较佳实施方案中,上述步骤1中的多目标群智感知系统由一个平台和n个用户组成,买家的预算为b,其需要在指定区域收集一段时间内的噪声数据;平台在接收到该任务后,首先将整个感知区域划分为一组网格,z表示网格集合,每个网格j∈z都有一个权重wj,表示该网格的重要性;将整个感知过程t划分为若干个阶段,用户在每个感知阶段开始时向平台提交当前位置和执行任务的报价bi;平台根据给定信息选择合适的用户加入获胜集w,并在获胜的用户执行任务后支付相应报酬pi,用ci表示用户i执行任务的真实成本,该值是私密信息只有用户自己知道;用户效用定义为支付与其真实成本之间的差额,用户i的效用计算公式如下:

10、

11、定义用户访问矩阵vt(w)表示为获胜用户在当前时隙t之前是否访问过特定网格,其中每一行代表一个获胜的用户,每列表示用户是否访问过该网格:vij∈{0,1},即如果网格j被用户i访问过,则vij=1,否则vij=0;直到当前时间t,即使用户i多次访问网格j,vij仍然计数1;平台效用定义为平台的收益减去支付给获胜用户的报酬,平台的收益由区域覆盖收益和数据质量收益组成,区域覆盖率表示为获胜者访问的网格数量与轨迹时间范围内所有网格区域数量之比:平台从任务区域覆盖中获得的覆盖收益定义为:用于控制区域覆盖收益梯度的系统参数,用对数函数来描述平台收益边际递减的规律;定义用户声誉为用户提交的历史数据质量的平均值,用户声誉矩阵:其中,表示用户i在当前时刻t之前提交的数据质量平均值;平台从用户提交的数据中获得的数据质量收益为:为用户i在时刻t提交的数据质量,为控制数据质量收益梯度的系统参数;平台效用表示为:

12、上述社会福利为平台效用与用户效用之和:使用执行任务的报价bi代替无法准确获取的真实成本ci,故社会福利表达式的数学模型为:

13、上述步骤2构建社会福利最大化优化目标的公式如下:

14、

15、

16、上述步骤4是采用自适应共振法arm对用户特征提取并聚类,该自适应共振法arm集成了art网络和剪枝机制,art网络由输入层、输出层、自底向上和自顶向下全连通的链路组成;输入层由用户访问矩阵和用户声誉矩阵组成,输出层的每个节点代表一个分类的cl,每个参与者被分配到一个相应的节点;输入层和输出层有两个完全方向的连接:自下而上的网络权值用wb表示,自上而下的网络权值用wt表示。

17、一较佳实施方案中,上述步骤4的具体过程如下:

18、步骤4.1:将用户访问矩阵和用户声誉矩阵拼接成|w|×(|z|+1)维的特征矩阵ct(w);

19、步骤4.2:将特征矩阵ct(w)每一行作为用户的特征输入自适应共振网络,并计算各个节点与输入向量的匹配程度:net[j,p]表示第j个cl与用户p的匹配程度;

20、步骤4.3:选取匹配程度最大的节点j*;

21、步骤4.4:计算节点j*与用户特征的相似度:

22、步骤4.5:将相似度与设定的阈值进行比较,如果大于阈值,则更新网络权值;否则遍历所有其他输出节点,寻找相似度大于阈值的节点;如果输出层中的所有节点都不符合要求,则增加一个新的分类节点,并将用户分配到该类别中;如果输出层节点总数超过n,则启动剪枝机制。

23、一较佳实施方案中,上述步骤5的动态激励机制算法包括:

24、步骤5.1:用随机网络参数ω初始化网络qω(s,a);

25、步骤5.2:复制相同参数ω-←ω初始化目标网络

26、步骤5.3:初始化经验回放池;

27、步骤5.4:生成经验数据存入回放池;

28、步骤5.5:从回放池中随机采样进行训练。

29、定义以下参数:从步骤4中得到n个用户状态集群cl,状态:表示第i个集群;动作:at从用户状态集群cl中选择一个状态集群;奖励:rt(st,at)为在状态st下采取动作at获得的社会福利增量减去违反预算有限约束带来的惩罚,其计算公式为其中,为可调参数;报酬:用户在时刻t获得的报酬为t-1时刻选择的用户对应的出价bi;上述步骤5.4具体包括如下:

30、步骤5.4.1:使用arm获取当前环境状态st;

31、步骤5.4.2:根据当前网络qω(s,a)以ε-greedy策略选择动作at

32、

33、步骤5.4.3:用ε-greedy策略选择本文档来自技高网...

【技术保护点】

1.基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于:所述步骤1中的多目标群智感知系统由一个平台和N个用户组成,买家的预算为B,其需要在指定区域收集一段时间内的噪声数据;平台在接收到该任务后,首先将整个感知区域划分为一组网格,Z表示网格集合,每个网格j∈Z都有一个权重wj,表示该网格的重要性;将整个感知过程T划分为若干个阶段,用户在每个感知阶段开始时向平台提交当前位置和执行任务的报价bi;平台根据给定信息选择合适的用户加入获胜集W,并在获胜的用户执行任务后支付相应报酬pi,用ci表示用户i执行任务的真实成本,该值是私密信息只有用户自己知道;用户效用定义为支付与其真实成本之间的差额,用户i的效用计算公式如下:

3.如权利要求2所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于:定义用户访问矩阵Vt(W)表示为获胜用户在当前时隙t之前是否访问过特定网格,其中每一行代表一个获胜的用户,每列表示用户是否访问过该网格:vij∈{0,1},即如果网格j被用户i访问过,则vij=1,否则vij=0;直到当前时间t,即使用户i多次访问网格j,vij仍然计数1;平台效用定义为平台的收益减去支付给获胜用户的报酬,平台的收益由区域覆盖收益和数据质量收益组成,区域覆盖率表示为获胜者访问的网格数量与轨迹时间范围内所有网格区域数量之比:平台从任务区域覆盖中获得的覆盖收益定义为:),用于控制区域覆盖收益梯度的系统参数,用对数函数来描述平台收益边际递减的规律;定义用户声誉为用户提交的历史数据质量的平均值,用户声誉矩阵:其中,表示用户i在当前时刻t之前提交的数据质量平均值;平台从用户提交的数据中获得的数据质量收益为:为用户i在时刻,提交的数据质量,为控制数据质量收益梯度的系统参数;平台效用表示为:

4.如权利要求3所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于,社会福利为平台效用与用户效用之和:使用执行任务的报价bi代替无法准确获取的真实成本ci,故社会福利表达式的数学模型为:

5.如权利要求4所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于:所述步骤2构建社会福利最大化优化目标的公式如下:

6.如权利要求1所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于:所述步骤4是采用自适应共振法ARM对用户特征提取并聚类,该自适应共振法ARM集成了ART网络和剪枝机制,ART网络由输入层、输出层、自底向上和自顶向下全连通的链路组成;输入层由用户访问矩阵和用户声誉矩阵组成,输出层的每个节点代表一个分类的CL,每个参与者被分配到一个相应的节点;输入层和输出层有两个完全方向的连接:自下而上的网络权值用Wb表示,自上而下的网络权值用Wt表示。

7.如权利要求6所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于,所述步骤4的具体过程如下:

8.如权利要求7所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于,所述步骤5的动态激励机制算法包括:

9.如权利要求8所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于,定义以下参数:从步骤4中得到n个用户状态集群CL,状态:表示第i个集群;动作:at从用户状态集群CL中选择一个状态集群;奖励:rt(st,at)为在状态st下采取动作at获得的社会福利增量减去违反预算有限约束带来的惩罚,其计算公式为其中,为可调参数;报酬:用户在时刻t获得的报酬为t-1时刻选择的用户对应的出价bi;所述步骤5.4具体包括如下:

10.如权利要求9所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于,所述步骤5.5具体包括如下:

...

【技术特征摘要】

1.基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于:所述步骤1中的多目标群智感知系统由一个平台和n个用户组成,买家的预算为b,其需要在指定区域收集一段时间内的噪声数据;平台在接收到该任务后,首先将整个感知区域划分为一组网格,z表示网格集合,每个网格j∈z都有一个权重wj,表示该网格的重要性;将整个感知过程t划分为若干个阶段,用户在每个感知阶段开始时向平台提交当前位置和执行任务的报价bi;平台根据给定信息选择合适的用户加入获胜集w,并在获胜的用户执行任务后支付相应报酬pi,用ci表示用户i执行任务的真实成本,该值是私密信息只有用户自己知道;用户效用定义为支付与其真实成本之间的差额,用户i的效用计算公式如下:

3.如权利要求2所述的基于反向拍卖的多目标移动群智感知激励机制方法,其特征在于:定义用户访问矩阵vt(w)表示为获胜用户在当前时隙t之前是否访问过特定网格,其中每一行代表一个获胜的用户,每列表示用户是否访问过该网格:vij∈{0,1},即如果网格j被用户i访问过,则vij=1,否则vij=0;直到当前时间t,即使用户i多次访问网格j,vij仍然计数1;平台效用定义为平台的收益减去支付给获胜用户的报酬,平台的收益由区域覆盖收益和数据质量收益组成,区域覆盖率表示为获胜者访问的网格数量与轨迹时间范围内所有网格区域数量之比:平台从任务区域覆盖中获得的覆盖收益定义为:),用于控制区域覆盖收益梯度的系统参数,用对数函数来描述平台收益边际递减的规律;定义用户声誉为用户提交的历史数据质量的平均值,用户声誉矩阵:其中,表示用户i在当前时刻t之前提交的数据质量平均值;平台从用户提交的数据中获得的数据质量收益为:为用户i在时刻,提交的数据质量,为控制数据质量收益梯度的系统参数;平台效用表示为:<...

【专利技术属性】
技术研发人员:彭振龙吴恩慧
申请(专利权)人:泉州师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1