当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于用户观测质量在线学习的群智感知激励方法技术

技术编号:15438096 阅读:145 留言:0更新日期:2017-05-26 04:04
本发明专利技术属于通信技术领域,具体为一种基于用户观测质量在线学习的群智感知激励方法。本发明专利技术方法是在连续时间感知任务场景下,利用逆向拍卖框架,采用多臂老虎机模型进行用户感知质量在线学习,得到用户质量信息,并在每个感知周期,根据用户的当前出价和学习的感知质量进行感知用户的选择,优化目标为在任务感知时间内获得最大的系统感知总收益。本发明专利技术提出CMAB‑DC算法进行在线学习,每个感知周期内,利用算法给出当前观测质量估计进行用户选择,能有效处理用户出价的动态变化。本发明专利技术方法所产生的用户选择策略和理论最优策略之间系统收益损失的上限为

A swarm intelligence perception incentive method based on online learning of user observation quality

The invention belongs to the field of communication technology, in particular to a group intelligence perception incentive method based on online observation quality of user observation. The method of the invention is in the continuous time perception task scenarios, using reverse auction framework, with a multi arm slot machine model of user perceived quality of online learning, users get quality information, and in each cycle of user perception perception, according to the current bid and learn the user's perception of the quality of selection, the optimization objective is to obtain the total perception system the largest gains in the perception task in time. The invention provides CMAB DC algorithm for online learning, each sensing period, using the algorithm given the current observation quality estimate user selection, can effectively deal with the dynamic changes of the user's bid. The upper limit of the system income loss between the user selection strategy and the theoretical optimal policy generated by the method of the invention is

【技术实现步骤摘要】
一种基于用户观测质量在线学习的群智感知激励方法
本专利技术属于通信
,具体涉及基于用户观测质量在线学习的群智感知激励方法,进一步,具体涉及在连续时间感知任务场景下,利用逆向拍卖框架,采用多臂老虎机(Multi-armedbandits)模型进行用户感知质量在线学习的群智感知激励方法。
技术介绍
近年来,智能手机、平板电脑等移动智能设备数量飞速增长,同时它们拥有了越来越强大的计算能力和日益丰富的传感器,如摄像头、陀螺仪、GPS定位模块等,因此具备了数据收集及处理的能力。群智感知(Crowdsensing)正是在这样的背景产生,它是众包(Crowdsourcing)思想和移动感知的结合,通过将感知任务分发给移动用户,利用用户拥有的移动设备形成感知网络,达到数据收集和信息共享的目的,从而为请求用户提供感知服务[1],系统结构如图1所示。群智感知是一种全新的数据收集模式,能充分高效的利用移动设备资源,相对于传统的无线传感器网络,具有更广泛的感知覆盖范围、更强的灵活性和更低的感知成本[2]等优点。目前,群智感知在学术研究和实际应用中都得到了广泛关注,并已应用于空气质量检测[3]、噪音监测[4]、室内定位[5][6]和健康服务等领域。激励机制(也称激励方法)设计是群智感知系统中重要的研究课题。一方面,移动用户在参与感知的过程中需要付出时间、能量及数据传输成本;另一方面,群智感知系统需要足够多的参与用户来保证充分的收集数据,因此系统需要采用合适的激励机制来调动用户的积极性,吸引更多的用户参与到感知任务中。近年来,针对群智感知系统中的激励问题出现了许多有价值的研究工作,其中相当部分文献[7-10]都选用了逆向拍卖(Reverseauction)作为机制设计的基本模型。不同于正向拍卖的单卖方多买方形式,逆向拍卖是指存在一位买方和许多潜在卖方的拍卖形式。逆向拍卖能很好地建模群智感知系统中平台和用户的交互过程,感知系统的平台是买方,参与用户作为卖方对感知数据进行出价,由平台选出合适的用户集作为赢家进行任务感知并向他们支付报酬。在现有激励机制研究中,感知用户选择一般以用户的出价和位置等因素为主要依据,文献[11]指出,由于群智感知系统中参与用户在进行数据收集时的非专业性,感知数据的质量无法得到保障。将用户的观测质量纳入对用户价值的衡量体系中能很好解决这个问题,文献[6]设计了单个感知周期在用户数据质量已知情况下的激励机制,综合出价和数据质量信息进行用户选择,并提出了QDA算法。实际中,用户质量信息往往未知,需要平台通过学习过程得到,文献[12]考虑了在预算有限及用户观测质量不确定情况下的用户选择问题,在学习用户观测质量的框架下,分别讨论了在用户出价确定和服从特定概率分布时的激励机制设计问题。然而现有的研究并不能处理实际应用中各参与用户可以自由修改自身出价的需求,在本专利技术提出的激励机制中,参与用户可以在不同观测周期更改他们的出价,在每次进行决策时,平台能够根据当前阶段各用户的出价做出用户选择。
技术实现思路
本专利技术的目的在于提供一种在连续时间感知任务场景下,利用逆向拍卖框架,采用多臂老虎机(Multi-armedbandits)模型进行用户感知质量在线学习的群智感知激励方法。使参与用户可以在不同观测周期更改他们的出价,在每次进行决策时,平台能够根据当前阶段各用户的出价做出用户选择。本专利技术中,设计了一套基于用户观测质量学习的激励方法,以有效处理用户出价的动态变化。本专利技术方法,在连续时间感知任务场景下,利用逆向拍卖框架,基于多臂老虎机(Multi-armedbandits)模型进行用户感知质量在线学习,在每个感知周期,根据用户的当前出价和学习的感知质量进行感知用户的选择,优化目标为在任务感知时间内获得最大的系统感知收益。经过性能分析,证明根据本专利技术CMAB-DC算法所产生的用户选择策略和理论最优策略之间系统收益损失的上限为O(lnn),其中n为总观测周期数。仿真结果表明本专利技术所提出的算法相对于对比算法有着明显的性能提升。1、系统模型在空气质量监测、污染监测等感知需求中,往往需要进行若干个小时甚至多日的持续观测[12],本专利技术以此类连续时间感知的任务场景为参考,将整个感知任务按时间划分为多个感知周期(每个感知周期可以取为数分钟)进行处理,每个感知周期是一次完整的逆向拍卖过程。考虑一个观测时间为n个感知周期的任务,感知系统由感知平台和m个参与用户组成,用户集记为M={1,2,…,m}。1.1、拍卖模型描述每个感知周期内,平台和用户之间进行图2所示的拍卖过程,由以下几步组成:1)平台将任务(包含任务描述、任务位置等信息)广播给区域内的用户;2)用户向平台反馈自己的感知成本作为出价;3)平台根据一定准则进行用户的选择并告知用户选出的用户集S,S包含的用户即为本次拍卖的赢家;4)被选中的用户在本感知周期进行数据收集并按时将数据传回平台;5)在当前感知周期结束前,平台确定并支付S中各用户的报酬。将所有用户在第t个周期的出价记为Ct={c1,t,c2,t,…,ci,t,…,cm,t},其中ci,t为第i个用户的出价,不同周期某个用户的出价可能变化。如果在某个周期有部分用户放弃出价,可以将这些用户在当前周期的出价记为无穷大,以此将其从用户选择过程中排除。本激励机制中的拍卖过程需要满足相应的经济学特性[7],主要有以下两条:1)出价真实性:指用户在拍卖的出价阶段报出自己的真实成本;2)用户理性:指用户获得的报酬不低于其出价成本,以此来保证用户的积极性。此外,本专利技术设计的激励机制将用户观测质量纳入了考虑的范畴,观测质量具体体现为用户在一个周期内的有效观测次数。用户有效观测次数与该用户的观测习惯、所处的通信条件等因素有关,可以看作是一个随机变量[12]。我们将周期t内用户i的有效观测次数记为Li,t,不同周期内用户i的有效观测次数独立同分布,随机分布的均值为μi,则所有用户的观测质量均值可以记为μ={μ1,μ2,…,μm}。不失一般性,将μi归一化至区间[μmin,1],其中μmin>0为用户最小观测质量。1.2、用户选择准则若平台在周期t选择的用户集为S,该周期内任务总有效感知次数的期望可以表示为选择用户观测质量均值之和,即:平台在该周期的期望收益rt(S)为任务回报和支付给用户报酬pi之差,即:其中,函数f(·)是以Lt(S)为自变量的回报函数,文中取为f(x)=bloga(1+x),a>1,b>0均为常数。若用户i在周期t被平台选中,即i∈S,则其收益为所获报酬和感知成本的差值;否则收益为零,因此i的收益为:需要指出的是,在后续分析中我们将说明本机制能保证用户出价的真实性,因此上式中用户i的感知成本直接表示为其在该时刻的出价ci,t。平台的目标为最大化系统总收益,即平台收益rt(S)和各用户收益之和,即:在用户的观测质量μ已知的情况下,平台只需要确定使得Rt(S)最大的用户集S,即可使系统收益最大。本文中平台对μ的信息未知,因此无法进行决策,故采用在线学习的方式学习用户观测质量,从而进行用户选择。1.3、多臂老虎机学习框架多臂老虎机(Multi-armedbandits,MAB)问题是从赌场中的多臂老虎机场景中提取出来的数学模型,其中本文档来自技高网
...
一种基于用户观测质量在线学习的群智感知激励方法

【技术保护点】
一种基于用户观测质量在线学习的群智感知激励方法,其特征在于,在连续时间感知任务场景下,利用逆向拍卖框架,采用多臂老虎机模型进行用户感知质量在线学习,得到用户质量信息,并在每个感知周期,根据用户的当前出价和学习的感知质量进行感知用户的选择,优化目标为在任务感知时间内获得最大的系统感知总收益。

【技术特征摘要】
1.一种基于用户观测质量在线学习的群智感知激励方法,其特征在于,在连续时间感知任务场景下,利用逆向拍卖框架,采用多臂老虎机模型进行用户感知质量在线学习,得到用户质量信息,并在每个感知周期,根据用户的当前出价和学习的感知质量进行感知用户的选择,优化目标为在任务感知时间内获得最大的系统感知总收益。2.根据权利要求1所述的基于用户观测质量在线学习的群智感知激励方法,其特征在于,所述逆向拍卖框架描述如下:将整个感知任务按时间划分为多个感知周期进行处理,每个感知周期是一次完整的逆向拍卖过程;考虑一个观测时间为个感知周期的任务,感知系统由感知平台和个参与用户组成,用户集记为;每个感知周期内,平台和用户之间进行的拍卖过程为:1)平台将任务广播给区域内的用户;2)用户向平台反馈自己的感知成本作为出价;3)平台根据一定准则进行用户的选择并告知用户选出的用户集,包含的用户即为本次拍卖的赢家;4)被选中的用户在本感知周期进行数据收集并按时将数据传回平台;5)在当前感知周期结束前,平台确定并支付中各用户的报酬;将所有用户在第个周期的出价记为,其中为第个用户的出价,不同周期某个用户的出价可能变化;如果在某个周期有部分用户放弃出价,可以将这些用户在当前周期的出价记为无穷大,以此将其从用户选择过程中排除;周期内用户的有效观测次数记为,不同周期内用户的有效观测次数独立同分布,随机分布的均值为,则所有用户的观测质量均值记为;不失一般性,将归一化至区间,其中为用户最小观测质量;所述用户的选择准则如下:若在周期选择的用户集为,该周期内任务总有效感知次数的期望表示为选择用户观测质量均值之和,即:(1)在该周期的期望收益为任务回报和支付给用户报酬之差,即:(2)其中,函数...

【专利技术属性】
技术研发人员:胡天成杨涛胡波
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1