基于最大似然比的群智数据有效性验证方法技术

技术编号:11198682 阅读:163 留言:0更新日期:2015-03-26 05:32
本发明专利技术提供了一种基于最大似然比的群智数据有效性验证方法,包括步骤:实验获取一个未经训练的普通人将某个观测分量判断错的先验概率;服务器对已经积累的所有数据按观测值归类;对同一测量值的所有数据,使用核密度估计计算概率密度函数,计算置信概率;服务器等待用户上传新的数据;测量者使用其移动终端进行多次测量,获得一组数据,连同测量者自己观察得到的观测分量一同上传给服务器;服务器将用户提供的数据与数据库相比较,使用一种基于最大似然比的群智数据有效性验证方法计算这组数据的似然可靠度;服务器决定是否接受这组数据,根据可靠性支付报酬,更新这个测量值的数据库,重新计算概率密度函数和置信概率。

【技术实现步骤摘要】
基于最大似然比的群智数据有效性验证方法
本专利技术涉及通信
,具体地,涉及一种基于最大似然比的群智数据有效性验证方法。
技术介绍
群智(crowdsourcing)在智能手机的应用中有十分广阔的前景。随着互联网技术的飞速发展,网络中个体的数量飞速增长,个体相互之间的联系也越来越紧密。在这样的大环境下,群智服务应运而生。如何有效的构建群智服务平台,促进社会中的资源共享,是下一代互联网研究需要解决的重要问题。如今,信息提供商往往采用群智激励机制(CrowdsourcingIncentiveMechanism),将采集信息的工作交由分散的用户来做,并为他们提供的信息或服务给予一定的回报。例如有人想知道某段道路的拥堵情况,由正在该路段上的用户提供的信息不仅比提供商派人去勘察得到的信息更快也更准确。如今手机传感技术(MobilePhoneSensing)正在蓬勃的发展之中,多种多样的传感设备正在被安装到智能手机上,例如加速传感器,GPS,距离传感器,相机等。利用这些分散的用户的智能手机传感技术获取到所需的信息并上传给提供商是现阶段逐渐流行的手段。尽管群智有众多优点,但是其弊端也是不可避免的。由于数据的测量者没有经过专业训练,测量的数据的观测误差总体来说会比较大,而且,由于测量者未经训练,不同数据的有效性的差异也会比通过传统方法获得的数据更大。极端情况下,如果测量者对测试对象非常陌生,甚至误操作,导致数据严重偏离了正常水平,采用这个数据将会对样本的有效性造成一定损害。这是群智场景中特有的一种误差,以下称为观测误差;其余的称为测量误差。这两种误差通常都可以用更大的样本量来弥补,但是我们的目的在于通过概率论的方法对群智数据进行定量评价与比较。进一步地,目的在于能从中筛选出相对有效性更高的一部分,也就是观测误差较小的一部分。经过对现有技术文献的检索发现,M.Ramadan等2008年在InternationalSymposiumonPersonal,IndoorandMobileRadioCommunications发表的“Implementationandevaluationofcooperativevideostreamingformobiledevices”中提出了基于合作下载的视频分享机制,但该机制要求所有参与用户都相互认识并主动组成无线局域网,因而应用场景受到了极大限制。L.Keller等2012年在InternationalConferenceonMobileSystems,Applications,andServices发表的“MicroCast:cooperativevideostreamingonsmartphones”中提出了一种利用手机之间无线通信实现的视频协作下载加速机制。但该机制要求所有参与用户都希望下载同一个视频,该条件在大部分情况下都得不到满足,因而有很大的局限性。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于最大似然比的群智数据有效性验证方法,通过利用服务器数据库中已经积累的大量数据内容更好地筛选有效的数据,减少录入错误数据造成的判断偏差。根据本专利技术提供的一种基于最大似然比的群智数据有效性验证方法,包括如下步骤:步骤1:实验获取先验概率plj,其中,plj表示对于某个观测分量j,一个未经训练的测量者将该观测分量j判断为l的概率;步骤2:服务器对已经积累的所有数据按观测值归类;对同一测量值j的所有数据,使用核密度估计计算概率密度函数,计算置信概率αj;步骤3:服务器等待用户上传新的数据;步骤4:测量者i使用其移动终端进行多次测量,获得一组数据,这组数据连同测量者自己观察得到的观测分量一同上传给服务器;步骤5:服务器将用户提供的数据与数据库相比较,计算这组数据的似然可靠度;步骤6:服务器决定是否接受这组数据,根据可靠性支付报酬;如果服务器接受这组数据,返回步骤2,更新这个测量值j的数据库,重新使用步骤2中的方法计算概率密度函数和置信概率αj。优选地,所述步骤1包括如下步骤:步骤1.1:对于基于Wi-Fi信号强度的室内定位的训练过程中,测量者需要确定自已所处室内的位置,产生观测误差;测量者的观测误差被抽象为其处于房间中一点时对于房间最近的两个墙壁的距离的估计误差;步骤1.2:通过预先的一次实验确定先验概率plj并将先验概率plj应用于所有室内定位的活动中,具体为,令多个测量者在一个没有距离参照物的房间里某些固定点j判断自己的位置l,收集该多个测量者的判断结果分布情况即作为plj;步骤1.3:对于不能通过预先的一次实验确定的plj,可取克罗内克函数:其中,δlj表示克罗内克函数。优选地,所述步骤2包括如下步骤:步骤2.1:服务器的数据库中的每个观测分量对应积累数据集Dj,j=1,2,3,...,N,N表示观测分量的总数,Dj中的各个元素Djk,k=1,2,3,...T,服从fj(x)分布,T表示每个观测分量的数据总数,fj(x)表示观测分量j所服从的概率密度函数;T=|Dj|>>M,M表示测量者一次上传的数据总数,则其中,Kh表示核密度函数,x表示数据变量;步骤2.2:设即ns(x)表示[x-h,x+h]内数据库中已存在数据个数,h表示核密度函数Kh的带宽;ns(x)可能有T+1个取值,服从分布:其中,P(·)表示ns(x)的概率质量函数,ns(x)表示表示[x-h,x+h]内数据库中已存在数据个数,ns表示可能的取值,可取0,1,...,T,T+1中的任一值,表示从T个不同元素中取出ns个的组合数,h表示表示核密度函数Kh的带宽;步骤2.3:通过数据库大小确定ril的期望,将这个期望作为置信概率α,其中,ril表示观测者i所上传的数据属于观测分量l的概率密度;显然,不同观测值对应的积累数据量是不同的,因此对于不同观测值有不同的置信概率αj。优选地,所述步骤4包括如下步骤:步骤4.1:测量者获得一组M个数据记作下式其中,表示测量者i对同一观测分量进行多次测量获得的一组数据,j表示这组M个数据的一个需要观测的分量的真实值,j∈{1,2,3,...,N},N表示观测分量的总数;xti服从分量j对应分布fj(x),xti表示测量者i上传的第t个数据;步骤4.2:观测误差体现为测量者将j判断为j′上报给服务器,即优选地,所述步骤5包括如下步骤:步骤5.1:服务器取得数据后计算所有{ril}:其中,M表示测量者一次上传的数据总数,f(·)表示观测分量所服从的概率密度函数,l表示可能的观测分量编号,xtij′表示观测者i上传的第t个数据,并将其判断为观测分量j′,N表示观测分量的总数,ril的物理意义为属于观测分量l的概率密度;显然,当l=j时最大;步骤5.2:定义参数其中αj称为置信概率,plj′表示对于观测分量j′,测量者将该观测分量j′判断为观测分量l的概率;当αj=1时的意义为测量数据的最大可能概率密度的对数;显然对于相同长度的一组数据,较大者更可信;步骤5.3:通过能够对所有群智数据的有效性进行排序,根据需要取其中的前若干个。优选地,在步骤2.1中,取核密度函数为均匀核函数:h足够小使得数据在带宽范围内近似均匀分布,落到这个区域内的概率Ps=P(|x-Djk|<h)=本文档来自技高网
...
基于最大似然比的群智数据有效性验证方法

【技术保护点】
一种基于最大似然比的群智数据有效性验证方法,其特征在于,包括如下步骤:步骤1:实验获取先验概率plj,其中,plj表示对于某个观测分量j,一个未经训练的测量者将该观测分量j判断为l的概率;步骤2:服务器对已经积累的所有数据按观测值归类;对同一测量值j的所有数据,使用核密度估计计算概率密度函数,计算置信概率αj;步骤3:服务器等待用户上传新的数据;步骤4:测量者i使用其移动终端进行多次测量,获得一组数据,这组数据连同测量者自己观察得到的观测分量一同上传给服务器;步骤5:服务器将用户提供的数据与数据库相比较,计算这组数据的似然可靠度;步骤6:服务器决定是否接受这组数据,根据可靠性支付报酬;如果服务器接受这组数据,返回步骤2,更新这个测量值j的数据库,重新使用步骤2中的方法计算概率密度函数和置信概率αj。

【技术特征摘要】
1.一种基于最大似然比的群智数据有效性验证方法,其特征在于,包括如下步骤:步骤1:实验获取先验概率plj,其中,plj表示对于某个观测分量j,一个未经训练的测量者将该观测分量j判断为观测分量l的概率;步骤2:服务器对已经积累的所有数据按观测值归类;对同一观测分量j的所有数据,使用核密度估计计算概率密度函数,计算置信概率αj;步骤3:服务器等待用户上传新的数据;步骤4:测量者i使用其移动终端进行多次测量,获得一组数据,这组数据连同测量者自己观察得到的观测分量一同上传给服务器;步骤5:服务器将用户提供的数据与数据库相比较,计算这组数据的似然可靠度;步骤6:服务器决定是否接受这组数据,根据可靠性支付报酬;如果服务器接受这组数据,返回步骤2,更新这个观测分量j的数据库,重新使用步骤2中的方法计算概率密度函数和置信概率αj。2.根据权利要求1所述的基于最大似然比的群智数据有效性验证方法,其特征在于,所述步骤1包括如下步骤:步骤1.1:对于基于Wi-Fi信号强度的室内定位的训练过程中,测量者需要确定自己所处室内的位置,产生观测误差;测量者的观测误差被抽象为其处于房间中一点时对于房间最近的两个墙壁的距离的估计误差;步骤1.2:通过预先的一次实验确定先验概率plj并将先验概率plj应用于所有室内定位的活动中;具体为,令多个测量者在一个没有距离参照物的房间里某些观测分量j判断观测分量l,收集该多个测量者的判断结果分布情况即作为plj;步骤1.3:对于不能通过预先的一次实验确定的plj,取克罗内克函数:其中,δlj表示克罗内克函数。3.根据权利要求1所述的基于最大似然比的群智数据有效性验证方法,其特征在于,所述步骤2包括如下步骤:步骤2.1:服务器的数据库中的每个观测分量对应积累数据集Dj,j=1,2,3,…,N,N表示观测分量的总数,Dj中的各个元素Djk,k=1,2,3,…T,服从fj(x)分布,T表示每个观测分量的数据总数,fj(x)表示观测分量j所服从的概率密度函数;T=|Dj|>>M,M表示测量者一次上传的数据总数,则其中,Kh表示核密度函数,x表示数据变量;步骤2.2:设即ns(x)表示[x-h,x+h]内数据库中已存在数据个数,h表示核密度函数Kh的带宽;ns(x)可能有T+1个取值,服从分布:1其中,P(·)表示ns(x)的概率质量函数,ns(x)表示表示[x-h,x+h]内数据库中已存在数据个数,ns取0,1,…,T,T+...

【专利技术属性】
技术研发人员:闻于天张奇田晓华杨峰王新兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1