基于最大似然比的群智数据有效性验证方法技术

技术编号：11198682 阅读：163 留言：0更新日期：2015-03-26 05:32

本发明专利技术提供了一种基于最大似然比的群智数据有效性验证方法，包括步骤：实验获取一个未经训练的普通人将某个观测分量判断错的先验概率；服务器对已经积累的所有数据按观测值归类；对同一测量值的所有数据，使用核密度估计计算概率密度函数，计算置信概率；服务器等待用户上传新的数据；测量者使用其移动终端进行多次测量，获得一组数据，连同测量者自己观察得到的观测分量一同上传给服务器；服务器将用户提供的数据与数据库相比较，使用一种基于最大似然比的群智数据有效性验证方法计算这组数据的似然可靠度；服务器决定是否接受这组数据，根据可靠性支付报酬，更新这个测量值的数据库，重新计算概率密度函数和置信概率。

全部详细技术资料下载

【技术实现步骤摘要】
基于最大似然比的群智数据有效性验证方法
本专利技术涉及通信
，具体地，涉及一种基于最大似然比的群智数据有效性验证方法。
技术介绍
群智(crowdsourcing)在智能手机的应用中有十分广阔的前景。随着互联网技术的飞速发展，网络中个体的数量飞速增长，个体相互之间的联系也越来越紧密。在这样的大环境下，群智服务应运而生。如何有效的构建群智服务平台，促进社会中的资源共享，是下一代互联网研究需要解决的重要问题。如今，信息提供商往往采用群智激励机制(CrowdsourcingIncentiveMechanism)，将采集信息的工作交由分散的用户来做，并为他们提供的信息或服务给予一定的回报。例如有人想知道某段道路的拥堵情况，由正在该路段上的用户提供的信息不仅比提供商派人去勘察得到的信息更快也更准确。如今手机传感技术(MobilePhoneSensing)正在蓬勃的发展之中，多种多样的传感设备正在被安装到智能手机上，例如加速传感器，GPS，距离传感器，相机等。利用这些分散的用户的智能手机传感技术获取到所需的信息并上传给提供商是现阶段逐渐流行的手段。尽管群智有众多优点，但是其弊端也是不可避免的。由于数据的测量者没有经过专业训练，测量的数据的观测误差总体来说会比较大，而且，由于测量者未经训练，不同数据的有效性的差异也会比通过传统方法获得的数据更大。极端情况下，如果测量者对测试对象非常陌生，甚至误操作，导致数据严重偏离了正常水平，采用这个数据将会对样本的有效性造成一定损害。这是群智场景中特有的一种误差，以下称为观测误差；其余的称为测量误差。这两种误差通常都可以用更大的...
基于最大似然比的群智数据有效性验证方法

【技术保护点】
一种基于最大似然比的群智数据有效性验证方法，其特征在于，包括如下步骤：步骤1：实验获取先验概率plj，其中，plj表示对于某个观测分量j，一个未经训练的测量者将该观测分量j判断为l的概率；步骤2：服务器对已经积累的所有数据按观测值归类；对同一测量值j的所有数据，使用核密度估计计算概率密度函数，计算置信概率αj；步骤3：服务器等待用户上传新的数据；步骤4：测量者i使用其移动终端进行多次测量，获得一组数据，这组数据连同测量者自己观察得到的观测分量一同上传给服务器；步骤5：服务器将用户提供的数据与数据库相比较，计算这组数据的似然可靠度；步骤6：服务器决定是否接受这组数据，根据可靠性支付报酬；如果服务器接受这组数据，返回步骤2，更新这个测量值j的数据库，重新使用步骤2中的方法计算概率密度函数和置信概率αj。

【技术特征摘要】
1.一种基于最大似然比的群智数据有效性验证方法，其特征在于，包括如下步骤：步骤1：实验获取先验概率plj，其中，plj表示对于某个观测分量j，一个未经训练的测量者将该观测分量j判断为观测分量l的概率；步骤2：服务器对已经积累的所有数据按观测值归类；对同一观测分量j的所有数据，使用核密度估计计算概率密度函数，计算置信概率αj；步骤3：服务器等待用户上传新的数据；步骤4：测量者i使用其移动终端进行多次测量，获得一组数据，这组数据连同测量者自己观察得到的观测分量一同上传给服务器；步骤5：服务器将用户提供的数据与数据库相比较，计算这组数据的似然可靠度；步骤6：服务器决定是否接受这组数据，根据可靠性支付报酬；如果服务器接受这组数据，返回步骤2，更新这个观测分量j的数据库，重新使用步骤2中的方法计算概率密度函数和置信概率αj。2.根据权利要求1所述的基于最大似然比的群智数据有效性验证方法，其特征在于，所述步骤1包括如下步骤：步骤1.1：对于基于Wi-Fi信号强度的室内定位的训练过程中，测量者需要确定自己所处室内的位置，产生观测误差；测量者的观测误差被抽象为其处于房间中一点时对于房间最近的两个墙壁的距离的估计误差；步骤1.2：通过预先的一次实验确定先验概率plj并将先验概率plj应用于所有室内定位的活动中；具体为，令多个测量者在一个没有距离参照物的房间里某些观测分量j判断观测分量l，收集该多个测量者的判断结果分布情况即作为plj；步骤1.3：对于不能通过预先的一次实验确定的plj，取克罗内克函数：其中，δlj表示克罗内克函数。3.根据权利要求1所述的基于最大似然比的群智数据有效性验证方法，其特征在于，所述步骤2包括如下步骤：步骤2.1：服务器的数据库中的每个观测分量对应积累数据集Dj，j＝1,2,3,…,N，N表示观测分量的总数，Dj中的各个元素Djk,k＝1,2,3,…T,服从fj(x)分布，T表示每个观测分量的数据总数，fj(x)表示观测分量j所服从的概率密度函数；T＝|Dj|＞＞M，M表示测量者一次上传的数据总数，则其中，Kh表示核密度函数，x表示数据变量；步骤2.2：设即ns(x)表示[x-h,x+h]内数据库中已存在数据个数，h表示核密度函数Kh的带宽；ns(x)可能有T+1个取值，服从分布：1其中，P(·)表示ns(x)的概率质量函数，ns(x)表示表示[x-h,x+h]内数据库中已存在数据个数，ns取0,1,…,T,T+...

【专利技术属性】
技术研发人员：闻于天，张奇，田晓华，杨峰，王新兵，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人