The invention relates to a method of large data sampling based on multi-scene and multi-data source verification. The method processes and filters large data of mobile terminals, constructs spatio-temporal sequence data sets of individual travel from communication records between mobile terminals and fixed sensors held by individuals, and designs discriminant rules according to different scenario types. The number of individuals entering and leaving a specified scene in a specified period of time and their number of entries and exits are distinguished; the total number of individuals entering and exiting a specified scene in a specified time determined by a third-party instrument is obtained, and the total number of times of individuals entering and exiting a specified scene excavated from the communication records between the mobile terminal and the fixed sensor held by the individual is compared with the total number of times of individuals entering and exiting a specified scene. The new communication records between mobile terminals and fixed sensors and monitoring data of third-party instruments are imported and analyzed. The new expansion parameters are partly replaced by the old ones by the method of inter-period attenuation, and the real-time updating of the expansion parameters is realized.
【技术实现步骤摘要】
一种基于多场景多数据源校验的大数据扩样方法
本专利技术涉及一种基于多场景多数据源相互校验获得的不同尺度下匿名加密时间序列定位数据(大数据)的扩样方法。根据匿名加密时间序列定位数据,对其进行处理获取个体出行轨迹,在其中抓取指定时间段内在特定区域的样本,统计其中的个体样本数量与频次;统计由其他数据源获得的该时段内在特定区域内的个体的总数量,从而获得指定时间段内由匿名加密定位数据得到的大数据个体样本的扩样参数;对微观区域内的扩样参数进行加权处理,获得宏观区域内的大数据扩样参数。
技术介绍
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据,尤其是交通大数据分析,提供了很好的数据支持。以手机为例,至2015年,手机用户达到13.06亿,占到总人口的96%以上,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为活动提供了重要的数据来源。然而,由移动终端设备产生的数据样本具有极大的有偏性和局限性,即终端设备信令的形成并非来自所有个体,由于多个运营商的存在,以及大量存在同网多卡/异网多卡/无卡等现象,使得单一运营商提供的信令数据难以反映全体样本,因此在大数据的实际应用中通常需要进行扩样。传统的扩样方法仍较为粗糙,即采用社会统计调查的方法给出静态的外部参数,其调查的成本较高,但得到的参数一般非常宏观,其实现的效果不甚理想,因而扩样方法的缺陷极大地限制了大数据方法的广 ...
【技术保护点】
1.一种基于多场景多数据源校验的大数据扩样方法,其特征在于,包括以下步骤:步骤1、从传感器运营商处获取一定时间范围内的匿名加密移动终端传感器数据,为每个用户构建由个体和固定传感器通信记录构成的初步的个体出行时空轨迹,将固定传感器的地理属性赋予个体出行时空轨迹中的每个通信节点,以此构建个体出行时空数据集;步骤2、指定待分析的时间段PERIOD和待分析的场景FACI,在场景FACI内布置有第三方仪器,依据个体进出场景FACI时是否需要通过第三方仪器与场景FACI内部的固定传感器进行通信,将场景FACI内部的固定传感器分为两组,其中,个体进出场景FACI时不需要通过第三方仪器就可与分组GROUP1内的固定传感器进行通信,个体进出场景FACI时需要通过第三方仪器才能与分组GROUP2内的固定传感器进行通信;步骤3、遍历所有个体出行时空数据集,筛选出在时间段PERIOD内与分组GROUP2内的固定传感器发生过通信行为的个体,在筛选出的每个个体的个体出行时空数据集为与GROUP1内的固定传感器及GROUP2内的固定传感器发生过通信行为的通信节点做标注,标注时利用GROUP1内的固定传感器及GROU ...
【技术特征摘要】
1.一种基于多场景多数据源校验的大数据扩样方法,其特征在于,包括以下步骤:步骤1、从传感器运营商处获取一定时间范围内的匿名加密移动终端传感器数据,为每个用户构建由个体和固定传感器通信记录构成的初步的个体出行时空轨迹,将固定传感器的地理属性赋予个体出行时空轨迹中的每个通信节点,以此构建个体出行时空数据集;步骤2、指定待分析的时间段PERIOD和待分析的场景FACI,在场景FACI内布置有第三方仪器,依据个体进出场景FACI时是否需要通过第三方仪器与场景FACI内部的固定传感器进行通信,将场景FACI内部的固定传感器分为两组,其中,个体进出场景FACI时不需要通过第三方仪器就可与分组GROUP1内的固定传感器进行通信,个体进出场景FACI时需要通过第三方仪器才能与分组GROUP2内的固定传感器进行通信;步骤3、遍历所有个体出行时空数据集,筛选出在时间段PERIOD内与分组GROUP2内的固定传感器发生过通信行为的个体,在筛选出的每个个体的个体出行时空数据集为与GROUP1内的固定传感器及GROUP2内的固定传感器发生过通信行为的通信节点做标注,标注时利用GROUP1内的固定传感器及GROUP2内的固定传感器的编号,随后再次遍历所有个体出行时空数据集,将时间上连续且标注有相同固定传感器的编号的通信节点合并;步骤4、对合并后的通信节点,根据已标注的通信节点前后的通信节点是否有与GROUP1内的固定传感器发生通信行为的记录,判断当前个体出行时空数据集所对应的个体是否出入当前场景FACI;步骤5、根据步骤4得到的结果,统计所有个体在时间段PERIOD内在场景FACI内出现的次数,从而在时间段PERIOD内出现在场景FACI内的总人数就是乘上单个个体出现频次的样本数量总和;步骤6、整理来源于第三方仪器的数据,利用第三方数据统计时间段PERIOD内场景FACI的总客流量;步骤7、将步骤6得到的总客流量与步骤5得到的总人数进行比较,得到时间段PERIOD内在场景FACI的个体出现数据扩样比;步骤8、采用步骤2至步骤7相同的方法,得到相同时间段PERIOD内...
【专利技术属性】
技术研发人员:刘杰,顾高翔,张颖,吴佳玲,郭鹏,宫龙,
申请(专利权)人:上海世脉信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。