一种基于多场景多数据源校验的大数据扩样方法技术

技术编号:19320596 阅读:45 留言:0更新日期:2018-11-03 11:00
本发明专利技术涉及一种基于多场景多数据源校验的大数据扩样方法,本发明专利技术对于移动终端大数据进行处理和筛选,由个体所持移动终端和固定传感器之间的通信记录构建出个体出行的时空序列数据集;根据不同的场景类型设计判别规则判别在指定时间段内进出指定场景的个体及其出入次数;获得由第三方仪器测定的指定时间内在指定场景的总人数,将由从个体所持移动终端和固定传感器之间的通信记录挖掘出的个体出入指定场景频次数总和与其对比;不断将新的产生的个体所持移动终端和固定传感器之间的通信记录与第三方仪器监测数据导入分析,采用跨期衰减的方法使用新的扩样参数部分替代旧的扩样参数,实现扩样参数的实时更新。

A method of enlarging large data based on multi scene and multiple data source verification

The invention relates to a method of large data sampling based on multi-scene and multi-data source verification. The method processes and filters large data of mobile terminals, constructs spatio-temporal sequence data sets of individual travel from communication records between mobile terminals and fixed sensors held by individuals, and designs discriminant rules according to different scenario types. The number of individuals entering and leaving a specified scene in a specified period of time and their number of entries and exits are distinguished; the total number of individuals entering and exiting a specified scene in a specified time determined by a third-party instrument is obtained, and the total number of times of individuals entering and exiting a specified scene excavated from the communication records between the mobile terminal and the fixed sensor held by the individual is compared with the total number of times of individuals entering and exiting a specified scene. The new communication records between mobile terminals and fixed sensors and monitoring data of third-party instruments are imported and analyzed. The new expansion parameters are partly replaced by the old ones by the method of inter-period attenuation, and the real-time updating of the expansion parameters is realized.

【技术实现步骤摘要】
一种基于多场景多数据源校验的大数据扩样方法
本专利技术涉及一种基于多场景多数据源相互校验获得的不同尺度下匿名加密时间序列定位数据(大数据)的扩样方法。根据匿名加密时间序列定位数据,对其进行处理获取个体出行轨迹,在其中抓取指定时间段内在特定区域的样本,统计其中的个体样本数量与频次;统计由其他数据源获得的该时段内在特定区域内的个体的总数量,从而获得指定时间段内由匿名加密定位数据得到的大数据个体样本的扩样参数;对微观区域内的扩样参数进行加权处理,获得宏观区域内的大数据扩样参数。
技术介绍
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,由手机、WIFI、物联网等信息传感器记录的数据已经成为大数据分析中最重要的数据来源,其较为完备的个体出行记录为大数据,尤其是交通大数据分析,提供了很好的数据支持。以手机为例,至2015年,手机用户达到13.06亿,占到总人口的96%以上,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为分析城市人群出行、滞留等行为活动提供了重要的数据来源。然而,由移动终端设备产生的数据样本具有极大的有偏性和局限性,即终端设备信令的形成并非来自所有个体,由于多个运营商的存在,以及大量存在同网多卡/异网多卡/无卡等现象,使得单一运营商提供的信令数据难以反映全体样本,因此在大数据的实际应用中通常需要进行扩样。传统的扩样方法仍较为粗糙,即采用社会统计调查的方法给出静态的外部参数,其调查的成本较高,但得到的参数一般非常宏观,其实现的效果不甚理想,因而扩样方法的缺陷极大地限制了大数据方法的广泛应用。而在现实大数据的产生过程中,某些固定场景存在多种大数据设备同时收集数据的情况(如车站闸机、体育馆检票口、机场安检口等),这就使得大数据扩样参数可以通过多源数据校验来实现。
技术实现思路
本专利技术的目的是:采用多数据源交叉验证,以大数据的形式对大数据样本进行动态实时扩样,获得在不同时间空间尺度下的大数据扩样参数。为了达到上述目的,本专利技术的技术方案是提供了一种基于多场景多数据源校验的大数据扩样方法,其特征在于,包括以下步骤:步骤1、从传感器运营商处获取一定时间范围内的匿名加密移动终端传感器数据,为每个用户构建由个体和固定传感器通信记录构成的初步的个体出行时空轨迹,将固定传感器的地理属性赋予个体出行时空轨迹中的每个通信节点,以此构建个体出行时空数据集;步骤2、指定待分析的时间段PERIOD和待分析的场景FACI,在场景FACI内布置有第三方仪器,依据个体进出场景FACI时是否需要通过第三方仪器与场景FACI内部的固定传感器进行通信,将场景FACI内部的固定传感器分为两组,其中,个体进出场景FACI时不需要通过第三方仪器就可与分组GROUP1内的固定传感器进行通信,个体进出场景FACI时需要通过第三方仪器才能与分组GROUP2内的固定传感器进行通信;步骤3、遍历所有个体出行时空数据集,筛选出在时间段PERIOD内与分组GROUP2内的固定传感器发生过通信行为的个体,在筛选出的每个个体的个体出行时空数据集为与GROUP1内的固定传感器及GROUP2内的固定传感器发生过通信行为的通信节点做标注,标注时利用GROUP1内的固定传感器及GROUP2内的固定传感器的编号,随后再次遍历所有个体出行时空数据集,将时间上连续且标注有相同固定传感器的编号的通信节点合并;步骤4、对合并后的通信节点,根据已标注的通信节点前后的通信节点是否有与GROUP1内的固定传感器发生通信行为的记录,判断当前个体出行时空数据集所对应的个体是否出入当前场景FACI;步骤5、根据步骤4得到的结果,统计所有个体在时间段PERIOD内在场景FACI内出现的次数,从而在时间段PERIOD内出现在场景FACI内的总人数就是乘上单个个体出现频次的样本数量总和;步骤6、整理来源于第三方仪器的数据,利用第三方数据统计时间段PERIOD内场景FACI的总客流量;步骤7、将步骤6得到的总客流量与步骤5得到的总人数进行比较,得到时间段PERIOD内在场景FACI的个体出现数据扩样比;步骤8、采用步骤2至步骤7相同的方法,得到相同时间段PERIOD内不同场景的个体出现数据扩样比,采用总客流量加权的方法获得包含所有场景的目标区域的个体出行样本数据扩样参数;步骤9、实时更新各个对应时间段个体出行样本数据集和通过第三方仪器获得的第三方统计数据,利用步骤2至步骤7的方法对各级别的个体出现数据扩样比进行更新,同时挖掘个体出现数据扩样比随时间的变化趋势。优选地,所述步骤1中,将个体出行时空轨迹的所有通信节点按时间顺序排序,将通信节点与地图进行叠置分析,从而将真实地理信息赋予该通信节点。优选地,所述步骤6中,获得第三方数据的方法包括以下步骤:步骤6.1、截取时间段PERIOD内通过第三方仪器所获得的数据;步骤6.2、利用步骤6.1的数据统计在时间段PERIOD内在场景FACI出现过的人的数量作为第三方数据,包括进入指定场景和离开指定场景的人的数量。优选地,所述步骤7中,个体出现数据扩样比为步骤6得到的总客流量与步骤5得到的总人数的比值。优选地,所述步骤8中,设所述个体出行样本数据扩样参数为EXT_RGN,则有:式(1)中,EXT_SS(i)为第i个场景的个体出现数据扩样比,Popu_TP(i)为通过第三方仪器得到的第i个场景在时间段PERIOD内的总客流量。优选地,所述步骤9中,对各级别的个体出行样本数据扩样参数进行更新的方法包括以下步骤:步骤9.1、每间隔时间段PERIOD,利用步骤2至步骤8的方法得到当前采样时刻t的个体出现数据扩样比EXT_SS(i,t),并利用上一采样时刻t-1的个体出现数据扩样比EXT_SS(i,t-1)采用时序跨期衰减规则,以固定的衰减率不断使用新的个体出现数据扩样比迭代更新旧的个体出现数据扩样比:式(2)中,为跨期衰减参数。本专利技术对于移动终端大数据进行处理和筛选,由个体所持移动终端和固定传感器之间的通信记录构建出个体出行的时空序列数据集,将传感器所在的基本地理信息赋予通信节点;通过筛选提取在指定时间段内在指定场景的个体集合,根据不同的场景类型设计判别规则判别在指定时间段内进出指定场景的个体及其出入次数;整理由分布在指定场景的第三方仪器测定的在指定时间段内的进出场景人数,按照先验的扩样比对其人数统计进行扩样,获得由第三方仪器测定的指定时间内在指定场景的总人数,将由从个体所持移动终端和固定传感器之间的通信记录挖掘出的个体出入指定场景频次数总和与其对比,即是运营商大数据对总人数的扩样比;在此基础上采用总人数加权的方法获得大尺度区域范围内的运营商大数据扩样比;不断将新的产生的个体所持移动终端和固定传感器之间的通信记录与第三方仪器监测数据导入分析,采用跨期衰减的方法使用新的扩样参数部分替代旧的扩样参数,实现扩样参数的实时更新。本专利技术的优点是:充分依托特定场景内存在的多种可以监测和记录客流量的数据源,即能低成本、便捷地获取指定时间段内在指定场景大致的进出客流量,将其与现有的用户持有的移动终端样本与传感器之间的通信大数据资源进行交叉对比和验证,获取运营商大数据对总客流量的扩样比,从而便捷、高效地进行不同空本文档来自技高网
...

【技术保护点】
1.一种基于多场景多数据源校验的大数据扩样方法,其特征在于,包括以下步骤:步骤1、从传感器运营商处获取一定时间范围内的匿名加密移动终端传感器数据,为每个用户构建由个体和固定传感器通信记录构成的初步的个体出行时空轨迹,将固定传感器的地理属性赋予个体出行时空轨迹中的每个通信节点,以此构建个体出行时空数据集;步骤2、指定待分析的时间段PERIOD和待分析的场景FACI,在场景FACI内布置有第三方仪器,依据个体进出场景FACI时是否需要通过第三方仪器与场景FACI内部的固定传感器进行通信,将场景FACI内部的固定传感器分为两组,其中,个体进出场景FACI时不需要通过第三方仪器就可与分组GROUP1内的固定传感器进行通信,个体进出场景FACI时需要通过第三方仪器才能与分组GROUP2内的固定传感器进行通信;步骤3、遍历所有个体出行时空数据集,筛选出在时间段PERIOD内与分组GROUP2内的固定传感器发生过通信行为的个体,在筛选出的每个个体的个体出行时空数据集为与GROUP1内的固定传感器及GROUP2内的固定传感器发生过通信行为的通信节点做标注,标注时利用GROUP1内的固定传感器及GROUP2内的固定传感器的编号,随后再次遍历所有个体出行时空数据集,将时间上连续且标注有相同固定传感器的编号的通信节点合并;步骤4、对合并后的通信节点,根据已标注的通信节点前后的通信节点是否有与GROUP1内的固定传感器发生通信行为的记录,判断当前个体出行时空数据集所对应的个体是否出入当前场景FACI;步骤5、根据步骤4得到的结果,统计所有个体在时间段PERIOD内在场景FACI内出现的次数,从而在时间段PERIOD内出现在场景FACI内的总人数就是乘上单个个体出现频次的样本数量总和;步骤6、整理来源于第三方仪器的数据,利用第三方数据统计时间段PERIOD内场景FACI的总客流量;步骤7、将步骤6得到的总客流量与步骤5得到的总人数进行比较,得到时间段PERIOD内在场景FACI的个体出现数据扩样比;步骤8、采用步骤2至步骤7相同的方法,得到相同时间段PERIOD内不同场景的个体出现数据扩样比,采用总客流量加权的方法获得包含所有场景的目标区域的个体出行样本数据扩样参数;步骤9、实时更新各个对应时间段个体出行样本数据集和通过第三方仪器获得的第三方统计数据,利用步骤2至步骤7的方法对各级别的个体出现数据扩样比进行更新,同时挖掘个体出现数据扩样比随时间的变化趋势。...

【技术特征摘要】
1.一种基于多场景多数据源校验的大数据扩样方法,其特征在于,包括以下步骤:步骤1、从传感器运营商处获取一定时间范围内的匿名加密移动终端传感器数据,为每个用户构建由个体和固定传感器通信记录构成的初步的个体出行时空轨迹,将固定传感器的地理属性赋予个体出行时空轨迹中的每个通信节点,以此构建个体出行时空数据集;步骤2、指定待分析的时间段PERIOD和待分析的场景FACI,在场景FACI内布置有第三方仪器,依据个体进出场景FACI时是否需要通过第三方仪器与场景FACI内部的固定传感器进行通信,将场景FACI内部的固定传感器分为两组,其中,个体进出场景FACI时不需要通过第三方仪器就可与分组GROUP1内的固定传感器进行通信,个体进出场景FACI时需要通过第三方仪器才能与分组GROUP2内的固定传感器进行通信;步骤3、遍历所有个体出行时空数据集,筛选出在时间段PERIOD内与分组GROUP2内的固定传感器发生过通信行为的个体,在筛选出的每个个体的个体出行时空数据集为与GROUP1内的固定传感器及GROUP2内的固定传感器发生过通信行为的通信节点做标注,标注时利用GROUP1内的固定传感器及GROUP2内的固定传感器的编号,随后再次遍历所有个体出行时空数据集,将时间上连续且标注有相同固定传感器的编号的通信节点合并;步骤4、对合并后的通信节点,根据已标注的通信节点前后的通信节点是否有与GROUP1内的固定传感器发生通信行为的记录,判断当前个体出行时空数据集所对应的个体是否出入当前场景FACI;步骤5、根据步骤4得到的结果,统计所有个体在时间段PERIOD内在场景FACI内出现的次数,从而在时间段PERIOD内出现在场景FACI内的总人数就是乘上单个个体出现频次的样本数量总和;步骤6、整理来源于第三方仪器的数据,利用第三方数据统计时间段PERIOD内场景FACI的总客流量;步骤7、将步骤6得到的总客流量与步骤5得到的总人数进行比较,得到时间段PERIOD内在场景FACI的个体出现数据扩样比;步骤8、采用步骤2至步骤7相同的方法,得到相同时间段PERIOD内...

【专利技术属性】
技术研发人员:刘杰顾高翔张颖吴佳玲郭鹏宫龙
申请(专利权)人:上海世脉信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1