时序人流量数据和标量标签数的融合方法及系统技术方案

技术编号:34449439 阅读:16 留言:0更新日期:2022-08-06 16:48
本发明专利技术提供了一种时序人流量数据和标量标签数的融合方法及系统,包括:清洗时序数据和标签数据,获取时序访问数据和离线标签汇总数据;完成时序数据和标签数据的治理;进行时序数据特征工程;将特征工程结果数据拟合正态分布,去除预设标准值以外的数值;补充预设标准值以外的数值的空缺窗口,并构建时序数据分布曲线;将标签数据标量拟合时序数据的分布曲线,得到任意时刻的人群分布。本发明专利技术充分利用不同种类数据所特有优势来进行相互补充,完成时序特征和标量特征,标签数据和非标签数据的融合。本发明专利技术能够获得实时预测标签人群的能力,为大屏展示,业务扩展和楼宇画像等诸多场景提供数据支撑。景提供数据支撑。景提供数据支撑。

【技术实现步骤摘要】
时序人流量数据和标量标签数的融合方法及系统


[0001]本专利技术涉及信息
,具体地,涉及一种时序人流量数据和标量标签数的融合方法及系统。

技术介绍

[0002]近年来随着线上和线下广告业务的不断推进,越来越多的广告主对受众人群的探索需求变得越来越迫切。但是真实的场景往往是数据种类不全,数据维度严重缺失,单一数据种类完全无法满足当下需求。目前还没有一种时序人流量数据和标量标签数的融合方法,结合线下广告和线上应用反馈数据,既能够看到人群的分布或者单一的人群标签统计量。所以一个能够将人群时序数据和标签统计数据进行融合,生成时序人群标签数据的方法变得尤为重要。
[0003]专利文献CN109145708A(申请号:CN201810648702.9)公开了一种基于RGB和D信息融合的人流量统计方法,包括:步骤1,采集包含人头信息的图像样本;步骤2,对RGB样本进行人头区域的标记,将正负样本裁剪,对裁剪后的样本图像大小做正则化处理并为不同样本附上相应的样本标签;步骤3,提取所有RGB样本图像的HOG特征,将提取的HOG特征和其对应的样本标签输入到SVM分类器进行训练;步骤4,利用训练好的SVM分类器对于新输入的视频帧中的RGB图像进行人头区域检测;步骤5,对新输入的视频帧的Depth图像的深度信息进行人头区域检测;步骤6,将检测结果融合获得最终检测目标框;步骤7,对目标对象进行跟踪获得目标对象的运动轨迹,统计人流量信息。但该专利技术不能够充分融合现有数据优势,不能弥补单一种类数据的不足,完成时序特征和标量特征,标签数据和非标签数据的融合,不能实现数据维度的补全。

技术实现思路

[0004]针对现有技术中的缺陷,本专利技术的目的是提供一种时序人流量数据和标量标签数的融合方法及系统。
[0005]根据本专利技术提供的一种时序人流量数据和标量标签数的融合方法,包括:
[0006]步骤S1:清洗时序数据和标签数据,获取时序访问数据和离线标签汇总数据;
[0007]步骤S2:完成时序数据和标签数据的治理;
[0008]步骤S3:进行时序数据特征工程;
[0009]步骤S4:将特征工程结果数据拟合正态分布,去除预设标准值以外的数值;
[0010]步骤S5:补充预设标准值以外的数值的空缺窗口,并构建时序数据分布曲线;
[0011]步骤S6:将标签数据标量拟合时序数据的分布曲线,得到任意时刻的人群分布。
[0012]优选地,在所述步骤S1中:
[0013]清洗时序数据和标签数据,获取预设时间内的时序人员访问数据和以预设时间段为窗口的离线标签汇总数据;
[0014]时序数据有人群的时间分布规律,拥有时间维度,但是不带有标签;标签数据为统
计标量,没有时间属性,时间范围为预设的统计量。
[0015]优选地,在所述步骤S2中:
[0016]构建ETL管道,完成时序数据和标签数据的治理;治理包括数据指标的筛选和融合,时序数据需要空间距离的约束,业务范畴的约束,离线标签数据需要地理围栏做切割,需要标签选择。
[0017]优选地,在所述步骤S3中:
[0018]进行时序数据特征工程,将时序数据划分分钟窗口,并做二项差分计算;
[0019]将现有非随机变量转换成随机变量,通过二项差分让特征符合正态分布曲线。
[0020]优选地,在所述步骤S4中:
[0021]将二项差分计算结果数据拟合正态分布,完成预设的数据置信度取值,去除预设标准值以外的数值;
[0022]利用正态分布曲线的置信区间完成预设标准值以外的数值的筛选,将预设标准值以外的数值剔除,对于空缺的窗口进行左右窗口平滑的补全处理,将标签数据分配到时间分布曲线中完成数据的融合。
[0023]根据本专利技术提供的一种时序人流量数据和标量标签数的融合系统,执行所述的时序人流量数据和标量标签数的融合方法,包括:
[0024]数据ETL管道模块:构建数据治理模块,完成时序数据和标签数据治理;
[0025]特征工程模块:对治理好的数据进行特征工程,将数据输入映射成数据特征;
[0026]异常检测模块:剔除预设标准值以外的数值,并进行数据指标统计;
[0027]时间窗口模块:利用时间窗口将时序数据进行汇总,通过窗口时序数据构建时序分布曲线,并完成标签数据对于时序数据分布的拟合,将标签数据分布到时间轴上;
[0028]时序预测模块:基于已有数据对将来时序数据和标签进行预测;
[0029]优化模块:根据测试集测试结果和第三方的评估反馈修正模型。
[0030]优选地,在所述数据ETL管道模块中:
[0031]数据ETL管道负责数据输入控制,针对时间范围和标签范围进行数据加工,完成预设时间预设标签的过滤;
[0032]通过数据清洗引擎进行筛选,包括对于人群的区域范围、人群所在时间区间、标签种类结合业务规则筛选,并通过预设标准值以外的数值判定和规则引擎去除准确性低于预设值或者监测比率低于预设值的标签。
[0033]优选地,在所述特征工程模块中:
[0034]使用二项差分的方式构建现有时序数据特征,进一步去除时序数据中预设标准值以外的数值;
[0035]在所述异常检测模块中:
[0036]时间窗口汇聚人流量信息,通过分钟时间窗口的汇总,完成人流量的区间量化。
[0037]优选地,在所述时间窗口模块中:
[0038]使用标签数据拟合人群时序分布曲线,将标签人数分布到具有时间轴的空间中;
[0039]在所述时序预测模块中:
[0040]通过时序预测模型辅助支撑无数据和标签数据存在延迟场景。
[0041]优选地,在所述优化模块中:
[0042]通过第三方数据和测试集评估现有预测准确性,并不断优化模型。
[0043]与现有技术相比,本专利技术具有如下的有益效果:
[0044]1、本专利技术能够充分融合现有数据优势,弥补单一种类数据的不足,完成时序特征和标量特征,标签数据和非标签数据的融合,最终实现数据维度的补全;能够充分利用不同种类数据的优势,生成一套通用的融合方案,适用于各种应用场景;
[0045]2、本专利技术设计的时序人流量数据和标量标签数的融合方法,不仅仅能够对现有的离线数据进行融合和补全,同时加入了降噪处理步骤和预测模型,使得融合的数据不仅能够用在离线分析场景,还能够使用在实时数据的展示场景;
[0046]3、本专利技术能够获得实时预测标签人群的能力,数据能够通过数据平台进行数据支撑,能够满足实时数据大屏的展示需求,为大屏展示、业务扩展和楼宇画像等诸多场景提供数据支撑;
[0047]4、本专利技术设计的方法已经得到了充分的实践,已经被应用于一些数据质量场景和数据能力展示场景;
[0048]5、本专利技术能够完美的贴合业务,为业务提供更强的数据支撑能类;
[0049]6、本专利技术通用性强,可以应用于各类标量数据和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时序人流量数据和标量标签数的融合方法,其特征在于,包括:步骤S1:清洗时序数据和标签数据,获取时序访问数据和离线标签汇总数据;步骤S2:完成时序数据和标签数据的治理;步骤S3:进行时序数据特征工程;步骤S4:将特征工程结果数据拟合正态分布,去除预设标准值以外的数值;步骤S5:补充预设标准值以外的数值的空缺窗口,并构建时序数据分布曲线;步骤S6:将标签数据标量拟合时序数据的分布曲线,得到任意时刻的人群分布。2.根据权利要求1所述的时序人流量数据和标量标签数的融合方法,其特征在于,在所述步骤S1中:清洗时序数据和标签数据,获取预设时间内的时序人员访问数据和以预设时间段为窗口的离线标签汇总数据;时序数据有人群的时间分布规律,拥有时间维度,但是不带有标签;标签数据为统计标量,没有时间属性,时间范围为预设的统计量。3.根据权利要求1所述的时序人流量数据和标量标签数的融合方法,其特征在于,在所述步骤S2中:构建ETL管道,完成时序数据和标签数据的治理;治理包括数据指标的筛选和融合,时序数据需要空间距离的约束,业务范畴的约束,离线标签数据需要地理围栏做切割,需要标签选择。4.根据权利要求1所述的时序人流量数据和标量标签数的融合方法,其特征在于,在所述步骤S3中:进行时序数据特征工程,将时序数据划分分钟窗口,并做二项差分计算;将现有非随机变量转换成随机变量,通过二项差分让特征符合正态分布曲线。5.根据权利要求1所述的时序人流量数据和标量标签数的融合方法,其特征在于,在所述步骤S4中:将二项差分计算结果数据拟合正态分布,完成预设的数据置信度取值,去除预设标准值以外的数值;利用正态分布曲线的置信区间完成预设标准值以外的数值的筛选,将预设标准值以外的数值剔除,对于空缺的窗口进行左右窗口平滑的补全处理,将标签数据分配到时间分布曲线中完成数据的融合。6.一种时序人流量数据和标量标签数的融合系统...

【专利技术属性】
技术研发人员:曲洋代光英孙亮宁玉杰王小伟
申请(专利权)人:上海分泽时代软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1