一种基于geohash地址编码的客群洞察方法技术

技术编号:28942197 阅读:11 留言:0更新日期:2021-06-18 21:48
本发明专利技术公开了一种基于geohash地址编码的客群洞察方法,涉及用户画像领域,所述方法包括以下步骤:步骤1、数据获取与预处理;步骤2、针对选定的商圈区域,将多边形的商圈区域转化为geohash列表;步骤3、查询指定时间内到访过用户,然后对用户进行去重处理;步骤4、查询用户的客源地geohash以及用户画像;步骤5、根据密度对客群进行聚类,得到主要所述客源地以及对应的所述用户画像。本方法计算的时间复杂度较低,可扩展性强。

【技术实现步骤摘要】
一种基于geohash地址编码的客群洞察方法
本专利技术涉及用户画像
,尤其涉及一种基于geohash地址编码的客群洞察方法。
技术介绍
在中国居民消费水平提高、交通出行方式多样化和旅游业不断繁荣发展的影响下,中国城市商圈快速发展。尤其是一线城市商圈分布密集,核心商圈数量较多,商圈覆盖范围内商铺繁密,交通便利。目前中国城市商圈经历了传统百货时期和购物中心时期,现已进入大型商业综合体时期,形成多中心,多层级、网络化的商圈分布格局。但现阶段中国城市商圈仍存在商业业态同质化现象严重、商圈吸引力低和商圈客群粘性低等问题,未来,进行转型升级、聚焦消费者差异化、个性化、时尚化的消费需求、建设“智慧商圈”等是城市商圈发展的重要方向。客群洞察可通过对特定区域内的人群进行多维度分析,生成全方位的客群画像和深刻专业的分析报告,为场景化、精细化营销及运营提供科学严谨的数据依据,为客户的商业策决、管理决策、经营规划提供最有力的数据支撑,实现商场活动信息对周边居住消费人群实时分发和精准触达的商圈运营新模式。传统的方法需要计算用户的报点(Point)和商圈区域多边形(Polygon)的位置关系,再对到达过商圈的用户进行分析,涉及到居住地、工作地的信息时,还需要计算用户的报点(Point)和住宅区域多边形(Polygon)的位置关系。其中,计算多边形和点的位置关系是非常复杂的,需要耗费大量的时间。且在实际的场景中,报点的数据量和多边形的数据量都非常多,逐个进行计算的时间复杂性是无法接受的。在实际的场景中,即使使用分布式计算方法,上述的复杂度仍然是无法容忍的。涉及到居住地、工作地的信息时,住宅区域、工作区域的多边形信息是比较难统计和获取的,想要将客群分析拓展到其他城市、区域时,就需要对相应城市、区域的住宅区、工作区信息进行采集,十分不便。因此,本领域的技术人员针对传统方法存在的问题,使用了基于geohash的方式来快速计算商圈多边形区域中报点的个数,并且不再关注居住地、工作地的现实多边形形状,而采用geohash来代表用户的工作地、居住地,再对最终的结果进行聚合。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是如何以较低的时间复杂度计算商圈多边形区域中报点的个数。为实现上述目的,本专利技术提供了一种基于geohash地址编码的客群洞察方法,所述方法包括以下步骤:步骤1、数据获取与预处理;步骤2、针对选定的商圈区域,将多边形的商圈区域转化为geohash列表;步骤3、查询指定时间内到访过用户,然后对用户进行去重处理;步骤4、查询用户的客源地geohash以及画像特征;步骤5、根据密度对客群进行聚类,得到所述客源地以及对应的所述画像特征。进一步地,所述步骤1的所述预处理分为两个部分:用户居住、工作地信息预处理和用户到访信息预处理。进一步地,所述用户居住、工作地信息预处理包括以下步骤:步骤a、获取所有用户报点数据;步骤b、对于用户id相同的同一个用户,根据所述报点数据所停留的地点、时间段、时长判断其工作地geohash、居住地geohash;步骤c、对所述用户id进行混淆加密,存储用户混淆id、居住地、工作地、画像信息。进一步地,在实际的场景中,所述geohash需要根据期望的多边形的情况来确定;当从城市的级别进行考察时,如果期望得到较大的多边形结果,所述geohash划分的精度采用6位(1.2km*609.4m)或7位(152.9m*152.4m);当从某个商圈的级别进行考察时,如果期望得到周边区域的详细结果,所述geohash划分的精度采用8位(38.2m*19m)或9位(4.8m*4.8m);所述用户id可以是手机号、身份证号、软件用户编号等任意可唯一标识用户的字段,原始的所述用户id数据经过不可逆的加密之后再进行存储。进一步地,所述用户到访信息预处理包括以下步骤:步骤d、获取一天内所有的用户的所述报点数据;步骤e、根据所述geohash进行划分,对同一所述geohash内相同所述用户id的所述报点数据进行去重;步骤f、对所述用户id进行混淆加密,按所述geohash存储到访用户的所述混淆id。进一步地,所述步骤2还包括以下步骤:步骤2.1、获取商圈的所述geojson;步骤2.2、将所述geojson转换成所述geohash列表。进一步地,所述步骤2.2的计算方法有两种,一是只有当某个所述geohash完全在多边形区域内时才统计对应所述geohash的值,二是当所述geohash只要有部分被多边形区域覆盖,就统计对应的的所述geohash网格。进一步地,所述步骤4具体为,根据所述步骤3去重获得的所述用户id,以及经过所述用户到访信息预处理过的用户信息,获取所述用户id对应的所述工作地geohash、所述居住地geohash和所述画像特征。进一步地,所述步骤5包括以下步骤:步骤5.1、根据选取所述geohash的精度,将用户的所述居住地、所述工作地加上对应的随机误差,从所述geohash还原成所述报点数据;步骤5.2、通过改变每次聚类最小人数,循环计算optics聚类,再根据不同可达距离,计算最终聚类结果;步骤5.3、当得到的聚类数落在想要的聚类数目区间内时,停止计算,返回所述聚类结果;步骤5.4、根据所述聚类结果中每个所述客源地聚类中的用户id,计算相应的客群的所述画像特征。进一步地,所述随机误差,是用最大误差乘以(-1,1)之间的一个随机数作为随机误差,在geohash中心点位置的经纬度分别加上所述随机误差,就完成了所述报点数据的还原;所述最小人数和所述可达距离为预先设定的算法参数。与现有技术相比,本专利技术具有如下的有益效果:1、利用基于geohash网格对报点数据进行预处理的方式来加速计算商圈多边形区域中报点的个数,避免每次计算所有报点和商圈多边形的关系,节约计算时间。2、采用geohash来代表用户的工作地、居住地而非居住地、工作地的现实多边形形状,仅对最终的结果进行聚合,不需要现实的地域属性信息即可实现应用的扩展、迁移。以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。附图说明图1是本专利技术的一个较佳实施例的技术方案整体流程图;图2是本专利技术的一个较佳实施例的数据预处理流程图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进本文档来自技高网
...

【技术保护点】
1.一种基于geohash地址编码的客群洞察方法,其特征在于,所述方法包括以下步骤:/n步骤1、数据获取与预处理;/n步骤2、针对选定的商圈区域,将多边形的商圈区域转化为geohash列表;/n步骤3、查询指定时间内到访过用户,然后对用户进行去重处理;/n步骤4、查询用户的客源地geohash以及画像特征;/n步骤5、根据密度对客群进行聚类,得到所述客源地以及对应的所述画像特征。/n

【技术特征摘要】
1.一种基于geohash地址编码的客群洞察方法,其特征在于,所述方法包括以下步骤:
步骤1、数据获取与预处理;
步骤2、针对选定的商圈区域,将多边形的商圈区域转化为geohash列表;
步骤3、查询指定时间内到访过用户,然后对用户进行去重处理;
步骤4、查询用户的客源地geohash以及画像特征;
步骤5、根据密度对客群进行聚类,得到所述客源地以及对应的所述画像特征。


2.如权利要求1所述的基于geohash地址编码的客群洞察方法,其特征在于,所述步骤1的所述预处理分为两个部分:用户居住、工作地信息预处理和用户到访信息预处理。


3.如权利要求2所述的基于geohash地址编码的客群洞察方法,其特征在于,所述用户居住、工作地信息预处理包括以下步骤:
步骤a、获取所有用户报点数据;
步骤b、对于用户id相同的同一个用户,根据所述报点数据所停留的地点、时间段、时长判断其工作地geohash、居住地geohash;
步骤c、对所述用户id进行混淆加密,存储用户混淆id、居住地、工作地、画像信息。


4.如权利要求3所述的基于geohash地址编码的客群洞察方法,其特征在于,在实际的场景中,所述geohash需要根据期望的多边形的情况来确定;当从城市的级别进行考察时,如果期望得到较大的多边形结果,所述geohash划分的精度采用6位(1.2km*609.4m)或7位(152.9m*152.4m);当从某个商圈的级别进行考察时,如果期望得到周边区域的详细结果,所述geohash划分的精度采用8位(38.2m*19m)或9位(4.8m*4.8m);所述用户id可以是手机号、身份证号、软件用户编号等任意可唯一标识用户的字段,原始的所述用户id数据经过不可逆的加密之后再进行存储。


5.如权利要求4所述的基于geohash地址编码的客群洞察方法,其特征在于,所述用户到访信息预处理包括以下步骤:
步骤d、获取一天内所有的用户的所述报点数据;
步骤e、根据所述geohash进行划分,对同一所述geo...

【专利技术属性】
技术研发人员:卢凌昊姚天昉
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1