一种基于格网粒子画像确定人群规模的方法及设备技术

技术编号:30804346 阅读:20 留言:0更新日期:2021-11-16 08:11
本申请公开了一种基于格网粒子画像确定人群规模的方法及设备。该方法包括:获取不同等级城市的格网粒子画像数据集;使用聚类算法对格网粒子画像数据集进行聚类以输出簇组;对簇组排序并确定各个簇的人群规模。本申请的技术方案可在人口格网数据生产中降低千倍以上成本,在进行城市洞察规划以及门店智能选址方面可以提供更经济可靠的数据服务。面可以提供更经济可靠的数据服务。面可以提供更经济可靠的数据服务。

【技术实现步骤摘要】
一种基于格网粒子画像确定人群规模的方法及设备


[0001]本专利技术涉及机器学习领域,尤其涉及一种基于格网粒子画像的人群规模预测方法及设备。

技术介绍

[0002]行政区划中的人口数量与社会经济发展息息相关。人口统计数据与政策制定有非常密切的联系,例如城市规划,学校教育,环境保护等,都需要根据人口统计数据作出科学的决策。人口统计数据与商业活动也紧密相关,例如广告投放和门店选择,不同的人口统计数据会决定广告投放的价格,也影响广告主投放广告的意愿,以及商家门店选址的决策。
[0003]GIS系统中,通常采用地理栅格数据进行数据存储管理,其通过将空间分割成网格,每个网格称为格网粒子,利用为每个格网粒子赋予属性值来形成数据,在计算机中可以基于该数据进行数据处理。
[0004]人口数据空间化是GIS系统中非常重要的研究领域,其核心任务是进行人口统计数据离散处理,其研究的方法从早期的静态格网逐渐发展到动态格网。静态格网将人口统计数据投影到单元尺寸格网中,动态网格化利用夜间灯光、道路路网等同人口分布相结合,从而在一定空间尺度的格网中分配人口数据。
[0005]现有技术中,由于格网数量众多,在计算格网中的人口数据时需要巨大的运算量,因此有必要提供一种减少运算量的技术方案。

技术实现思路

[0006]有鉴于此,本申请提出了一种基于格网粒子画像的人群规模预测方法及设备,以提高运算速度。
[0007]根据本申请的一个方面,提出了一种基于格网粒子画像确定人群规模的方法,该方法包括:获取不同等级城市的格网粒子画像数据集;使用聚类算法对格网粒子画像数据集进行聚类以输出簇组;对簇组排序并确定各个簇的人群规模。
[0008]优选地,所述使用聚类算法对格网粒子画像数据集进行聚类以输出簇组包括:切分所述不同等级城市的格网粒子画像数据集,得到格网粒子画像数据测试集和格网粒子画像数据训练集;使用聚类算法对格网粒子画像数据训练集进行聚类,并使用格网粒子画像数据测试集验证聚类算法,直至聚类算法输出的簇组符合预定的条件。
[0009]优选地,所述切分所述不同等级城市的格网粒子画像数据集包括使用留出法切分所述不同等级城市的格网粒子画像数据集。
[0010]优选地,该方法还包括:对获取的不同等级城市的格网粒子画像数据集进行归一化。
[0011]本申请提供了一种基于格网粒子画像确定人群规模的设备,该设备包括:获取单元,用于获取不同等级城市的格网粒子画像数据集;聚类单元,用于使用聚类算法对格网粒子画像数据集进行聚类以输出簇组;确定单元,用于对簇组排序并确定各个簇的人群规模。
[0012]优选地,所述聚类单元,用于切分所述不同等级城市的格网粒子画像数据集,得到格网粒子画像数据测试集和格网粒子画像数据训练集;使用聚类算法对格网粒子画像数据训练集进行聚类,并使用格网粒子画像数据测试集验证聚类算法,直至聚类算法输出的簇组符合预定的条件。
[0013]优选地,所述聚类单元,还用于使用留出法切分所述不同等级城市的格网粒子画像数据集。
[0014]优选地,该设备还包括归一化单元,用于对获取的不同等级城市的格网粒子画像数据集进行归一化。
[0015]本申请提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机时,实现所述的方法。
[0016]本申请提供了一种计算机可读介质,存储计算机指令,所述计算机指令用于实现所述的方法。
[0017]根据本申请的技术方案,可在人口格网数据生产中降低千倍以上成本,在进行城市洞察规划以及门店智能选址方面可以提供更经济可靠的数据服务。
[0018]本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0019]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:图1为本申请提供的基于格网粒子画像确定人群规模的方法流程图;图2示出了本申请提供的优选实施例;图3示出了本申请提供的基于格网粒子画像确定人群规模的设备示意图。
具体实施方式
[0020]需要说明的是,在不冲突的情况下,本申请中的实施方式及各个实施方式中的特征可以相互组合。
[0021]下面将参考附图并结合实施方式来详细说明本申请。
[0022]人口数据对于国民经济的重要性不言而喻,所以我国每十年会进行一次人口普查,通过对人口普查数据的分析,政府可以指定相对合理的政策,发展经济,改善民生。但是,人口普查的间隔期限较长,并且人口普查在统计数据时,统计的粒度大,例如以村或乡镇为单位上报数据,因此这些数据也不能反映出在村或乡镇内部是如何分布。
[0023]为了改善上述数据的缺陷,发展出了通过兴趣点为对象分析特定区域人口分布的方案。针对待分析的区域,例如以整个中国大陆为研究对象,利用希尔伯特曲线可以将整个中国大陆划分为若干格网粒子(简称格网),利用格网区域内部的属性特征,例如小区、学校、商店等,对格网进行画像,得到格网粒子画像数据集。
[0024]本专利技术中,为了加快运算的速度,对我国大陆的城市进行了分级,例如分为一线城市(如北京、上海、广州、深圳)、二线城市(武汉、南京、郑州、杭州)、三线城市(如鞍山、洛阳)等,从而在城市对应的格网粒子画像数据集中能够反映出城市的级别,即格网粒子画像数据中包含城市级别这一属性特征。可以地,分别将不同等级城市格网粒子画像数据切分,得到对各个级别城市对应的格网粒子画像数据集,从而可以无需再格网粒子画像数据中包含城市级别这个属性特征。例如将一线城市、二线城市、三线城市的格网粒子画像数据切分出来,形成对应的格网粒子画像数据集。
[0025]优选地,为了便于加速运算,可以对格网粒子画像数据中的属性特征进行归一化,例如将所有的属性特征归一化到[0,1]这个区间,从而加快运算的速度。
[0026]针对未归一化或者归一化的格网粒子画像数据集,可以对其进行聚类,例如使用留出法将格网粒子画像数据集切分为格网粒子画像数据训练集和格网粒子画像数据测试集,并使用K

means聚类算法对格网粒子画像数据训练集进行聚类,并使用格网粒子画像数据测试集进行验证。在验证的过程中,以K

means聚类算法的准确率和召回率为目标,如果使用格网粒子画像数据测试集进行验证时,K

means聚类算法的准确率和召回率达不到预设值,则需要调整K

means聚类算法的参数,具体的调整过程可以通过数据训练实现。需要说明的是该K

means算法采用余弦相似度计算格网粒子之间的距离,从而能够使得级别相同的城市更容易聚类为簇组,避免不同级别的城市聚类为簇组。可替换地,聚类算法也可以采用Clara或者Clarans算法。
[0027]在通过聚类算法输出簇组之后,可以对簇组进行排序,例如将其特征属性加和之后,根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于格网粒子画像确定人群规模的方法,其特征在于,该方法包括:获取不同等级城市的格网粒子画像数据集;使用聚类算法对格网粒子画像数据集进行聚类以输出簇组;对簇组排序并确定各个簇的人群规模。2.根据权利要求1所述的方法,其特征在于,所述使用聚类算法对格网粒子画像数据集进行聚类以输出簇组包括:切分所述不同等级城市的格网粒子画像数据集,得到格网粒子画像数据测试集和格网粒子画像数据训练集;使用聚类算法对格网粒子画像数据训练集进行聚类,并使用格网粒子画像数据测试集验证聚类算法,直至聚类算法输出的簇组符合预定的条件。3.根据权利要求2所述的方法,其特征在于,所述切分所述不同等级城市的格网粒子画像数据集包括使用留出法切分所述不同等级城市的格网粒子画像数据集。4.根据权利要求1所述的方法,其特征在于,该方法还包括:对获取的不同等级城市的格网粒子画像数据集进行归一化。5.一种基于格网粒子画像确定人群规模的设备,其特征在于,该设备包括:获取单元,用于获取不同等级城市的格网粒子画像数据集;聚类单元,用于使用聚类算法对格网粒子画像数据集进行...

【专利技术属性】
技术研发人员:孙伟朱与墨储鑫淼田鹏飞
申请(专利权)人:亿景智联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1