当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于极限学习机的最优化连锁店选址方法技术

技术编号:16188631 阅读:362 留言:0更新日期:2017-09-12 11:37
本发明专利技术公开了一种基于极限学习机的最优化连锁店选址方法,包括:首先根据城市路网划分区域,然后利用每个区域内的社交媒体和传感器数据构造特征,并利用极限自动编码机进行特征融合。最后根据城市之间数据分布的差异因素,灵活采用栈极限学习机和自适应领域极限学习机,训练最优化连锁店选址方法。本发明专利技术利用极限自动编码机对不同视图数据进行融合,可有效扩展其他来源的数据,同时本发明专利技术基于自适应领域极限学习机技术,对拥有较小样本的小城市也能取得较好的效果。

An optimal chain store location method based on extreme learning machine

The invention discloses a locating method, extreme learning machine based on chain optimization includes: firstly, according to the division of the regional city road network, and the use of social media within each region and sensor data structure, encoding and automatic machine feature fusion based on limit. Finally, according to the difference of data distribution between cities, flexible stack limit learning machine and adaptive domain extreme learning machine are adopted to train the location method of chain store. The invention uses limit automatic machine encoding the fusion of different view data can be effectively extended to other sources of data, at the same time, the invention of adaptive field extreme learning machine based on the technology of a small city with a small sample can also achieve better results.

【技术实现步骤摘要】
一种基于极限学习机的最优化连锁店选址方法
本专利技术属于数据挖掘与城市计算领域,具体涉及一种基于极限学习机的最优化连锁店选址方法。
技术介绍
商铺最优化选址能带来很强的经济效益。最优化的选址比随机选址通常能吸引更多的顾客。例如一个新的咖啡店可以开在道路的交叉口附近,通常交叉口拥有便利的交通和较好的客流,然而交通拥堵等因素也可能会给这个选址带来负面影响。随着城市计算的不断发展,利用城市中的海量数据进行商铺商铺的最优化选址成为了可能。传统的最优化选址通常利用一个区域本身特点例如人流量、购买力、交通等来构建模型。然而人不一定会一直停留在某些特定的区域。例如在大城市,早上有部分人会从很远的市郊到市中心上班,人处在一定的流动中。一个区域本身拥有的功能(例如是不是商圈)也会对选址的优劣产生影响。此外,区域内的同种类型的商铺所带来的竞争因素也需要值得考虑。一个最优的选址应当是一个能够吸引最多用户的区域。考虑到综上所述的因素,通常在大城市采集相应的数据是能够建立出最优的选址模型的。然而,城市中的某些区域或对于某些小城市,部分数据例如社交媒体等是相当稀疏的,单独利用这些区域或城市本身的数据建立的模型不能够取得很好的效果。此外,传统的学习模型的方式需要优化海量的参数,训练效率低下。近年来,极限学习机作为一种在海量数据学习中取得较高学习效果的学习框架,在很多领域取得了突出成果。栈极限学习机能够很好的应对高维特征和海量的数据样本的学习任务,自适应领域极限学习机能够利用不同分布的数据而取得较好的学习效果。因此,极限学习机对于利用海量城市数据进行连锁店最优化选址问题是很可行的。专利技术内容有鉴于此,本专利技术提供了一种基于极限学习机的最优化连锁店选址方法。相比其他方法,本专利技术实现了对数据量稀疏和丰富的城市的最优化选址分析,具有较高的学习效率,而且成本较为低廉。一种基于极限学习机的最优化连锁店选址方法,包括下列步骤:(1)以每个城市的道路路网为边界,将城市划分成若干个相邻的区域;(2)采集每个区域内的社交媒体数据和物理传感器数据组成数据样本,并利用数据样本构造每个区域内与选址相关的社交媒体特征和物理传感器特征组成特征数据;(3)将社交媒体数据和物理传感器数据视作不同视图的数据,并利用自编码算法对每个区域内同一时间段内的社交媒体特征和物理传感器特征进行融合,得到融合特征;(4)选择需要最优化商铺选址的城市作为目标城市,选取相对于目标城市样本数据和特征数据更多的城市构造来源城市,若目标城市与来源城市的特征相对熵小于阈值,则将来源城市中的每个区域的融合特征作为栈极限学习机的输入,训练栈极限学习机,得到选址模型;否则,将目标城市和来源城市中的每个区域的融合特征作为自适应领域极限学习机的输入,训练自适应领域极限学习机,得到选址模型;(5)利用选址模型对目标城市中的每个区域进行测试,得到最优的选址区域。步骤(2)中,所述的社交媒体数据指的是从微博、大众点评以及其他社交媒体获得的社交媒体文本,该些数据能够清楚地反映人们对区域的情感,可以作为比较有效的选址数据。所述的物理传感器数据指的是从交通、公交车、房地产价格、兴趣点以及商圈获得数据。步骤(2)中,以分析社交媒体文本获得的词向量、词频率以及用户对区域内商铺的环境、服务的评分作为社交媒体特征。步骤(2)中,以计算得到的区域内每天不同时间段(6点~10点、11点~15点、16点~20点)交通状况均值作为交通特征;以计算得到的区域内公交车班数和车流量作为公交特征;以计算得到的区域内房价均值作为房价特征;以计算得到的区域内要开的商铺的同类商铺和总商铺比值作为竞争特征;交通特征、公交特征、房价特征以及竞争特征组成物理传感器特征。步骤(3)中,将社交媒体特征和物理传感器特征作为不同的视图,采用极限自编码机融合社交媒体特征和物理传感器特征,具体过程为:首先,随机初始化极限自编码机的第一层权重和偏执;然后,通过优化输出和输入之间的平方差函数求得后续隐藏层的权重和偏执;最后,利用第一层的随机权重、偏执与优化求得的权重、偏执将社交媒体特征和物理传感器特征做非线性变换,输出融合特征。步骤(4)中,目标城市和来源城市的特征相对熵较小,表示样本数据分布差异较小,一般可能是城市之间空间上很近,此时,将来源城市中的每个区域的融合特征作为栈极限学习机的输入,反之,将目标城市和来源城市的数据作为不同领域的数据,此时,将目标城市和来源城市中的每个区域的融合特征作为自适应领域极限学习机的输入。步骤(4)中,相对熵又称KL散度,衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布Q(x)编码时,平均每个基本事件x编码长度增加了多少比特。用D(P||Q)表示KL距离,计算公式如下:当两个概率分布完全相同时,即P(x)=Q(x),其相对熵为0,X为基本事件集,本专利技术中,相对熵阈值的取值范围为0~0.2。步骤(4)中,对于栈极限学习机,采取多隐藏层的方式利用多次非线性变换得到输出值,通常第一层的权重和偏执为随机的。对于自适应领域极限学习机,采取单隐藏层的方式利用1次非线性变换得到输出值;栈极限学习机与自适应领域极限学习机的损失函数都是每一层输出与输入之间的平方差函数。步骤(5)中,利用选址模型对目标城市中的每个区域进行测试,得到最优的寻址区域的具体过程为:首先,利用选址模型计算得到目标城市的未来吸引客流量概率值;然后,对目标城市中所有区域的客流量概率值进行降次排序,选择客流量概率值排在前n的区域作为最优的选址区域,n表示自然数。传统的对商铺最优化选址分析,面对较小的样本或者较少的特征数据具有重大缺陷;而本专利技术基于极限学习机,可以利用自适应领域极限学习机进行建模。具体的优势体现如下:(1)面对海量城市数据,本方法学习效率较高,学习速度比常规机器学习算法快。(2)本方法适用于不仅仅拥有丰富样本数据的城市,对于样本稀疏的城市也可以利用领域自适应和大城市的数据来取得较好的效果。附图说明图1为本专利技术基于极限学习机的最优化连锁店选址方法流程示意图;图2为本专利技术不同数据视图极限自编码机进行特征融合示意图。具体实施方式为了更为具体地描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。如图1所示,基于极限学习机的最优化连锁店选址方法,包括:S01,以每个城市的道路路网为边界,将城市划分成若干个相邻的区域。S02,采集每个区域内的社交媒体数据和物理传感器数据组成数据样本,并利用数据样本构造每个区域内与选址相关的社交媒体特征和物理传感器特征组成特征数据。社交媒体数据是从微博、大众点评获得的社交媒体文本,以分析社交媒体文本获得的词向量、词频率以及用户对区域内商铺的环境、服务的评分作为社交媒体特征。物理传感器数据是从交通、公交车、房地产价格、兴趣点以及商圈获得数据,以计算得到的区域内每天不同时间段(6点-10点,11点-15点,16点-20点)交通状况均值作为交通特征;以计算得到的区域内公交车班数和车流量作为公交特征;以计算得到的区域内房价均值作为房价特征;以计算得到的区域内要开的商铺的同类商铺和总商铺比值作为竞争特征;交通特征、公交特征、房价特征以及竞争特征组成物理传感器本文档来自技高网...
一种基于极限学习机的最优化连锁店选址方法

【技术保护点】
一种基于极限学习机的最优化连锁店选址方法,包括下列步骤:(1)以每个城市的道路路网为边界,将城市划分成若干个相邻的区域;(2)采集每个区域内的社交媒体数据和物理传感器数据组成数据样本,并利用数据样本构造每个区域内与选址相关的社交媒体特征和物理传感器特征组成特征数据;(3)将社交媒体数据和物理传感器数据视作不同视图的数据,并利用自编码算法对每个区域内同一时间段内的社交媒体特征和物理传感器特征进行融合,得到融合特征;(4)选择需要最优化商铺选址的城市作为目标城市,选取相对于目标城市样本数据和特征数据更多的城市构造来源城市,若目标城市与来源城市的特征相对熵小于阈值,则将来源城市中的每个区域的融合特征作为栈极限学习机的输入,训练栈极限学习机,得到选址模型;否则,将目标城市和来源城市中的每个区域的融合特征作为自适应领域极限学习机的输入,训练自适应领域极限学习机,得到选址模型。(5)利用选址模型对目标城市中的每个区域进行测试,得到最优的寻址区域。

【技术特征摘要】
1.一种基于极限学习机的最优化连锁店选址方法,包括下列步骤:(1)以每个城市的道路路网为边界,将城市划分成若干个相邻的区域;(2)采集每个区域内的社交媒体数据和物理传感器数据组成数据样本,并利用数据样本构造每个区域内与选址相关的社交媒体特征和物理传感器特征组成特征数据;(3)将社交媒体数据和物理传感器数据视作不同视图的数据,并利用自编码算法对每个区域内同一时间段内的社交媒体特征和物理传感器特征进行融合,得到融合特征;(4)选择需要最优化商铺选址的城市作为目标城市,选取相对于目标城市样本数据和特征数据更多的城市构造来源城市,若目标城市与来源城市的特征相对熵小于阈值,则将来源城市中的每个区域的融合特征作为栈极限学习机的输入,训练栈极限学习机,得到选址模型;否则,将目标城市和来源城市中的每个区域的融合特征作为自适应领域极限学习机的输入,训练自适应领域极限学习机,得到选址模型。(5)利用选址模型对目标城市中的每个区域进行测试,得到最优的寻址区域。2.如权利要求1所述的基于极限学习机的最优化连锁店选址方法,其特征在于,所述的社交媒体数据指的是从微博、大众点评获得的社交媒体文本。3.如权利要求1所述的基于极限学习机的最优化连锁店选址方法,其特征在于,所述的物理传感器数据指的是从交通、公交车、房地产价格、兴趣点以及商圈获得的数据。4.如权利要求2所述的基于极限学习机的最优化连锁店选址方法,其特征在于,以分析社交媒体文本获得的词向量、词频率以及用户对区域内商铺的环境、服务的评分作为社交媒体特征。5.如权利要求3所述的基于极限学习机的最优化连锁店选址方法,其特征在于...

【专利技术属性】
技术研发人员:陈华钧张宁豫陈曦吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1