多源数据的选址模型及其应用研究制造技术

技术编号:14895869 阅读:74 留言:0更新日期:2017-03-29 11:03
多源数据的选址模型及其应用研究主要基于三个数据集:公交IC乘客刷卡数据集、电信用户通话数据集、信息点数据集。结合多源数据集,提出了一种基于多源数据集的选址模型建立方法,从多源数据集提取出一些可能对选址产生影响的特征指标,引入支持向量机技术对这些特征指标进行学习得出选址模型,最终确定候选位置是否适合选址。设计并实现了基于支持向量机的选址建模系统,并通过实际案例验证了该方法的可行:本发明专利技术详细描述了基于多源数据集建立选址模型这一方法,然后具体开发设计了一个支持向量机选址建模系统,并通过一个实际案例对所提方案进行了测试评估,测试结果说明,使用SVM支持向量机得出的选址模型准确性较高。

【技术实现步骤摘要】

本专利技术提出了一种基于多源数据集的选址模型建立方法。结合相关数据集,从中选择出一些可能对选址产生影响的特征指标,使用支持向量机(SupportVectorMachine)技术对这些特征指标进行学习,得出选址模型,然后使用该模型确定在候选区域中哪些位置选址可能使商业店铺有较好的发展前景。
技术介绍
随着智慧城市和大数据技术的发展,多源数据深刻地改变了商业行为。其中,对商业店铺的选址影响也尤为明显。由于消费者对商家的需求逐渐上升为对购物便利性的需求,为更好的服务大众,商家在改善经营技术外,主要依赖于商业店铺的选址技术。针对商业店铺的选址问题,目前使用较多的方法是基于专家咨询的层次分析法,这种方法通过把总是和决策相关联的元素划分为不同的层次,凭借专家的个人经验和专业知识对不同的元素进行重要性打分,最终得出相关决策。由于该方法需要利用专家打分对各个指标因子进行评价,专家的个人主观因素较强。因此,如何设计一种无需引入人为因素的方法显得尤为重要。目前大多数对选址问题的研究集中于专家咨询选址法,即通过相关领域专家根据其经验对选址相关因素的重要性做出评价,结合层次分析法,最终得到各个候选地点的选址适合程度的综合得分。这种方法虽然可行,但是方法中掺杂的专家的个人主观因素较强。因此,如何找到一种不引入人为因素且更为准确的方法具有很高的研究价值。本专利技术从数据挖掘的角度提出了一种基于多源数据集的选址模型建立方法,结合相关数据集,首先从数据集中提取出一系列可能对选址产生影响的特征指标,然后使用支持向量机技术对这些特征指标进行学习,通过支持向量学习得到相应的选址模型,然后根据得出的选址模型来确定备选地点是否适合选址。该方法为选址问题的研究提出了新的方法和思路。本专利技术通过对商业店铺选址问题的国内外研究现状进行调研,了解了零售企业选址的理论基础以及常用的商业店铺选址的模型和方法,并基于调研确立了基于多源数据的选址问题研究方向。本专利技术通过对机器学习领域的相关方法和算法进行研究,掌握了机器学习中对数据集的一些典型的处理方法,并由此确定了基于多源数据集解决选址问题的技术路线。
技术实现思路
本专利技术的研究主要基于三个数据集:公交IC乘客刷卡数据集、电信用户通话数据集、信息点(PointofInterest)数据集。结合这三个数据集展开了如下几个方面的研究:通过对商业店铺选址问题的国内外研究现状进行调研,了解了零售企业选址的理论基础以及常用的商业店铺选址的模型和方法,并基于调研确立了基于多源数据的选址问题研究方向。通过对机器学习领域的相关方法和算法进行研究,掌握了机器学习中对数据集的一些典型的处理方法,并由此确定了基于多源数据集解决选址问题的技术路线。目前对大数据的研究,大多集中于对单一数据集的研究,对多个数据集结合起来的研究较少。本文把公交IC刷卡数据、电信用户通话数据、城市POI数据这三个数据集结合起来,通过对多源数据集进行综合分析和研究,从数据挖掘的角度提出了一种新的商业店铺选址模型建立方法。提出了一种基于多源数据集的选址模型建立方法,避免了传统的基于专家咨询的层次分析选址方法中专家个人主观性过强的缺点,从定量而不只是简单定性的研究层面上提出了一种基于多源数据集建立选址模型的方法。并通过实际例子验证了所提方法的可行性。附图说明图1是影响选址的三大因素示意图;图2是评估备选地址的解释变量图;图3是输入流特征描述示意图;图4是不均衡数据集中出现的样本偏斜情况示意图;图5是支持向量机训练处理流程图;图6半径r=200m的候选点覆盖区域示意图。具体实施方式由于数据集的多样性,从数据集中反映出的信息也是多样化的。如果把从数据集中得到的数目很多的测量值全部当做分类的特征来使用,得到的结果将会非常不理想。这是由于在原始的数据中,有一部分数据是不包含分类信息或是仅仅包含极少量的分类信息,还有一部分数据包含的信息是重复的,这些重复的数据其实并没有对分类起到实质性的作用。经过特征选择,能够形成用于训练的特征向量,为后续工作提供支撑。被识别对象的一个特征可以通过特征向量的一个分量表示,由于同一种类别的相似性和不同种类别之间的差异性主要体现在这些分量表示的特征上。因此,正确地确定识别选址对象的特征是建立选址模型的一个重要步骤,它将直接影响分类的最终结果,即训练得出的选址模型最终的准确性。对影响备选区域选址的三大主要因素:人口因素、交通因素、环境因素进行了进一步的分析。首先对可能影响商业店铺选址结果的因素进行了调研与分析;然后结合已有的相关多源数据集,从中选择了一些可能对商业店铺选址产生影响的特征指标,给出了选址决策评价指标体系;最后,对这些选址特征指标进行详细描述。在对选址特征指标进行描述时,首先要选择一片候选区域,在候选区域中包含了很多可供选址的备选点l,在描述候选点l对应的各个的选址特征时,首先需要定义一个范围。具体地说,就是在测量人流量、话务量、竞争力等选址特征时,应该分析与测量的一个区域范围。因此,定义一个以候选位置l为中心,以r为半径的范围区域,圆点表示的是各个候选位置l,灰色区域表示以l为中心,以r为半径的范围P,p表示灰色区域P中的任意位置,故有p∈P。这个范围如下:p∈P:dist(p,l)<r在式中,p表示以l为中心,以r为半径的范围内的某一位置;dist函数表示两个地点之间的地理距离。在使用支持向量机技术建立选址模型时,由于选址问题的特殊性,首先应该明确在建模过程对以下三个问题的处理方法。即对模型性能度量标准的选择、非平衡数据的处理方法以及核函数的选取及其参数调整方法。通过对比这两种对非平衡样本数据集进行处理的方法,选择分类算法的代价敏感性学习法,即通过调整敏感性参数cost的值来达到分类性能的最优。在实际的训练过程中,由于选址特征指标数据的特殊性,线性分类器已经不足以满足实际业务的要求,因此需要引入核函数对其进行分类。在支持向量机技术中,把分类算法通过的函数映定义为为核函数。其基本思想是:将核函数用一个Hilbert空间中的内积来解释。基于核函数的理论,在高维特征空间无需直接计算内积,只需计算出相应的核函数就可以了。通过引入核函数的思想,支持向量机技术将最优分类超平面的概念引入到非线性的分类问题之中,为解决“维数灾难”这一难题提供了理论支撑。最后,具体实现一个基于多源数据的选址建模系统,并通过一个实际应用—成都市电信营业厅选址案例来对上述方法的可行性进行验证。本文档来自技高网
...
多源数据的选址模型及其应用研究

【技术保护点】
基于多源数据集的选址模型建立方法:该方法结合相关数据集,从中选择出一些可能对选址产生影响的特征指标,使用支持向量机(Support Vector Machine)技术对这些特征指标进行学习,得出选址模型,然后使用该模型确定在候选区域中哪些位置选址可能使商业店铺有较好的发展前景。

【技术特征摘要】
1.基于多源数据集的选址模型建立方法:该方法结合相关数据集,从中选择出一些可能对选址产生影响的特征指标,使用支持向量机(SupportVectorMachine)技术对这些特征指标进行学习,得出选址模型,然后使用该模型确定在候选区域中哪些位置选址可能使商业店铺有较好的发展前景。2.基于支持向量机技术的选址建模系统:根据选址建模方法的功能需求,设计了一个基于支持向量机技术的选址建模系统并对各个功能模块进行了具体实现,然后通过一个实际的应用案例对上述选址方...

【专利技术属性】
技术研发人员:周世杰程红蓉贺雅琪
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1