基于Flickr地理标签元的旅游历史数据获取方法技术

技术编号:19512351 阅读:22 留言:0更新日期:2018-11-21 08:24
本发明专利技术适用于大数据的旅游预测技术领域,提供了一种基于Flickr地理标签元的旅游历史数据获取方法,该方法包括如下步骤:S1、下载预测区域的历史Flickr照片数据,Flickr照片数据内含有用户标识及用户位置、照片的拍摄位置及拍摄时间及照片标签;S2、对所有的Flickr照片数据进行预处理,筛选出预测区域内旅游相关的有效Flickr照片数据,预处理包括依次进行重复数据的删除及旅游无关数据的删除。本发明专利技术实施例基于Flickr照片数据来获取旅游信息较差地区的历史旅游数据,以便基于历史旅游数据来预测该地区的旅游需求。

【技术实现步骤摘要】
基于Flickr地理标签元的旅游历史数据获取方法
本专利技术属于大数据的旅游预测
,提供了一种基于Flickr地理标签元的旅游历史数据获取方法。
技术介绍
旅游预测是旅游经济分析与战略规划中的一个关键问题,一般方法都是通过历史数据统计预测传统旅游需求。传统的旅游预测研究主要是基于官方发布的统计年鉴,而这些年鉴更新缓慢,尤其在旅游信息化较差的地方,例如一些发展中国家或某国家的偏远地区,旅游资料普遍缺失,如何获取此类地区的历史旅游数据成为旅游预测中迫切需要解决问题。
技术实现思路
本专利技术实施例提供了一种基于Flickr地理标签元的旅游历史数据获取方法,旨在获取旅游信息较差地区的历史旅游数据。本专利技术是这样实现的,一种基于Flickr地理标签元的旅游历史数据获取方法,该方法包括如下步骤:S1、下载预测区域的历史Flickr照片数据,Flickr照片数据内含有用户标识及用户位置、照片的拍摄位置及拍摄时间及照片标签;S2、对所有的Flickr照片数据进行预处理,筛选出预测区域内旅游相关的有效Flickr照片数据,预处理包括依次进行重复数据的删除及旅游无关数据的删除。进一步的,所述重复数据删除方法具体包括如下步骤:S11、检测到连续发布相同位置或相邻位置照片的时长大于设定时长,则判定为当地照片,删除对应的Flickr照片数据;S12、检测到在设定时长内多次发布或一次发布多张相同位置或相邻位置的照片,仅保留最早发布时间的Flickr照片数据,即以最早发布时间作为旅游起始时间。进一步的,所述与旅游不相关数据删除方法具体包括如下步骤:S21、删除没有标签值的Flickr照片数据;S22、利用TF-IDF算法生成聚类簇标签;S23、利用百度API来提取预测区域内的兴趣点信息;S24、将每个聚类簇标签与兴趣点信息进行匹配,若聚类簇标签与兴趣信息不匹配,则删除所述聚类簇标签对应的Flickr照片数据。进一步的,在步骤S2之后还包括:S3、基于旅游相关的有效Flickr照片数据来获取入境旅游相关的有效Flickr照片数据。进一步的,所述步骤S3具体包括如下步骤:S31、检测旅游相关的有效Flickr照片数据中的用户位置是否为空,若检测结果为是,则执行步骤S33、若检测结果为否,则执行步骤S32;S32、基于用户位置判断是否为入境旅游,删除非入境旅游对应的Flickr照片数据;S33、基于熵过滤方法进行非入境旅游数据的删除,即信息熵E(u)值大于等于设定阈值,则认定为非入境旅游,删除对应的Flickr照片数据。进一步的,在步骤S3之后还包括:S4、针对入境旅游相关的有效Flickr照片数据按月进行入境频率统计,获取预测区域的历史月入境次数,并进行归一化处理;S5、将归一化后的历史月入境次数输入建立的预测模型,对预测区域的入境旅游流月数据进行预测。进一步的,所述归一化公式具体如下所示:其中,xi为预测区域某年第i月的入境次数,xmin为预测区域历史月入境次数中的最小值,xmax为预测区域历史月入境次数中的最大值。Flickr地理标签照片元数据能够满足实际旅游预测的需求,并与实际旅游数据高度相关,本专利技术实施例基于Flickr照片数据来获取旅游信息较差地区的历史旅游数据,获取的历史旅游数据相对精准,以便基于历史旅游数据来预测该地区的旅游需求,为各级管理人员提供重要的决策信息。附图说明图1为本专利技术实施例提供的基于Flickr地理标签元的旅游历史数据获取方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。随着互联网的高速发展,在线数据与社会经济活动之间存在着密切的关系,Flickr平台作为一个典型的社交网络服务平台,Flickr地理标签照片数据包含了游客拍摄照片的位置和时间,因此被广泛应用于旅游推荐领域和旅游行为分析,Flickr地理标签照片数据具有易于获取,数据量大,反映时间连续性,准确记录地理位置信息,反映移动轨迹等优点。根据上述研究,由于记录的大量地理位置和旅行时间信息,Flickr地理标记的照片数据可以取代历史数据,本专利技术提供一种基于Flickr地理标签元的入境旅游历史数据获取方法。图1为本专利技术实施例提供的基于Flickr地理标签元的旅游历史数据获取方法流程图,该方法包括如下步骤:S1、通过爬虫程序在Flickr应用程序上下载预测区域的历史Flickr照片数据,Flickr照片数据内含有用户标识及用户位置、照片的拍摄位置及拍摄时间、及照片标签;本专利技术实施例中的“预测区域”一般为某个城市的某个景点覆盖区域,Flickr照片数据的格式如表1所示,用户标识对应于表1中的“Userid”,用于唯一标识用户,拍摄位置由经度及维度的组合进行标识,分别对应于表1中的“Latitude”及“Longitude”,用户位置是指用户的注册地,对应于表1中的“Location”,拍摄时间对应于表1中的“Date&Time”,照片标签是指针对照片的文字描述,对应于表1中的“Tags”,表1如下所示:表1S2、对所有的Flickr照片数据进行预处理,筛选出预测区域内旅游相关的有效Flickr照片数据;这里的预处理包括依次进行重复数据的删除及旅游无关数据的删除。在本专利技术实施例中,重复数据的删除具体包括如下步骤:S11、检测到连续发布相同位置或相邻位置照片的时长大于设定时长,则判定为当地照片,删除对应的Flickr照片数据;本专利技术实施例中的“连续发布”是指相邻两次照片的发布时间间隔小于预设时间间隔,则认定为连续发布,“相邻位置”是指以某一位置点为中心,设定半径区域内的位置点均认定为该中心位置点的相邻位置。若拍摄位置与用户位置不一致的前提下,若检测到连续发布相同位置照片的时长大于设定时长(一般以1年为限),则认定为当地拍摄,数据与旅游无关,应当予以删除。S12、检测到在设定时长内多次发布或一次发布多张相同位置或相邻位置的照片,仅保留最早发布时间的Flickr照片数据,即以最早发布时间作为旅游起始时间。在本专利技术实施例中,用户在一天在相同位置或相邻位置多次发布照片,或者是在相同位置或相邻位置一次发布多张照片,定义为一次旅游,仅保留最早发布时间的Flickr照片数据,删除其他照片,并以最早发布时间作为旅游起始时间。在本专利技术实施例中,旅游无关照片的删除具体包括如下步骤:S21、删除没有标签值的Flickr照片数据;删除表1中的“Tags”缺失的数据,即没有对拍摄照片进行描述的Flickr照片数据;S22、利用TF-IDF算法生成聚类簇标签;在本专利技术实施例中,聚类簇标签通俗的理解为标签中的核心字段,即最能精准反映照片拍摄位置的字段,本发通过PDBSCAN算法来对标签进行聚类,对于聚类后的每个簇,使用TF-IDF算法进行标签的统计和分析,TF-IDF公式具体表示如下:TF-IDF公式如下:tfid(t,d,D)=tf(t,d)*idf(t,D)(1)其中tf是标签t在聚类参数d下的数目,idf衡量在数据库D中通过标签t能得到的信息量,tfid为聚类簇标签,聚类簇标签为频率最高的词。S23、利用百度API来提取预测区域本文档来自技高网...

【技术保护点】
1.一种基于Flickr地理标签元的旅游历史数据获取方法,其特征在于,所述方法包括如下步骤:S1、下载预测区域的历史Flickr照片数据,Flickr照片数据内含有用户标识及用户位置、照片的拍摄位置及拍摄时间及照片标签;S2、对所有的Flickr照片数据进行预处理,筛选出预测区域内旅游相关的有效Flickr照片数据,预处理包括依次进行重复数据的删除及旅游无关数据的删除。

【技术特征摘要】
1.一种基于Flickr地理标签元的旅游历史数据获取方法,其特征在于,所述方法包括如下步骤:S1、下载预测区域的历史Flickr照片数据,Flickr照片数据内含有用户标识及用户位置、照片的拍摄位置及拍摄时间及照片标签;S2、对所有的Flickr照片数据进行预处理,筛选出预测区域内旅游相关的有效Flickr照片数据,预处理包括依次进行重复数据的删除及旅游无关数据的删除。2.如权利要求1所述基于Flickr地理标签元的旅游历史数据获取方法,其特征在于,所述重复数据删除方法具体包括如下步骤:S11、检测到连续发布相同位置或相邻位置照片的时长大于设定时长,则判定为当地照片,删除对应的Flickr照片数据;S12、检测到在设定时长内多次发布或一次发布多张相同位置或相邻位置的照片,仅保留最早发布时间的Flickr照片数据,即以最早发布时间作为旅游起始时间。3.如权利要求1所述基于Flickr地理标签元的旅游历史数据获取方法,其特征在于,所述与旅游不相关数据删除方法具体包括如下步骤:S21、删除没有标签值的Flickr照片数据;S22、利用TF-IDF算法生成聚类簇标签;S23、利用百度API来提取预测区域内的兴趣点信息;S24、将每个聚类簇标签与兴趣点信息进行匹配,若聚类簇标签与兴趣信息不匹配,则删除所述聚类簇标签对应的Flickr照片数据。4.如权利要求1所述基于Fli...

【专利技术属性】
技术研发人员:罗永龙陈文汪逸飞刘晴晴俞庆英
申请(专利权)人:安徽师范大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1