一种区域旅游产业发展的分析方法技术

技术编号:21301966 阅读:42 留言:0更新日期:2019-06-12 08:33
本发明专利技术公开了一种区域旅游产业发展的分析方法,所述方法包括:步骤一:确定待分析区域;步骤二:采集待分析区域的相关数据采集并进行预处理;步骤三:构建训练支持向量机模型;步骤四:基于预处理后的待分析区域旅游数据和训练支持向量机模型,对待分析区域的旅游行业健康度进行分析;步骤五:将待分析区域的旅游行业分为多种维度进行分析;步骤六:基于步骤四和步骤五的分析结果,获得待分析区域的旅游产业发展分析结果;实现了能够全面准确的对区域旅游产业发展进行分析的技术效果。

An Analysis Method of Regional Tourism Industry Development

The invention discloses an analytical method for regional tourism industry development, which includes: step 1: determining the area to be analyzed; step 2: collecting and preprocessing the relevant data of the area to be analyzed; step 3: constructing the training support vector machine model; step 4: treating the points based on the pre-processed regional tourism data to be analyzed and the training support vector machine model. Analysis of the regional tourism industry health degree; Step 5: divide the tourism industry in the region to be analyzed into a variety of dimensions; Step 6: Based on the analysis results of Step 4 and Step 5, get the analysis results of the tourism industry development in the region to be analyzed; Achieve the technical effect of comprehensive and accurate analysis of the development of regional tourism industry.

【技术实现步骤摘要】
一种区域旅游产业发展的分析方法
本专利技术涉及计算机数据处理与分析
,具体地,涉及一种区域旅游产业发展的分析方法。
技术介绍
近年来,国内旅游市场保持火热发展,国民旅游消费需求旺盛。全域旅游已经成为国家战略,是未来旅游业发展大方向。全域旅游涉及区域各相关部门齐抓共建,所有居民共同参与,充分利用各要素,实现游客全过程、全时空的旅游体验。其中,旅游+互联网是实现全域旅游的关键一环,利用数据挖掘为政府、景区、企业和游客提供服务是未来旅游发展大趋势。尽管旅游行业发展如此迅速,公众旅游消费热情高涨,但文化旅游监管部门对整个产业的发展缺乏完整的数据和较为专业的行业分析,对这个产业发展的分析大多局限于景区、酒店、旅行社等较小范围的发展分析。综上所述,本申请专利技术人在实现本申请专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:在现有技术中,现有的旅游产业发展的分析方法存在分析全面性不足,分析准确性较差的技术问题。
技术实现思路
本专利技术提供了一种区域旅游产业发展的分析方法,实现了能够全面准确的对区域旅游产业发展进行分析的技术效果。本方法以某一区域为研究对象,对旅游产业发展相关数据进行抓取、整合和分析,通过对数据的多维度分析,基于深层次挖掘探索数据背后表现的深层次问题,实现以旅游产业发展监测为主,以服务游客为辅,为文化旅游监管部门掌握地区旅游产业发展提供可靠的参考依据,并为相关政策的制定提供数据支撑服务。为实现上述专利技术目的,本申请提供了一种区域旅游产业发展的分析方法,包括如下步骤:步骤一:确定旅游行业健康度的待分析区域;步骤二:数据采集和预处理;1、从OTA网站爬取对应区域旅游行业数据,并进行存储;数据爬取对象为途牛、同程、携程、马蜂窝、驴妈妈、艺龙、大众点评等OTA网站,按照餐饮、住宿、交通、旅游、购物、娱乐6个类别,爬取数据字段为商品或服务列表、商品或服务详情、用户评论。将爬取的数据,以文本形式分类存放在本地,当每次爬取任务完成,再将本地文件推送到指定hdfs服务器上,并保留备份。2、对存储的数据进行预处理(1)缺失数据处理获取数据分为三类:商品或服务列表、商品或服务详情和用户评论,三者之间以商品或服务的ID作为关联,若商品或服务无法关联到商家,则过滤此类数据。数据最有价值字段为评论内容,若评论字段内容为空,则过滤该评论数据。(2)异常数据处理评论字段内容为“系统默认好评”、“此用户未填写评价内容”等,则删除该评论数据。(3)数据标准化数据来源于多个OTA,且不同平台数据抓取标准不一致,需要对数据标准化。步骤三:模型训练1、构建训练集和测试集(1)标注情感趋向按照餐饮、住宿、交通、旅游、购物、娱乐6个类别,每个类别随机选择通过步骤二处理过的样本评论数据,对每条评论内容进行情感趋向标引,差评标注为-1,好评标注为1,并基于标引后的样本评论数据构造训练集和测试集。(2)语料处理采用分词工具对(1)的样本评论数据进行分词处理。(3)构建样本评论数据的词向量调用word2vec.Word2Vec方法来实现对每个词语的向量,形成词向量。2、基于训练集词向量,训练支持向量机模型3、通过在训练集适当增加差评评论,优化训练支持向量机模型。步骤四:区域旅游行业健康度分析对区域旅游数据进行分词、构建向量;将向量输入步骤三中的训练的模型,计算得到每条评论的情感倾向。步骤五:区域旅游行业细分维度分析1、构建旅游行业各类别题词库(1)按照餐饮、住宿、交通、旅游、购物和娱乐6个类别,提取每一个类别下细分维度的情感词、被情感词修饰的词汇、修饰情感词的否定词等,构建旅游行业各类别下细分维度的题词库。(2)题词整理将餐饮、住宿、交通、旅游、购物和娱乐6个类别中每一个类别下细分维度同一维度情感词聚合去重;聚合所有维度情感词,为情感词赋予情感色彩标记,约定积极:1,消极:-1,形成情感词库。将餐饮、住宿、交通、旅游、购物和娱乐评论被修饰词聚合去重,给出维度标记,形成文档。提出各维度专有情感词,标记相应维度,形成维度识别库。将(1)中提取的否定词聚合去重,形成否定词库。2、分词分句对评论分词,给出分词结果和相应词性,对分词结果依据词性对评论进行断句,形成单条评论的多个子句。3、对每个子句提取维度对分句参照维度识别库提取评论评价维度,若分句中有词汇是维度识别库中词汇,则可直接参照维度识别库识别出子句包含维度,若无,则子句维度不在此处维度分析关注的维度中。4、计算维度情感倾向对于任意评论约定默认其每一个维度情感倾向值。5、计算情感倾向基于子句,查找子句分词词汇是否出现在情感词库中,若出现在情感词库中,结合情感词库可识别出情感词倾向,若没出现在情感词库中,可认为子句词汇没有此次维度分析关注的维度情感词。对子句和情感词库求差集,对结果集与否定词库求交集,通过判断交集中元素个数,可以判定否定词出现次数,以此结合情感词倾向给出最终情感倾向。本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:通过能够全面准确的对区域旅游产业发展进行分析,基于本方法涉及的数据分析方法和研发积累,可类似运用于全国各地文化、旅游产业发展的分析和展示。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定;图1是本申请中区域旅游产业发展的分析方法的流程意图;图2是本申请中区域旅游产业发展的分析系统的组成示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。具体实施例一:请参考图1,步骤一:确定待分析区域,在本实施例中以成都市区域旅游产业为研究对象;步骤二:数据采集和预处理;1、从OTA网站爬取对应区域旅游行业数据,并进行存储;数据爬取对象为途牛、同程、携程、马蜂窝、驴妈妈、艺龙、大众点评等OTA网站,按照餐饮、住宿、交通、旅游、购物、娱乐6个类别,爬取数据字段为商品或服务列表、商品或服务详情、用户评论。爬取的具体流程为:爬取OTA网站城市列表;根据城市列表构造URL,爬取商品或服务列表;根据商品或服务列表爬取商品或服务列表详情;根据商品或服务列表爬取商品或服务评论。将爬取的数据,以文本形式分类存放在本地,当爬取任务完成,再将本地文件推送到指定hdfs服务器上,并保留备份。2、对存储的数据进行预处理(1)缺失数据处理;获取数据分为三类:商品或服务列表、商品或服务详情和用户评论,三者之间以商品或服务的ID作为关联,若商品或服务无法关联到商家,则过滤此类数据。数据最有价值字段为评论内容,若评论字段内容为空,则过滤该评论数据。(2)异常数据处理;评论字段内容为“系统默认好评”、“此用户未填写评价内容”等,则删除该评论数据。(3)数据标准化;数据来源于多个OTA,且不同平台数据抓取标准不一致,需要对数据标准化。如:各OTA餐饮商家分类不一致,统一整合为中餐馆、休闲简餐、异地风味、火锅、自助餐、饮品、美食街/本文档来自技高网...

【技术保护点】
1.一种区域旅游产业发展的分析方法,其特征在于,所述方法包括:步骤一:确定待分析区域;步骤二:采集待分析区域的相关数据采集并进行预处理;步骤三:构建训练支持向量机模型;步骤四:基于预处理后的待分析区域旅游数据和训练支持向量机模型,对待分析区域的旅游行业健康度进行分析;步骤五:将待分析区域的旅游行业分为多种维度进行分析;步骤六:基于步骤四和步骤五的分析结果,获得待分析区域的旅游产业发展分析结果。

【技术特征摘要】
1.一种区域旅游产业发展的分析方法,其特征在于,所述方法包括:步骤一:确定待分析区域;步骤二:采集待分析区域的相关数据采集并进行预处理;步骤三:构建训练支持向量机模型;步骤四:基于预处理后的待分析区域旅游数据和训练支持向量机模型,对待分析区域的旅游行业健康度进行分析;步骤五:将待分析区域的旅游行业分为多种维度进行分析;步骤六:基于步骤四和步骤五的分析结果,获得待分析区域的旅游产业发展分析结果。2.根据权利要求1所述的区域旅游产业发展的分析方法,其特征在于,所述步骤四具体包括:对预处理后的待分析区域旅游数据进行分词和构建向量处理;将构建的向量输入训练支持向量机模型,计算得到每条评论的情感倾向。3.根据权利要求1所述的区域旅游产业发展的分析方法,其特征在于,所述步骤2具体为:从OTA网站爬取对应待分析区域的旅游行业数据,对数据进行预处理包括:缺失数据处理、异常数据处理、数据标准化处理。4.根据权利要求1所述的区域旅游产业发展的分析方法,其特征在于,构建训练支持向量机模型包括:构建训练集和测试集;基于训练集词向量,训练支持向量机模型;在训练集增加差评评论,优化训练支持向量机模型。5.根据权利要求4所述的区域旅游产业发展的分析方法,其特征在于,构建训练集和测试集包括:(1)标注情感趋向:按照餐饮、住宿、交通、旅游、购物、娱乐6个类别,每个类别随机选择预处理后的样本评论数据,对每条评论内容进行情感趋向标引,差评标注为-1,好评标注为1,并基于标引后的样本评论数据构造训练集和测试集;(2)语料处理:采用分词工具对标引后的样本评论数据进行分词处理;(3)构建样本评论数据的词向量。6.根据权利要求1所述的区域旅游产业发展的分析方法,其特征在于,将待分析区域的旅游行业分为多种维度进行分析,具体包括:构建旅游行业各类别下多种维度的题词库;对题词进行整理;对评论进行分词,给出分词结果和相应词性,对分词结果依据词性对评论进行断句,形成单条评论的多个子句;根据多维度梯子库,计算确定每个子句涉及类别及细分维度及相应维度的情感倾向。7.根据权利要求6所述的区...

【专利技术属性】
技术研发人员:周道华古鹏飞李柏椿
申请(专利权)人:成都中科大旗软件有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1