【技术实现步骤摘要】
一种基于多源数据的旅游路线可视分析与规划方法
[0001]本专利技术涉及信息可视化与可视分析领域,具体是一种基于多源数据的旅游路线可视分析与规划方法。
技术介绍
[0002]近年来我国旅游人数持续增加,旅游产业收入也随之增长迅猛,2020年疫情后国内游客出游意愿明显,增幅逐步增大。然而大多旅游产品存在路线相似、同质化严重等问题,这不但会导致景区拥挤、游客体验雷同,而且会增加潜在的疫情扩散风险。因此旅游服务商需要创新开发各类旅游路线,避免人群大量集中带来的潜在风险,实现旅游差异化与个性化,从而提高旅游服务和产品的质量,推进旅游产业的健康发展。
[0003]传统的旅游产品开发流程分为市场调研调查、明确线路主题、策划旅游线路、充实活动内容、修改完善五个步骤,产品开发人员需要实地考察收集信息,经过基于经验的讨论得出线路和日程安排。此种方式成本较高、周期较长,难以实现跨城市和地区的长路线规划,且调研人员收集的信息有限,容易受到产品开发人员主观判断的影响。
[0004]随着移动互联网的发展,越来越多的游客选择利用互联网平 ...
【技术保护点】
【技术特征摘要】
1.一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,包括以下步骤:S1:数据采集获取三类数据:旅游路线数据、旅游评论文本数据和旅游目的地地理信息数据;S2:数据处理对步骤S1中采集的数据进行以下处理:路线主题分类:用路线经过的目的地的评论文本对路线进行主题分类;目的地热度与评分:计算旅游目的地的热度指标和评分指标;S3:可视化映射设计主题路线降维可视化映射:对路线集合进行主题降维,可视化降维结果用于查看路线主题分布,选择路线集合;设计频繁路线可视化映射:对频繁挖掘结果、频繁路线可视化编码,用于频繁模式和路线的分析;设计目的地情感可视化映射:表示目的地的情感变化与关键词,用于分析目的地形象的时序变化和关键情感信息;设计路线规划可视化映射:表示详细的路线规划结果,用于分析各景点和城市的时间和游玩类型的规划安排与分布;S4:可视化布局将步骤S3定义好的映射规则进行具体的可视化布局及绘制实现:先根据路线类型、时间和空间约束过滤路线数据,然后基于主题分类结果降维,将降维后的结果以散点形式绘制在视图中,构成主题路线降维视图;将每条路线的目的地按照顺序排列绘制在地图上,并在周围绘制主题构成、热度、评分的关键信息,构成频繁路线视图;提取选择的目的地评论集合的关键词与关键词的共现关系,利用力引导布局计算其坐标位置,将词语绘制在视图中,构成目的地情感关键词视图;对加入计划的路线进行路径优化,优化后路线计算其层次关系并绘制在视图中,构成路线规划视图。2.根据权利要求1所述的基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S1中,所述数据采集具体为:S1.1:采集旅游路线分享页的网页内容,包括各旅游路线内容和计划详情的页面链接集合;S1.2:访问并解析计划详情页面,获取路线计划的计划时间、访问城市、访问景点、停留时间;S1.3:在旅游评论网页检索路线访问的所有景点,采集景点的评论内容、评分、评论时间;S1.4:在地图网页检索路线访问的所有城市、景点的地理坐标、标准名称;S1.5:建立路线
‑
城市
‑
景点
‑
评论的数据结构索引。3.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S2中,所述数据处理具体为:S2.1:对于景点路线,将路线访问的所有景点的评论文本聚合,对于城市路线,将路线
访问的所有城市的所有景点的评论文本聚合,聚合后的长文本作为路线的文本,然后利用主题分类方法从路线文本中抽取主题,每个主题包含若干关键词,最后以主题概率的形式表示每个路线,得到路线的主题构成;S2.2:对于目的地热度计算:统计各目的地评论文本数量,景点本文数量为该景点下评论数量总和,城市文本数量为该城市下所有景点评论数量之和,分别将城市和景点的本文数量值归一化处理后,得到在1~5区间内的归一化热度值数量值归一化处理后,得到在1~5区间内的归一化热度值其中,H
i
代表第i个城市或景点的热度值,n代表城市或景点的数量,H
min
为最小热度,H
max
为最大热度;再取其平均值得到各城市和景点的访问热度:其中,H
visit
为访问热度指标,H
route
为路线热度;H
comment
为评论热度;对于目的地评分计算:城市和景点的访问评分为网络评分和评论评分的平均值;其中,S
visit
为访问评分指标,S
web
为网络评分,S
comment
为评论评分。4.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S3中,所述主题路线降维可视化映射具体为:旅游路线使用圆点进行编码,圆点的二维坐标为该路线的主题概率分布的降维结果,点与点之间的距离代表它们的主题概率相似程度,相近代表相似程度较高,远离则代表相似程度较低;圆点的填充颜色表示该路线的主题概率组成,使用不同颜色编码不同主题,圆点的颜色由其所属的每个主题概率与该主题的颜色的乘积叠加计算所得。5.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S3中,所述频繁路线可视化映射具体为:使用柱状图编码不同节点数的频繁路线数量,供用户通过交互手段选择频繁路线集合,并通过路线概览视图列表展示;所述路线概览视图包括由外到内排布的环状面积图、环形图和圆形的地理视图;对于路线集合中的每一个频繁路线,将途经的目的地按照其经纬度将带有序号的标识符标注在地理视图上,并用直线连接相邻的目的地;所述地理视图的外侧采用环形图表示该路线的来源路线集合的主题分布和比例,每个主题环形的角度对应该主题在所有主题概率中所占比例;环形图左右两侧布局两个半圆环状面积图,分别编码路线中各目的地的热度和评分,图中每个极轴对应一个热度或评分的数值,每个极轴刻度通过贝塞尔曲线连接,构成半圆环面积图。6.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S3中,所述目的地情感可视化映射具体为:
对于目的地情感时序变化,采用不同的颜色对积极情感、中性情感和消极情感进行编码,纵向高度表示不同类型情感评论在该时间段内所有评论中所占比例,所有时间横向排列构成时序面积图,供用户在其中刷选时段,过滤探索情感关键词的评论数据;对于目的地情感关键词,采用不同的颜色对积极情感、中性情感和消极情感进行编码,关键词大小代表词语在集合中出现的频率;布局共分为两个部分,第一部分是情感比例,按照集合中统计的各情感类型的句子数量将画布按比例分为积极、中性和消极区域,关键词只允许在对应的区域内绘制;第二部分是力引导布局,根据关键词在集合中句子的共现关系定义关键词之间的引力,共现次数越多引力越大,布局越接近,词语间通过电荷斥力与碰撞检测规则使词语保持基本距离。7.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤S3中,所述路线规划可视化映射具体为:对加入规划的路线进行路径优化,优化完成后的路线分为日期、城市、景点三个层级,日期为最大层级,使用纵向排列的单列表格表示,每个单元格内部有横向排列的左右两个柱形,左边的柱形表示当日游玩城市,右边的柱形表示对应城市的游玩景点,景点柱形的长度由其计划游玩时间决定,颜色由该景点的类型编码,城市柱形长度则为其对应景点柱形长度之和,颜色由其所有景点游玩世间最长的景点类型编码。8.根据权利要求7所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述路径优化方法具体分为三个步骤:S3a:遍历每一个目的地作为一个可行解序列C的起点,并将目的地按照游玩时间降序排序得到队列P,计算其他各点到起点的弧度,升序排序得到队列Q,对于每一个可行解序列C执行下一步;S3b:查找当前目的地g在Q中的位置,分别按顺时针和逆时针查找是否有符合约束的下一个目的地:如果在的顺时针方向存在目的地,而逆时针方向没有符合约束的目的地,则直接将顺时针结果设为当前目的地g;如果在的顺时针方向没有符合约束的目的地而逆时针方向存在目的地,将逆时针结果设为当前目的地g;如果两个方向上均存在目的地,则比较二者到当前目的地的行驶时间,选择时间更短的作为当前目的地g;如果在两个方向上均不存在符合约束的目的地,则取出队列P的第一个元素作为当前目的地,并计算其他各点到当前点的弧度更新队列Q;将当前目的地g加入解序列C,并从队列P和Q中将该目的地删除,如果队列P中仍存在目的地,重复执行上述步骤;否则,将得到的解序列C作为染色体加入初始种群集合;S3c:对初始种群进行遗传算法迭代优化,收敛后的最优子代作为最终序列输出。9.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述步骤S4中,主题路线降维可视化布局实现包含以下步骤:S4.1.1:对于路线主题概率数据,通过各数据点之间的欧式距离,计算得到表达相似性的条件概率,计算公式如下:式中,p
j|i
是x
i
按照以其自身为中心的正态分布选择邻居时,选择x
j
为邻居的概率;σ
i
是以x
i
为中心的正态分布的方差,x
k
是除了x
i
以外的所有数据点;
S4.1.2:对于低维数据点,计算公式如下:式中,q
j|i
是y
i
按照以其自身为中心的正态分布选择邻居时,选择y
j
为邻居的概率;y
k
是除了y
i
以外的所有数据点;S4.1.3:使用梯度下降使数据点K
‑
L散度之和最小,联合概率分布来映射相似度以解决代价函数不对称的问题,对称代价函数对应的梯度计算公式如下:式中,E为对称代价函数,表现为概率分布的K
‑
L散度总和;S4.1.4:利用t分布代替正态分布以解决正态分布映射导致的“拥挤问题”,最终的低维联合概率分布公式如下,使用该公式获得各路线降维后的二维坐标;S4.1.5:图中点的颜色由RGB三个颜色通道组成,每个颜色通道值计算公式如下:式中,c
r
是路线点r的各颜色通道值,t
k
是路线属于第k个主题的概率,c
t
是主题t的各颜色通道值,K
t
为主题的总数量。10.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述步骤S4中,频繁路线可视化布局实现包含以下步骤:S4.2.1:实现左侧柱状图的布局,柱形元素按照平行坐标的纵轴排列分布,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。