多源社交数据融合的多角度旅游信息感知与智能推荐方法技术

技术编号:15219335 阅读:266 留言:0更新日期:2017-04-26 15:46
本发明专利技术公开了一种多源社交数据融合的多角度旅游信息感知与智能推荐方法,用于解决现有旅游信息推荐方法实用性差的技术问题。技术方案是首先为每个景区建立单独的字典;再从所有评论文本中挑选至少包含一个景观词且具有高信息熵的评论句子,利用得到的评论文本数据,结合景观词集合,挖掘每个景观相对应的特征,利用序列模式挖掘方法从每篇游记中提取一条旅游路线,最后利用投票的方法将热度最高的路线作为推荐信息;通过比较图像上下文和评论文本之间的文本相似性,投票选择与景观对应的有代表性的图像。由于采用了序列模式挖掘算法对博客游记的文本部分进行处理,最终得到了最受游客欢迎的旅游路线,为游客提供了更全面的辅助信息,实用性好。

Multi angle tourism information perception and intelligent recommendation method based on multi-source information fusion

The invention discloses a method for multi angle information fusion and intelligent recommendation of multi-source information fusion, which is used to solve the technical problems of the existing tourism information recommendation method. The technical scheme is firstly established separately for each area from the dictionary; all the comments in the text selected contains at least one landscape word and has high entropy comment sentences, using the comment text data obtained, combining with the landscape features of each word set, mining landscape corresponding to the use of the sequential pattern mining method to extract a tour route from each journey, finally use vote will be the highest heat as the recommended route information; through the comparison between image and text context comment text similarity, vote and landscape corresponding to the image representative. As a result of the use of sequential pattern mining algorithm for the text part of the blog travel, and ultimately get the most popular tourist routes for tourists to provide a more comprehensive information.

【技术实现步骤摘要】

本专利技术属于旅游推荐领域,特别涉及一种多源社交数据融合的多角度旅游信息感知与智能推荐方法。
技术介绍
近年来,随着旅游业的快速发展,来自世界各地的游客喜欢在旅行之后借助社交媒体来表达关于景区的看法,这种群体贡献的信息可以帮助其他用户进行旅行安排。旅行评论和博客游记是两种主流的社交旅游共享方式,可以将其作为旅游信息总结的可靠知识来源。面对日益增长的评论和游记,非常需要一种信息感知和智能推荐方法来处理海量旅游信息并为用户提供准确的旅行参考。文献“UnderstandtheCityBetter:MultimodalAspect-OpinionSummarizationforTravel.WISE2014,PartII,LNCS8787,pp.381–394,2014”公开了一种利用旅行评论和博客游记对景区进行可视化总结的方法。该方法主要包含三个步骤:首先在旅行评论中挑选出信息量大的句子,在此基础上进一步挖掘与景区相关的特征,最后在博客游记中挑选最具有代表性的图像来对上述特征进行可视化。根据调研发现,博客游记中实际上还包含了游客的旅游路线信息。而文献所述的方法只是将博客游记看作是图像数据源,直接过滤掉博客游记中包含的文本内容,不能进一步挖掘其中包含的丰富信息,实现方法过于简单,难以满足用户需求。
技术实现思路
为了克服现有旅游信息推荐方法实用性差的不足,本专利技术提供一种多源社交数据融合的多角度旅游信息感知与智能推荐方法。该方法首先为每个景区建立单独的字典;再从所有评论文本中挑选至少包含一个景观词且具有高信息熵的评论句子,利用得到的评论文本数据,结合景观词集合,挖掘每个景观相对应的特征,利用序列模式挖掘方法从每篇游记中提取一条旅游路线,最后利用投票的方法将热度最高的路线作为推荐信息;通过比较图像上下文和评论文本之间的文本相似性,投票选择与景观对应的有代表性的图像。由于采用了序列模式挖掘算法对博客游记的文本部分进行处理,最终得到了最受游客欢迎的旅游路线,为游客提供了更全面的辅助信息,实用性好。本专利技术解决其技术问题所采用的技术方案:一种多源社交数据融合的多角度旅游信息感知与智能推荐方法,其特点是包括以下步骤:步骤一、对于目标景区,根据景区名称利用网络爬虫获得旅游社交系统中与所述景区相关的所有评论和游记数据,提取评论中的文本数据、游记中的文本图像数据以及上下文信息,并对文本进行分词预处理,过滤无用的中文停止词,为每个景区建立单独的字典;步骤二、从所有评论文本中挑选至少包含一个景观词且具有高信息熵的评论句子,其中句子的信息熵等于句中每个单词信息熵的总和;步骤三、利用步骤二得到的评论文本数据,结合景观词集合,挖掘每个景观相对应的特征,其中特征包括名词和形容词;步骤四、利用序列模式挖掘方法从每篇游记中提取一条旅游路线,最后利用投票方法将热度最高的路线作为推荐信息;步骤五、通过比较图像上下文和评论文本之间的文本相似性,投票选择与景观对应的有代表性的图像。本专利技术的有益效果是:该方法首先为每个景区建立单独的字典;再从所有评论文本中挑选至少包含一个景观词且具有高信息熵的评论句子,利用得到的评论文本数据,结合景观词集合,挖掘每个景观相对应的特征,利用序列模式挖掘方法从每篇游记中提取一条旅游路线,最后利用投票的方法将热度最高的路线作为推荐信息;通过比较图像上下文和评论文本之间的文本相似性,投票选择与景观对应的有代表性的图像。由于采用了序列模式挖掘算法对博客游记的文本部分进行处理,最终得到了最受游客欢迎的旅游路线,为游客提供了更全面的辅助信息,实用性好。下面结合附图和具体实施方式对本专利技术作详细说明。附图说明图1是本专利技术多源社交数据融合的多角度旅游信息感知与智能推荐方法的流程图。具体实施方式参照图1。本专利技术多源社交数据融合的多角度旅游信息感知与智能推荐方法具体步骤如下:步骤一、对于景区“颐和园”,根据关键字“颐和园”利用网络爬虫从大众点评与蚂蜂窝网站获取相关的评论和游记数据,提取评论中的文本数据、游记中的文本图像数据以及景观词集合利用分词工具对文本进行分词预处理,过滤无用的中文停止词,根据评论文本为每个景区建立单独的字典。步骤二、从与“颐和园”相关的所有评论文本中挑选至少具有一个景观词并且具有高信息熵的评论句子,其中句子的信息熵等于句中每个单词的信息熵的总和,景观即景区内的一处人文或自然景观。步骤三、利用前一步骤得到的评论文本数据,结合景观词集合根据与景观n相关的句子集合为该景观提取特征词,构成集合W,包括名词和形容词。步骤四、旅游路线指游客从进入直到离开景区所遵循的路线,是一个包括若干景观名称的有序序列。利用序列模式挖掘方法通过连接和剪枝操作从每篇游记中提取一条旅游路线,最后通过投票将热度最高的路线作为推荐信息。步骤五、具体包含两个步骤:(1)图像聚类:首先提取游记中包含上下文信息cI的图像I,得到关于景点P的图像集合IP和上下文集合CP。然后在集合IP上利用谱聚类,基于视觉内容特征矢量将其分为视觉上的不同集群LP={l1,l2,...,ll本文档来自技高网...
多源社交数据融合的多角度旅游信息感知与智能推荐方法

【技术保护点】
一种多源社交数据融合的多角度旅游信息感知与智能推荐方法,其特征在于包括以下步骤:步骤一、对于目标景区,根据景区名称利用网络爬虫获得旅游社交系统中与所述景区相关的所有评论和游记数据,提取评论中的文本数据、游记中的文本图像数据以及上下文信息,并对文本进行分词预处理,过滤无用的中文停止词,为每个景区建立单独的字典;步骤二、从所有评论文本中挑选至少包含一个景观词且具有高信息熵的评论句子,其中句子的信息熵等于句中每个单词信息熵的总和;步骤三、利用步骤二得到的评论文本数据,结合景观词集合,挖掘每个景观相对应的特征,其中特征包括名词和形容词;步骤四、利用序列模式挖掘方法从每篇游记中提取一条旅游路线,最后利用投票方法将热度最高的路线作为推荐信息;步骤五、通过比较图像上下文和评论文本之间的文本相似性,投票选择与景观对应的有代表性的图像。

【技术特征摘要】
1.一种多源社交数据融合的多角度旅游信息感知与智能推荐方法,其特征在于包括以下步骤:步骤一、对于目标景区,根据景区名称利用网络爬虫获得旅游社交系统中与所述景区相关的所有评论和游记数据,提取评论中的文本数据、游记中的文本图像数据以及上下文信息,并对文本进行分词预处理,过滤无用的中文停止词,为每个景区建立单独的字典;步骤二、从所有评论文本中挑选至少包含一个景观词且具有...

【专利技术属性】
技术研发人员:郭斌郭彤於志文王柱周兴社
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1