The invention discloses a method for multi angle information fusion and intelligent recommendation of multi-source information fusion, which is used to solve the technical problems of the existing tourism information recommendation method. The technical scheme is firstly established separately for each area from the dictionary; all the comments in the text selected contains at least one landscape word and has high entropy comment sentences, using the comment text data obtained, combining with the landscape features of each word set, mining landscape corresponding to the use of the sequential pattern mining method to extract a tour route from each journey, finally use vote will be the highest heat as the recommended route information; through the comparison between image and text context comment text similarity, vote and landscape corresponding to the image representative. As a result of the use of sequential pattern mining algorithm for the text part of the blog travel, and ultimately get the most popular tourist routes for tourists to provide a more comprehensive information.
【技术实现步骤摘要】
本专利技术属于旅游推荐领域,特别涉及一种多源社交数据融合的多角度旅游信息感知与智能推荐方法。
技术介绍
近年来,随着旅游业的快速发展,来自世界各地的游客喜欢在旅行之后借助社交媒体来表达关于景区的看法,这种群体贡献的信息可以帮助其他用户进行旅行安排。旅行评论和博客游记是两种主流的社交旅游共享方式,可以将其作为旅游信息总结的可靠知识来源。面对日益增长的评论和游记,非常需要一种信息感知和智能推荐方法来处理海量旅游信息并为用户提供准确的旅行参考。文献“UnderstandtheCityBetter:MultimodalAspect-OpinionSummarizationforTravel.WISE2014,PartII,LNCS8787,pp.381–394,2014”公开了一种利用旅行评论和博客游记对景区进行可视化总结的方法。该方法主要包含三个步骤:首先在旅行评论中挑选出信息量大的句子,在此基础上进一步挖掘与景区相关的特征,最后在博客游记中挑选最具有代表性的图像来对上述特征进行可视化。根据调研发现,博客游记中实际上还包含了游客的旅游路线信息。而文献所述的方法只是将博客游记看作是图像数据源,直接过滤掉博客游记中包含的文本内容,不能进一步挖掘其中包含的丰富信息,实现方法过于简单,难以满足用户需求。
技术实现思路
为了克服现有旅游信息推荐方法实用性差的不足,本专利技术提供一种多源社交数据融合的多角度旅游信息感知与智能推荐方法。该方法首先为每个景区建立单独的字典;再从所有评论文本中挑选至少包含一个景观词且具有高信息熵的评论句子,利用得到的评论文本数据,结合景观词集合,挖 ...
【技术保护点】
一种多源社交数据融合的多角度旅游信息感知与智能推荐方法,其特征在于包括以下步骤:步骤一、对于目标景区,根据景区名称利用网络爬虫获得旅游社交系统中与所述景区相关的所有评论和游记数据,提取评论中的文本数据、游记中的文本图像数据以及上下文信息,并对文本进行分词预处理,过滤无用的中文停止词,为每个景区建立单独的字典;步骤二、从所有评论文本中挑选至少包含一个景观词且具有高信息熵的评论句子,其中句子的信息熵等于句中每个单词信息熵的总和;步骤三、利用步骤二得到的评论文本数据,结合景观词集合,挖掘每个景观相对应的特征,其中特征包括名词和形容词;步骤四、利用序列模式挖掘方法从每篇游记中提取一条旅游路线,最后利用投票方法将热度最高的路线作为推荐信息;步骤五、通过比较图像上下文和评论文本之间的文本相似性,投票选择与景观对应的有代表性的图像。
【技术特征摘要】
1.一种多源社交数据融合的多角度旅游信息感知与智能推荐方法,其特征在于包括以下步骤:步骤一、对于目标景区,根据景区名称利用网络爬虫获得旅游社交系统中与所述景区相关的所有评论和游记数据,提取评论中的文本数据、游记中的文本图像数据以及上下文信息,并对文本进行分词预处理,过滤无用的中文停止词,为每个景区建立单独的字典;步骤二、从所有评论文本中挑选至少包含一个景观词且具有...
【专利技术属性】
技术研发人员:郭斌,郭彤,於志文,王柱,周兴社,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。