一种旅游热点事件检测方法及系统技术方案

技术编号:16128886 阅读:32 留言:0更新日期:2017-09-01 20:53
本发明专利技术提供了一种旅游热点事件检测方法及系统,其中方法包括:预先设置旅游专业知识库,获取网络文本数据;根据所述网络文本数据聚类热点词汇;匹配所述热点词汇和所述旅游专业知识库,计算相似度;根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。本方案能够使得最终的热点聚类结果更加准确。

Method and system for detecting hot spots of Tourism

The present invention provides a method and system for detecting a tourist spot, wherein the method comprises the following steps: pre setting the tourism professional knowledge base, access network text data; according to the network text data clustering, the hot focus of vocabulary; vocabulary and the tourism professional knowledge base, similarity calculation; according to the weight, the similarity set hot vocabulary clustering, to obtain the tourism hot events. This scheme can make the final hot spot clustering more accurate.

【技术实现步骤摘要】
一种旅游热点事件检测方法及系统
本专利技术涉及数据检测
,尤其涉及一种旅游热点事件检测方法及系统。
技术介绍
当前国内经济形势呈上升趋势,旅游业也随之蓬勃发展,旅游行业信息成为炙手可热的商业数据。对旅游行业信息进行数据挖掘,可以为旅游从业者提供策略咨询,可以为旅游监管部门提供宏观分析,还可以对整个旅游行业做前景预测,具有非常大的市场意义。当前旅游业发展出现游客量随旅游热点事件井喷式爆发的趋势,挖掘旅游热点事件成为热门的研究课题。目前,现有的旅游热点事件检测大多数采用对网络文本数据进行文本聚类的方法,从聚类结果中提取出热点信息。然而,大多数的热点提取过程,并没有采用专业的旅游专业知识为指导,使得最终的热点聚类结果不够准确。
技术实现思路
有鉴于此,本专利技术要解决的技术问题是提供一种旅游热点事件检测方法及系统,能够使得最终的热点聚类结果更加准确。本专利技术的技术方案是这样实现的:第一方面,本专利技术实施例提供了一种旅游热点事件检测方法,包括:预先设置旅游专业知识库,还包括以下步骤:步骤1:获取网络文本数据;步骤2:根据所述网络文本数据聚类热点词汇;步骤3:匹配所述热点词汇和所述旅游专业知识库,计算相似度;步骤4:根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。优选的,在所述步骤2之前,还包括:清洗所述网络文本数据。优选的,在所述清洗所述网络文本数据之后,还包括:将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。优选的,所述根据所述网络文本数据聚类热点词汇包括:根据划分聚类算法,将所述数值向量聚类出热点词汇。优选的,所述相似度计算方法为:其中,same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。第二方面,本专利技术实施例提供了一种旅游热点事件检测系统,包括:设置模块,用于预先设置旅游专业知识库;获取模块,用于获取网络文本数据并发送至聚类模块;所述聚类模块,用于根据所述网络文本数据聚类热点词汇;计算模块,用于匹配所述热点词汇和所述旅游专业知识库,计算相似度;预测模块,用于根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。优选的,还包括清洗模块,所述清洗模块,用于清洗所述网络文本数据。优选的,还包括分词模块所述分词模块,用于将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。优选的,所述聚类模块包括聚类单元;所述聚类单元,用于根据划分聚类算法,将所述数值向量聚类出热点词汇。优选的,所述预测模块包括预测单元;所述计算单元用于计算相似度,所述相似度计算如下:其中,same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。本专利技术提出的旅游热点事件检测方法及系统,通过在聚类热点词汇之后,根据旅游专业知识库计算热点词汇相似度并分配权重,使得旅游热点词汇能够在聚类过程中,占有更高的聚类权重,从而明确了旅游热点聚类的需求方向,保证了聚类分析结果的准确性。附图说明图1为本专利技术实施例提出的旅游热点事件检测方法的流程图;图2为本专利技术另一实施例提出的旅游热点事件检测方法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提出了一种旅游热点事件检测方法,包括以下步骤:步骤101:预先设置旅游专业知识;步骤102:获取网络文本数据;步骤103:根据所述网络文本数据聚类热点词汇;步骤104:匹配所述热点词汇和所述旅游专业知识库,计算相似度;步骤105:根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。可见,本专利技术实施例提出的旅游热点事件检测方法,通过在聚类热点词汇之后,根据旅游专业知识库计算热点词汇相似度并分配权重,使得旅游热点词汇能够在聚类过程中,占有更高的聚类权重,从而明确了旅游热点聚类的需求方向,保证了聚类分析结果的准确性。在本专利技术的一个优选实施例中,由于无用字符会对聚类结果产生噪声影响,提升聚类的维度,占用系统内存,降低算法效率,因此可以在聚类文本之前,清洗所述网络文本数据。其中,清洗所述网络文本数据包括将emoji、网络标号、标点、连词、介词、特殊字符等从文本中去除。在本专利技术的一个优选实施例中,在所述清洗所述网络文本数据之后,还包括:将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。在本专利技术的一个优选实施例中,根据所述网络文本数据聚类热点词汇包括:根据划分聚类算法,将所述数值向量聚类出热点词汇。在本专利技术的一个优选实施例中,相似度计算方法为:其中,same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。本专利技术实施例提出了一种旅游热点事件检测方法,如图2所示,包括以下步骤:步骤201:预先设置旅游专业知识。步骤202:获取网络文本数据。其中,可以采用网络爬虫工具从各大网络新闻平台、社交平台等爬取海量的旅游热点新闻数据。步骤203:清洗所述网络文本数据。由于无用字符会对聚类结果产生噪声影响,提升聚类的维度,占用系统内存,降低算法效率,因此可以在聚类文本之前,清洗所述网络文本数据。其中,清洗所述网络文本数据包括将emoji、网络标号、标点、连词、介词、特殊字符等从文本中去除。步骤204:将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。其中,将词向量转换为数值向量可以采用TF-IDF算法。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。TF-IDF实际上是:TF*IDF,TF词频(TermFrequency),IDF逆向文件频率(InverseDocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。TF和IDF的计算方法如下:其中,nij代表词ti在文档dj中的出现的次数,分母则是所有词在文档dx中出现的次数之和。而其中,|D|指语料库中出现的文件总数,而|{j:ti∈dj}|指包含词ti的文件数目,为保证分母不为零,一般使用1+|{j:ti∈dj}|。最后,计算TF-IDFij=TFij×IDFi某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。步骤205:根据所述网络文本数据聚类热点词汇。其中,本实施例中可以采用K-means聚类算法,K-means均值算法是一种典型的划分聚类算法,即将所有样本划分到距离最近的均值中心点。算法先设初始聚类个数K和K个中心点,将所有样本划分到距离最近的中心点所在的簇,然后更新中心点,中心点即所有簇内样本的总和均值。重复上述过程,直到中心点不再变化,即表示聚类结束。其中,距离一般采用欧式距离计算:其本文档来自技高网...
一种旅游热点事件检测方法及系统

【技术保护点】
一种旅游热点事件检测方法,其特征在于,包括:预先设置旅游专业知识库,还包括以下步骤:步骤1:获取网络文本数据;步骤2:根据所述网络文本数据聚类热点词汇;步骤3:匹配所述热点词汇和所述旅游专业知识库,计算相似度;步骤4:根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。

【技术特征摘要】
1.一种旅游热点事件检测方法,其特征在于,包括:预先设置旅游专业知识库,还包括以下步骤:步骤1:获取网络文本数据;步骤2:根据所述网络文本数据聚类热点词汇;步骤3:匹配所述热点词汇和所述旅游专业知识库,计算相似度;步骤4:根据所述相似度设置热点词汇的权重,重新聚类,获取旅游热点事件。2.如权利要求1所述的旅游热点事件检测方法,其特征在于,在所述步骤2之前,还包括:清洗所述网络文本数据。3.如权利要求2所述的旅游热点事件检测方法,其特征在于,在所述清洗所述网络文本数据之后,还包括:将所述网络文本数据进行分词,生成词向量,并将所述词向量转换为数值向量。4.如权利要求3所述的旅游热点事件检测方法,其特征在于,所述根据所述网络文本数据聚类热点词汇包括:根据划分聚类算法,将所述数值向量聚类出热点词汇。5.如权利要求1-4任一项所述的旅游热点事件检测方法,其特征在于,所述相似度计算方法为:其中,same(a,b)表示集合a和b之间的共有元素数量,sum(a,b)表示集合a和b非重复元素总和。6.一种旅游热点事件检测系统,其特征在于,包括:...

【专利技术属性】
技术研发人员:李震川庞子龙曹磊王子剑陈龙严武
申请(专利权)人:上海诺悦智能科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1