基于深度学习的旅游景点评论情感分析方法技术

技术编号:30650296 阅读:22 留言:0更新日期:2021-11-04 01:08
本发明专利技术提出了一种基于深度学习的旅游景点评论情感分析方法,结合旅游景点作为研究对象,从游客对旅游景点的文本评论中,识别出旅游景点现状的问题和痛点。本发明专利技术利用网络公开的景点评论数据,结合文本语言的分句、分词方法,对文本语句进行语义切割,建立分析的词汇库,判断语句的情感指向,进而提取分词列表的词汇,分析情感正负面,对词汇进行基本聚类,再通过共词矩阵对分类进行补充和完善,最后形成旅游目的地认知的反馈结果。本发明专利技术利用共词矩阵对聚类结果进行矫正和重定向,降低学习成本,聚类过程中只需要认定词性无需自制训练集,无监督环境下的聚类结果高度聚合,提高了文本聚类分析的效率和精准度。文本聚类分析的效率和精准度。文本聚类分析的效率和精准度。

【技术实现步骤摘要】
基于深度学习的旅游景点评论情感分析方法


[0001]本专利技术涉及旅游景点评价及文本情感分析
,提出了一种基于深度学习的旅游景点评论情感分析方法。

技术介绍

[0002]提升景区环境和管理是旅游景区稳定客源、保持竞争优势的重要手段。游客满意度对于景区环境和管理提升紧密相关,因此掌握旅游景区游客满意度的具体影响因素,提高游客满意度,对于保证稳定客源、科学管理景区一级持续开拓市场具有重要作用。游客游览景区后发表的评论文字最为直接反映游客对于旅游目的地的游览感受和认知,与传统的问卷调查相比,网络空间更为开放和共享,旅游者游览后对旅游目的地的网络评价信息最为真实客观反映旅游景区的市场形象。
[0003]目前,利用采用网络文本探究旅游景区的市场形象逐渐被应用,但是大多以词频分析为主,分析手段较为单一,现有文本评论方法深度学习成本高,训练集量需求大,聚类时间过长且结果不够精准,随着机器学习方法的进步,在方法上可以借助新型的计算方法进行情感分析和聚类研究,分析游客对景区的旅游形象感知。

技术实现思路

[0004]本专利技术所要解决的技术问题是:为了克服现有方法的不足,进行研究方法上的创新,通过梳理所有旅游景点评论数据作为数据本底,而提出一种基于深度学习的旅游景点评论情感分析方法。
[0005]本专利技术为解决以上技术问题,采用以下技术手段:本专利技术提出一种基于深度学习的旅游景点评论情感分析方法,包括:步骤1、整理旅游景点评论数据,并对评论数据进行清洗;步骤2、结合文本语言的分句、分词方法,对文本语句进行语义切割,建立用于分析的词汇库;步骤3、判断语句的情感指向,进而提取分词列表的词汇,分析情感正负面,获取情感指向词汇;步骤4、对情感指向词汇进行基本聚类,再通过共词矩阵对分类进行补充和完善,最后形成旅游目的地认知的反馈结果。
[0006]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,步骤1中整理旅游景点评论数据,是将原始景点评论文本数据整理成结构化数据,包括景点名称、评论内容、评论时间、评论者昵称信息。
[0007]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,步骤1对旅游景点评论数据进行清洗。具体如下:(101)、通过程序语言对评论数据进行去重处理;(102)、对原始数据进行观察判断,采用广告文本作为训练集,将景区评论信息作
为验证集进行朴素贝叶斯分类,剔除掉广告类型文本。
[0008]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,朴素贝叶斯分类的训练过程,是基于训练集来估计类鲜艳概率,并为每个属性估计条件概率;朴素贝叶斯分类器具体公式如下:其中P(c)为先验概率,根据以前的知识和经验得出的c类样本出现的概率,与现在无关;P(c|x)表示后验概率,相对于先验概率而言,表示x 属于c类的概率;d为属性数目;P(xi|c)为条件概率。
[0009]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,步骤2所述对文本语句进行语义切割,是指对旅游景点评论进行分句分词处理,具体做法如下:(201)、通过文本断点对所有景点评论进行断句,将每一句文本记录拆解为若干条记录,以尽可能保留文本记录里所有信息;(202)、对语句进行分词,将分词结果保存进数据框架的分词列,最终将每一个分句解析成无标点、用空格间隔开的分词列表。
[0010]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,步骤3中判断语句的情感指向,是采用SnowNLP算法对每一个分句进行语句情感指向分析,具体为:首先将景点存在的问题描述与正负面情感语言植入数据库,用其作为训练数据做出参考集并生成序列化的数据字典,用修正后的数据字典进行更精确的情感指向判断。
[0011]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,步骤3中获取情感指向词汇,对情感为正面和负面的分词结果进行词频统计得到所有的正面和负面词汇,对单一词汇进行情感指向正负面分析,以此获取直接导致正负面的词汇。
[0012]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,步骤4对情感指向词汇进行基本聚类,具体操作步骤如下:(1)将每一个分词列表做TF

IDF运算,TF

IDF = TF* IDF,TF是指词频,IDF则是逆文档频率,即文档频率的倒数;TF

IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比,得出全词汇在全文里的重要性排名;(2)将已有的正负面情感指向词汇在经过TF

IDF运算后形成的向量数值空间进行比对后,保留情感指向词汇和相应的向量关系;采用DBSCAN方法对情感指向词汇进行基本聚类,得到情感指向词汇聚类初步结果;DBSCAN聚类具体公式如下:其中Count
i
为点i的邻域ε内点的数量,MintPts为簇最小点数,n为对象数量。
[0013]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,步骤4通过共词矩阵对分类进行补充和完善,即对分类后的情感指向词汇进行重定向,具体为:
利用包括分词列表、TF

IDF的已有数据构建词频靠前的词汇共现矩阵,识别每个情感指向词汇共现频率较高的词汇分类补充,并将这些词汇去重找到共现的词汇用以补充每个分类的正负面词汇,最后经过去重和校正,得到旅游景点问题反馈的聚类清单;将重定向后的负面词汇聚类清单,反馈到旅游景点评论中,即可得到引起游客负面评论的词汇和分类。
[0014]进一步的,本专利技术所提出的一种基于深度学习的旅游景点评论情感分析方法,其中共词矩阵统计公式如下:其中,E
ij
代表词对M
i
和M
j
在评论集合中的数量,C
i
表示主题词M
i
在评论集合中出现的频次,C
j
表示主题词M
j
在评论集合汇总出现的频次,E
ij
是主题词M
i
和M
j
的相互包容值,取值在0

1之间。相互包容值越高,表明两个词依存度越大,即在评论中共现的几率越高。
[0015]本专利技术采用以上技术方案,与现有技术相比的有益效果在于:该方法利用共词矩阵对聚类结果进行矫正和重定向,降低学习成本,聚类过程中只需要认定词性无需自制训练集,无监督环境下的聚类结果高度聚合,提高了文本聚类分析的效率和精准度,有效识别游客的景点认知,反馈景区环境提升。
附图说明
[0016]图1为本专利技术实施的方法流程图。
[0017]图2为本专利技术实施例子中旅游评论文本情感指向示意图。
[0018]图3为本专利技术实施例中旅游评论文本中词汇聚类结果。
具体实施方式
[0019]下面结合附图对本专利技术的技术方案做进一步的详细说明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的旅游景点评论情感分析方法,其特征在于,包括:步骤1、整理旅游景点评论数据,并对评论数据进行清洗;步骤2、结合文本语言的分句、分词方法,对文本语句进行语义切割,建立用于分析的词汇库;步骤3、判断语句的情感指向,进而提取分词列表的词汇,分析情感正负面,获取情感指向词汇;步骤4、对情感指向词汇进行基本聚类,再通过共词矩阵对分类进行补充和完善,最后形成旅游目的地认知的反馈结果。2.根据权利要求1所述的一种基于深度学习的旅游景点评论情感分析方法,其特征在于,步骤1中整理旅游景点评论数据,是将原始景点评论文本数据整理成结构化数据,包括景点名称、评论内容、评论时间、评论者昵称信息。3.根据权利要求1所述的一种基于深度学习的旅游景点评论情感分析方法,其特征在于,步骤1对旅游景点评论数据进行清洗,具体如下:(101)、通过程序语言对评论数据进行去重处理;(102)、对原始数据进行观察判断,采用广告文本作为训练集,将景区评论信息作为验证集进行朴素贝叶斯分类,剔除掉广告类型文本。4.根据权利要求3所述的一种基于深度学习的旅游景点评论情感分析方法,其特征在于,朴素贝叶斯分类的训练过程,是基于训练集来估计类鲜艳概率,并为每个属性估计条件概率;朴素贝叶斯分类器具体公式如下:其中P(c)为先验概率,根据以前的知识和经验得出的c类样本出现的概率,与现在无关;P(c|x)表示后验概率,相对于先验概率而言,表示x 属于c类的概率;d为属性数目;P(xi|c)为条件概率。5.根据权利要求1所述的一种基于深度学习的旅游景点评论情感分析方法,其特征在于,步骤2所述对文本语句进行语义切割,是指对旅游景点评论进行分句分词处理,具体做法如下:(201)、通过文本断点对所有景点评论进行断句,将每一句文本记录拆解为若干条记录,以尽可能保留文本记录里所有信息;(202)、对语句进行分词,将分词结果保存进数据框架的分词列,最终将每一个分句解析成无标点、用空格间隔开的分词列表。6.根据权利要求1所述的一种基于深度学习的旅游景点评论情感分析方法,其特征在于,步骤3中判断语句的情感指向,是采用SnowNLP算法对每一个分句进行语句情感指向分析,具体为:首先将景点存在的问题描述与正负面情感语言植入数据库,用其作为训练数据做出参考集并生成序列化的数据字典,用修正后的数据字典进行更精确的情感指向判断。7.根据权利要求6所述的一种基于深度学习的旅游景点评论情感分析方法,其特征在于,步骤3中获取情感指向词汇,对情感为正面和负面的分词结果进行词频...

【专利技术属性】
技术研发人员:蒋金亮
申请(专利权)人:江苏省城市规划设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1