一种景区网络口碑情感分析方法及装置制造方法及图纸

技术编号:24574436 阅读:34 留言:0更新日期:2020-06-21 00:10
本发明专利技术公开了一种景区网络口碑情感分析方法及装置,其在数据爬取阶段,通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率,保证了数据的可靠性和时效性;在文本分类阶段,评论数据本文特征化表示采用word2vector词向量,可以很好表示词与词之间的关系,文本分类器采用的是文本卷积神经网络,可以有效的学习评论文本的上下信息,这两种算法的有效结合,提高了情感分析的准确率;克服景区网络口碑情感分析准确率不高、时效性差、数据可靠性不高的问题,为游客出行提供参考,帮助景区改善服务质量。

An emotional analysis method and device of online public praise in scenic spots

【技术实现步骤摘要】
一种景区网络口碑情感分析方法及装置
本专利技术涉及人工智能在旅游领域的应用,尤其涉及一种实时高效的景区网络口碑情感分析方法及装置。
技术介绍
近年来随着移动互联网和在线支付的快速发展,游客出行旅游的购买方式逐渐由线下转移到了线上。旅游本身就属于一种体验式消费,这就促使各大旅游网站变成了游客们交流旅游体检,发表景区评论观点的重要平台,而这些游客发表的景区评论数据便形成了景区网络口碑。景区网络口碑成为了影响潜在游客出行意愿的重要因素之一,同时,也是景区管理者把握景区形象,及时调整景区经营管理方案的重要信息来源。因此,急需一种挖掘景区网络口碑情向分析方法,有效的挖掘景区分析景区网络评论,为景区管理者提供专业、精确、有效的景区口碑监测服务,并根据游客的负面情感倾向,针对性的改进区景区服务,提高景区服务质量。随着大数据时代的到来,目前景区口碑情感分析却在准确度/可靠性上并不理想,主要有以下几方面的原因:第一、由于景区评论数据分散着各个平台,并且实时更新,目前的景区口碑情感分析方法难以实现实时的监测多数据源;第二、景区评论数据多为短文本,目前采用的文本特征本文档来自技高网...

【技术保护点】
1.一种景区网络口碑情感分析方法,包括数据爬取阶段和文本分类阶段,其特征在于,/n在数据爬取阶段:通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率;/n在文本分类阶段:评论数据本文特征化表示采用word2vector词向量,文本分类器采用文本卷积神经网络。/n

【技术特征摘要】
1.一种景区网络口碑情感分析方法,包括数据爬取阶段和文本分类阶段,其特征在于,
在数据爬取阶段:通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率;
在文本分类阶段:评论数据本文特征化表示采用word2vector词向量,文本分类器采用文本卷积神经网络。


2.如权利要求1所述的景区网络口碑情感分析方法,其特征在于,具体包括以下步骤:
步骤a、数据收集:通过网络爬虫技术定时的抓取主流旅游平台上的景区评论数据,通过人工打标签的方式标注数据的正负面情感倾向,然后采用三七原则,随机的分隔训练集和测试集;
步骤b、数据预处理:首先,通过正则校验去除文本中的非中文字符,然后对文本进行分词,分词过程中需要构建停用词表和自定义字典;
步骤c、文本特征表示:通过维基语料库对word2vector模型进行训练,保存最优的word2vector模型,然后通过最优word2vector模型将评论数据表示成文本矩阵;
步骤d、建立文本分类器:文本分类器采用文本卷积神经网络,文本卷积神经网络由卷积层、池化层、softmax层组成;
步骤e、模型优化:通过调节文本长度最大输入长度,dropout、批量大小、循环次数等参数,根据准确率、召回率评价指标,选择最优的模型,并保存最优模型参数;
步骤f、情感预测:通过训练好的模型预测爬取的景区评论数据,并自动为这些评论数据打上情感倾向标签;
步骤g、情情感热词挖掘:采用tf-idf算法,挖掘出景区的情感热词,并为热词赋予热度权重。


3.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤a即数据爬取阶段,根据需求配置评论数据的来源渠道网络链接,同时,还可以配置数据的采集频率以及采集时间。


4.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤b,数据数据预处理包括两个步骤:首先,通过正则表达式去除评论文本数据中的非中文字符,主要包括标点符号,表情符、数字、英文等;然后,通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除评论文本数据中一些无意义的词;自定义词典用于景区特殊词汇;停用词表与自定义字典都需要在...

【专利技术属性】
技术研发人员:陶亮亮洪学海张林
申请(专利权)人:上饶市中科院云计算中心大数据研究院
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1