【技术实现步骤摘要】
一种游客在线评论细粒度情感分析方法和系统
[0001]本专利技术涉及智能情感分析
,特别涉及一种基于预训练模型的游客在线评论细粒度情感分析方法和系统。
技术介绍
[0002]随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。而且,随着移动互联网的发展,互联网也在向移动化发展。
[0003]游客通常会在互联网上对旅游目的地各要素做出自己的主观评论。对旅游目的地的评价通常带有丰富的情感色彩和主观性,挖掘游客对旅游目的地各要素的细粒度情感倾向,获取促进和影响旅游目的地的因素,分析好评或差评背后的原因,为旅游经营者和管理者提供决策支持,辅助游客选择出行地和消费产品,提升旅游目的地形象和口碑。
[0004]但是目前还没有一种针对游客在线评论的分析系统和方法出现。
技术实现思路
[0005]本专利技术针对现有技术的缺陷,提供了一种游客在线评论细粒度情感分析方法和系统。对游客评论进行加工处理,把评论分成多个粒度,提取多个属性
‑< ...
【技术保护点】
【技术特征摘要】
1.一种游客在线评论细粒度情感分析方法,其特征在于,包括以下步骤:S1:在网上爬取对应旅游目的地的游客评论数据集;S2:对数据集进行预处理,包括:补充不完整数据、数据清洗和去停用词;其中,补充不完整数据是对缺失的数据进行补充;数据清洗是删除一重复出现或与主题无关的评论;去停用词一般是指去除出现较高频率的无用词;S3:情感分析,包括以下子步骤:S31:属性分类和标记;对预处理好的数据进行分类并标注,进行维度划分,维度包括:饮食、价格、娱乐活动、环境、服务和旅游体验,再对每个维度进行细粒度划分,获取游客评价的对象、实体或属性;找出并标记文本每个属性对应情感词,判断每个属性所表达的情感倾向,分别为积极、消极、中性和未提及,标签值对应为1、
‑
1、0、
‑
2;S32:划分数据集;将数据集随机划分为测试集、训练集和验证集,比例为8:1:1;并对获取的数据集进行测试和训练;S33:文本向量化;将分词的padded tokens转换为词向量,把得到的词向量token_ids、attn_mask、seg_ids输入模型,获取每个单词的向量表示hidden_reps和第一个token的向量表示;S34:属性
‑
情感词提取;使用预训练模型、自注意力机制提取评论文本属性特征;S35:情感分类;利用预训练模型的MLM和NSP进行预训练,对训练输出的第一个toekn的向量进行文本分类,然后利用softmax进行归一化处理,得到每个文本分类的概率,实现情感分类。2.根据权利要求1所述的一种游客在线评论细粒度情感分析方法,其特征在于:对游客评论数据集进行划分,包括:目标层、维度、指标和情感倾向赋值,如下表所示:
每个数据集中包含6个维度:饮食、价格、娱乐活动、环境、服务、旅游体验,每个维度包含2到3个指标;每个指标对应的情感倾向可用正向、负向、中性和未提及表示,具体标签值为1、
‑
1、0和
‑
2。3.根据权利要求1所述的一种游客在线评论细粒度情感分析方法,其特征在于:所述预训练模型包括:输入层、文本表示层、情感特征提取层和输出层;输入层:输入层...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。