结合At_GRU神经网络与情感词典的旅游评价情感分类方法技术

技术编号:20117772 阅读:44 留言:0更新日期:2019-01-16 12:04
本发明专利技术涉及一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法,用以根据游客对该旅行全程的评价文本实现旅游用户对旅游整体的评价语义分类,包括以下步骤:1)情感特征处理阶段:通过构建复合型旅游专用情感词典对旅游评论中的情感特征进行向量化处理;2)数据预处理阶段:对原始评论文本训练词向量并进行上下文向量拼接,将拼接后的向量与向量化后的情感特征进行融合,作为双向GRU神经网络的输入;3)双向GRU文本语义分类模型阶段:训练双向GRU神经网络并对旅游评价情感进行分类。与现有技术相比,本发明专利技术具有精确度高、考虑情感词典的准确度和机器学习的鲁棒性等优点。

At_GRU Neural Network and Emotional Dictionary for Tourist Evaluation Emotional Classification

The present invention relates to an emotional classification method for tourism evaluation based on at_GRU neural network and emotional dictionary, which is used to realize the semantic classification of tourism users'evaluation of tourism as a whole according to the evaluation text of the whole journey by tourists. It includes the following steps: 1) emotional feature processing stage: vectorization of emotional features in Tourism commentary by constructing a composite special emotional dictionary for Tourism Processing; 2) Data preprocessing stage: the original comment text training words Vector and context vector stitching, the stitching vector and vectorized emotional features are fused as input of bidirectional GRU neural network; 3) bidirectional GRU text semantic classification model stage: training bidirectional GRU neural network and classification of tourism evaluation emotions. Compared with the prior art, the invention has the advantages of high accuracy, considering the accuracy of emotion dictionary and robustness of machine learning, etc.

【技术实现步骤摘要】
结合At_GRU神经网络与情感词典的旅游评价情感分类方法
本专利技术涉及自然语言处理及深度学习领域,尤其是涉及一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法。
技术介绍
旅游线路评价是记录游客于旅行网站对某景点制定的特定旅行线路的反馈,是最直接表达旅客对该条旅行线路的满意程度或建议意见,垂直连接旅客与旅游网站的纽带。通过旅游线路评价,旅客可以详细阐述该线路对行程安排、住宿情况、交通安排等供其他旅客借鉴,旅游公司也可以直接听取意见,快速响应改善、调整该条旅行线路等细节,提升服务、加强旅客的满意度。因此快速准确地对旅游线路评价进行详细的分析、处理并得出精准的评价等级及分类可以极大提高旅行线路优化速度,缩短反馈间隙,同时降低人工分析费用并有效提升旅行公司的服务质量。旅游线路评价信息是记录旅客反馈的重要信息,主要表现为短文本形式的自然语言段落。同时近年来,关于自然语言处理技术一直处于高速发展,尤其以文本语义分析作为重要研究对象尤为突出,文本语义分析即对文本进行结构化提取、分析和理解,从语义层面进行关联,从而准确理解文本含义。语义分析方法包括传统方法与深度学习方法,其中深度学习相较于传统方法可以提取更多有效的文本特征,以及更高的准确率。在国内外都有大量学者做过相关研究,何有世提出基于决策树的多特征组合语义挖掘,夏名首等人采用ICTCLAS分词技术以及词频统计进行商品评价特征挖掘,但未能引用深度学习训练,因而也不能很好的提取更精准的特征,李杰等人采用CNN模型进行短文本分析,但未能充分利用上下文语义信息,造成分类不够准确问题。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法。本专利技术的目的可以通过以下技术方案来实现:一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法,用以根据游客对该旅行全程的评价文本实现旅游用户对旅游整体的评价语义分类,包括以下步骤:1)情感特征处理阶段:通过构建复合型旅游专用情感词典对旅游评论中的情感特征进行向量化处理;2)数据预处理阶段:对原始评论文本训练词向量并进行上下文向量拼接,将拼接后的向量与向量化后的情感特征进行融合,作为双向GRU神经网络的输入;3)双向GRU文本语义分类模型阶段:训练双向GRU神经网络并对旅游评价情感进行分类。所述的步骤1)具体包括以下步骤:11)构建复合型旅游专用情感词典:统计多种现有的情感词典,并合并其中的相同极性词语,形成复合型情感词典,分别对复合情感词典和分词后的旅游评价词向量化,并获取词典中每个单词与旅游评价所有单词的欧式距离,选择距离相近的作为相近同类情感词,融合形成复合型旅游专用情感词典;12)语义逻辑规则处理:读取旅游评论,以中英文标点符号作为分句标识对评论进行分句,并根据分句的词性获取每个分句的情感值M(m1,m2,m3,m4,m5),m1-m5分别为该分句中是否包含否定词、程度副词和情感词,最后结合每个分句的情感值作为该条评论的情感极性;13)情感特征向量化:将处理好的分句的情感极性进行增维并向量化。所述的步骤11)中,现有的情感词典包括清华大学词典、知网Hownet情感词典和台湾大学简体中文情感词典。所述的步骤2)具体包括以下步骤:21)分词、去除停用词以及训练词向量:将原始评论文本信息定义为S,包含构成的词语集W(w1,w2,...,wn),n为句子S的词语数量,采用ICTCLAS工具对原始评论文本分词后并去除停用词,采用Word2vec工具对词语集W(w1,w2,...,wn)进行词向量训练,每个词语wi表示为50维度的词向量形式;22)结合拼接上下文向量:定义句子中第i个单词wi左边包含的所有剩余句子信息为Cl(wi),右边剩余句子信息为Cr(wi),将其转化为词向量后生成结合拼接后的50维度词向量;23)特征向量融合:将结合拼接后的50维度词向量和向量化后的情感特征进行数量积处理融合形成最终的55维度词向量,并将其作为GRU网络的输入。所述的步骤22)中,具体的定义表达式为:cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))其中,W(l)W(r)为将隐藏层,即上下文转换为下一个隐藏层的矩阵,W(sl)为用于组合当前单词与下一个单词左边文本关系语义的矩阵,W(sr)为用于组合当前单词与上一个单词右边文本关系语义的矩阵,f为非线性激活函数,cl(wi-1)为第i-1个单词wi-1左边包含的所有剩余句子信息,e(wi-1)为第i-1个单词wi-1的词向量形式,e(wi+1)为第i+1个单词wi+1的词向量形式,cr(wi+1)为第i+1个单词wi+1右边包含的所有剩余句子信息。所述的步骤3)具体包括以下步骤:31)训练双向GRU网络:构建双向GRU网络,将55维度词向量训练集分别从句子正向与反向载入At_GRU模型中,并进行参数调优完成训练;32)对于已训练完成的双向GRU网络模型,将新的旅游用户评价进行数据预处理成为词向量,并载入模型中进行情感分类,实现对每条用户评价的自然语言情感分析,最终展现形式为在导游服务、是否强制消费、交通线路、行程安排和住宿餐饮5个维度的进行满意、一般、不满意三种程度的情感极性分类,并分别用1,0,-1表示,展现每条旅游线路旅客对该5个维度的体验反馈。与现有技术相比,本专利技术具有以下优点:一、通过构建旅游专属词典,提供了极大的神经网络的训练语料库,相比原有的通用情感词典,更能增加分类精度。二、通过词向量拼接形式加强上下文语义联系并结合基于语义逻辑规则产生的情感极性特征,通过特定融合公式,产生全新的特征向量。使其既有情感词典的准确度也有机器学习的鲁棒性。三、通过双向GRU神经网络训练,相比传统单向神经网络,正向反向更能有效解析句子的语义信息。附图说明图1为语义逻辑结构图。图2为词向量上下文拼接结构图。图3模型框架结构流程图。具体实施方式本专利技术提出一种高精确度、具有学习性的结合At_GRU神经网络与情感词典的旅游评价情感分类方法,如图3所示,包括三个大步骤:一、情感特征处理阶段(1)旅游情感词典构建:统计清华大学词典、知网Hownet情感词典、台湾大学简体中文情感词典等多种情感词典,合并相同极性词语、丰富不同极性词语,完善打造复合型情感词典,之后分别词向量化复合情感词典与分词后的旅游评价,并计算词典中每个单词与旅游评价所有单词的欧式距离,选择距离相近的作为相近同类情感词,并最后融合打造复合型旅游专用情感词典。(2)语义逻辑规则处理:读取每一条旅游评论,以中英文标点符号(.。,,??!!)作为分句标识对评论进行分句;对评论的每个分句获取情感值,计算分析过程如图1所示,图中,Y表示情感值为1,N表示情感值为0,对每个分句的情感值在是否含有否定词、程度副词、情感词、感叹句、反问句维度进行分析,积极的用“1”表示,消极的用“-1”表示,中立用“0”表示,并形成5维向量作为该条评论的情感极性向量。(3)情感特征向量化:将处理好的分句的情感极性进行增维并词向量化。二、数据预处理阶段(1)分词、停用词去除及词向量训练:将原始文本信息定义为本文档来自技高网...

【技术保护点】
1.一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法,用以根据游客对该旅行全程的评价文本实现旅游用户对旅游整体的评价语义分类,其特征在于,包括以下步骤:1)情感特征处理阶段:通过构建复合型旅游专用情感词典对旅游评论中的情感特征进行向量化处理;2)数据预处理阶段:对原始评论文本训练词向量并进行上下文向量拼接,将拼接后的向量与向量化后的情感特征进行融合,作为双向GRU神经网络的输入;3)双向GRU文本语义分类模型阶段:训练双向GRU神经网络并对旅游评价情感进行分类。

【技术特征摘要】
1.一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法,用以根据游客对该旅行全程的评价文本实现旅游用户对旅游整体的评价语义分类,其特征在于,包括以下步骤:1)情感特征处理阶段:通过构建复合型旅游专用情感词典对旅游评论中的情感特征进行向量化处理;2)数据预处理阶段:对原始评论文本训练词向量并进行上下文向量拼接,将拼接后的向量与向量化后的情感特征进行融合,作为双向GRU神经网络的输入;3)双向GRU文本语义分类模型阶段:训练双向GRU神经网络并对旅游评价情感进行分类。2.根据权利要求1所述的一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法,其特征在于,所述的步骤1)具体包括以下步骤:11)构建复合型旅游专用情感词典:统计多种现有的情感词典,并合并其中的相同极性词语,形成复合型情感词典,分别对复合情感词典和分词后的旅游评价词向量化,并获取词典中每个单词与旅游评价所有单词的欧式距离,选择距离相近的作为相近同类情感词,融合形成复合型旅游专用情感词典;12)语义逻辑规则处理:读取旅游评论,以中英文标点符号作为分句标识对评论进行分句,并根据分句的词性获取每个分句的情感值,结合每个分句的情感值作为该条评论的情感极性;13)情感特征向量化:将处理好的分句的情感极性进行增维并向量化。3.根据权利要求2所述的一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法,其特征在于,所述的步骤11)中,现有的情感词典包括清华大学词典、知网Hownet情感词典和台湾大学简体中文情感词典。4.根据权利要求1所述的一种结合At_GRU神经网络与情感词典的旅游评价情感分类方法,其特征在于,所述的步骤2)具体包括以下步骤:21)分词、去除停用词以及训练词向量:将原始评论文本信息定义为S,包含构成的词语集W(w1,w2,...,wn),n为句子S的词语数量,采用ICTCLAS工具对原始评论文本分词后并去除停用词,采用Word2vec工具对词语集W(w1,w2,...,wn)进行词向量训...

【专利技术属性】
技术研发人员:曹渝昆巢俊乙
申请(专利权)人:上海电力学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1