细粒度情感分析方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:22689089 阅读:40 留言:0更新日期:2019-11-30 03:40
本发明专利技术公开了一种细粒度情感分析方法、装置、计算机设备及存储介质,该方法包括:获取源领域数据集和目标领域数据集,源领域数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;搭建情感分析初始模型;将源领域数据集的评论文本序列和评论标签序列进行向量化;将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型;利用情感分析预训练模型在目标领域数据集上进行训练,微调情感分析预训练模型的参数,得到细粒度情感分析模型;对待分析文本进行处理,在处理后输入细粒度情感分析模型,进行细粒度情感分析,输出得到情感分析结果。本发明专利技术可以克服中文细粒度情感分析数据集缺乏的困难。

Fine grained emotion analysis methods, devices, computer equipment and storage media

The invention discloses a fine-grained emotion analysis method, device, computer device and storage medium, the method includes: obtaining the source domain data set and the target domain data set, each data in the source domain data set is the ternary group format data of comment text, comment label and comment score, building the initial model of emotion analysis, and sequencing the comment text of the source domain data set And comment tag sequence for vectorization; input the vectorized comment text sequence and comment tag sequence into the initial model of emotional analysis for training, and get the pre training model of emotional analysis; use the pre training model of emotional analysis to train on the data set of the target domain, micro tune the parameters of the pre training model of emotional analysis, and get the fine-grained emotional analysis model; treat the analyzed text After processing, we input the fine-grained emotion analysis model, conduct the fine-grained emotion analysis, and output the emotion analysis results. The invention can overcome the difficulty of lacking Chinese fine-grained sentiment analysis data set.

【技术实现步骤摘要】
细粒度情感分析方法、装置、计算机设备及存储介质
本专利技术涉及一种细粒度情感分析方法、装置、计算机设备及存储介质,属于情感分析、深度学习及迁移学习领域。
技术介绍
情感分析(SentimentAnalysis),又可称为意见挖掘(OpinionMining)、意见倾向性分析(OpinionAnalysis)等,是一门结合自然语言处理、数据挖掘、心理学、语言学等的交叉学科,对带有主观情感极性的信息进行判别和挖掘。情感分析按照粒度可以分为粗粒度及细粒度两大类。其中,粗粒度一般包含文档级和句子级。文档级别的情感分析是将文档作为一个整体的研究对象,分析其整体表现的情感极性,属于正向的、负向的还是中性的。句子级的情感分析比文档级的要更具体、细致,句子级情感分析在判别一个句子的情感极性之前,首先要判断该句子是属于主观句还是客观句。主观句是用户情感表达的直接句子,而客观句是陈述客观对象的句子,不含有情感极性,故其不应作为情感分析的句子。粗粒度的情感分析虽然能够快速挖掘正负类观点,但在粗粒度范畴下忽略了对更具体方面、属性的考虑,导致情感极性判定不准确情况,也无法知道用户发表观点的主因。细粒度就是为了研究客体更具体化属性的情感分析而提出来的。细粒度的情感分析能深入地挖掘评论者对评论对象不同属性(aspect)的态度,能够表现出更具体、更多的信息,这种细粒度的评价对象也可能成为属性。例如对于餐厅点评,用户可以对餐厅的服务态度、菜品、上菜速度等多种属性进行评论,商家可以从评论的具体属性中发现用户对商家各方面的评价,从中可以发现自己的优势以及缺点,为进一步的推广、宣传以及提升自身竞争力提供有说服力的数据。细粒度情感分析固然有重要意义,但其数据集的获取和算法上更加棘手,体现在需要对每一条评论不同的属性进行合理的打标签以及对于属性的提取。粗粒度情感分析的研究已经称为研究的热点,2016年,Wang等在细粒度情感分析中,利用注意力机制来提取评论对象的属性,然后利用长短时记忆网络(Long-ShortTermMemoryNetwork,LSTM)进行情感分析,其提出的基于词嵌入及注意力机制的模型获得较好的效果。Kai等基于语法解析树提出了一种树形LSTM,将语义信息与句法依存关系、短语构成等信息结合起来,完成短语级别情感分析。Tang等基于神经网络不能确定对某个细粒度属性更重要的上下文信息的缺点,提出了记忆网络,利用记忆网络捕捉不同上下文对于不同细粒度属性的重要性。中文的细粒度情感分析一直是一个棘手的问题,一方面是因为当前没有一个权威、公开的中文细粒度情感分析数据集,使得相关的研究非常少;另一方面是细粒度情感分析的关键是从文本中识别细粒度的属性。
技术实现思路
有鉴于此,本专利技术提供了一种细粒度情感分析方法、装置、计算机设备及存储介质,其使用的源领域数据集包括评论标签,可以为细粒度情感分析学习提供了天然的大量样本,从而克服中文细粒度情感分析数据集缺乏的困难。本专利技术的第一个目的在于提供一种细粒度情感分析方法。本专利技术的第二个目的在于提供一种细粒度情感分析装置。本专利技术的第三个目的在于提供一种计算机设备。本专利技术的第四个目的在于提供一种存储介质。本专利技术的第一个目的可以通过采取如下技术方案达到:一种细粒度情感分析方法,所述方法包括:获取源领域数据集和目标领域数据集;其中,所述数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;搭建情感分析初始模型;将源领域数据集的评论文本序列和评论标签序列进行向量化;将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型;利用情感分析预训练模型在目标领域数据集上进行微调训练,得到细粒度情感分析模型;对待分析文本进行分词、去停用词处理,在处理后输入细粒度情感分析模型,进行细粒度情感分析,输出得到情感分析结果。进一步的,所述情感分析初始模型包括双向长短期记忆网络层、注意力机制层和全连接层;所述将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型,具体包括:将向量化后的评论文本序列输入双向长短期记忆网络层,经特征映射后得到序列规律信息;将向量化后的评论文本序列、向量化后的评论标签序列和序列规律信息输入注意力机制层,对序列规律信息的各个元素进行加权,得到输出序列;将输出序列输入全连接层,输出预测结果,并对情感分析初始模型的参数进行优化,得到情感分析预训练模型。进一步的,所述对序列规律信息的各个元素进行加权,得到输出序列,如下:S=α1h1,α2h2,...,αnhn其中,S为输出序列,(h1,h2,...,hn)为序列规律信息;(α1,α2,...,αn)为权重,其计算公式如下:其中,1≤i≤n,1≤j≤n;wi为向量化后的评论文本序列;score为得分函数,其计算公式如下:score(T,wi)=vTtanh(WhT+WTwi+b)其中,vT、Wh、WT为待学习的参数矩阵,b为注意力机制层的偏置值;Ti为向量化后的评论标签序列,1≤i≤n。进一步的,所述将输出序列输入全连接层,输出预测结果,具体包括:在全连接层中,输出序列经过一个ReLu层的映射,如下:S′=ReLu(WS+b)其中,S为输出序列,S′为经过一个ReLu层映射得到的序列,W为待学习的参数矩阵,b为ReLu层的偏置值;在全连接层最后的输出层中利用softmax函数进行映射,得到预测结果,如下:其中,W′为待学习的参数矩阵,b′为全连接层最后的输出层的偏置值。进一步的,所述获取源领域数据集,具体包括:从互联网上爬取带有评论标签的评论文本;对评论文本和评论标签进行分词、去停用词处理,在处理后以评论文本、评论标签、评论分数的三元组格式进行存储,得到源领域数据集。进一步的,所述从互联网上爬取带有评论标签的评论文本,具体为:采用Scrapy分布式爬虫框架从互联网上爬取带有评论标签的评论文本;对评论文本和评论标签进行分词,具体为:采用开源的结巴分词工具对评论文本和评论标签进行分词;其中,评论标签分词后最大的长度为2。进一步的,所述将源领域数据集的评论文本序列和评论标签序列进行向量化,具体为:采用词向量工具word2vec将源领域数据集的评论文本序列和评论标签序列映射到维度为300的词向量空间中。本专利技术的第二个目的可以通过采取如下技术方案达到:一种细粒度情感分析装置,所述装置包括:获取模块,用于获取源领域数据集和目标领域数据集;其中,所述源领域数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;搭建模块,用于搭建情感分析初始模型;向量化模块,用于将源领域数据集的评论文本序列和评论标签序列进行向量化;预训练模块,用于将向量化后的评论文本向量本文档来自技高网
...

【技术保护点】
1.一种细粒度情感分析方法,其特征在于,所述方法包括:/n获取源领域数据集和目标领域数据集;其中,所述源领域数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;/n搭建情感分析初始模型;/n将源领域数据集的评论文本序列和评论标签序列进行向量化;/n将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型;/n利用情感分析预训练模型在目标领域数据集上进行微调训练,得到细粒度情感分析模型;/n对待分析文本进行分词、去停用词处理,在处理后输入细粒度情感分析模型,进行细粒度情感分析,输出得到情感分析结果。/n

【技术特征摘要】
1.一种细粒度情感分析方法,其特征在于,所述方法包括:
获取源领域数据集和目标领域数据集;其中,所述源领域数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;
搭建情感分析初始模型;
将源领域数据集的评论文本序列和评论标签序列进行向量化;
将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型;
利用情感分析预训练模型在目标领域数据集上进行微调训练,得到细粒度情感分析模型;
对待分析文本进行分词、去停用词处理,在处理后输入细粒度情感分析模型,进行细粒度情感分析,输出得到情感分析结果。


2.根据权利要求1所述的细粒度情感分析方法,其特征在于,所述情感分析初始模型包括双向长短期记忆网络层、注意力机制层和全连接层;
所述将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型,具体包括:
将向量化后的评论文本序列输入双向长短期记忆网络层,经特征映射后得到序列规律信息;
将向量化后的评论文本序列、向量化后的评论标签序列平均值和序列规律信息输入注意力机制层,对序列规律信息的各个元素进行加权,得到输出序列;
将输出序列输入全连接层,输出预测结果,并对情感分析初始模型的参数进行优化,得到情感分析预训练模型。


3.根据权利要求2所述的细粒度情感分析方法,其特征在于,所述对序列规律信息的各个元素进行加权,得到输出序列,如下:
S=α1h1,α2h2,...,αnhn
其中,S为输出序列,(h1,h2,...,hn)为序列规律信息;(α1,α2,...,αn)为权重,其计算公式如下:



其中,1≤i≤n,1≤j≤n;wi为向量化后的评论文本序列;score为得分函数,其计算公式如下:
score(T,wi)=vTtanh(WhT+WTwi+b)
其中,vT、Wh、WT为待学习的参数矩阵,b为注意力机制层的偏置值;Ti为向量化后的评论标签序列,1≤i≤n。


4.根据权利要求2所述的细粒度情感分析方法,其特征在于,所述将输出序列输入全连接层,输出预测结果,具体包括:
在全连接层中,输出序列经过一个ReLu层的映射,如下:
S′=ReLu(WS+b)
其中,S为输出序列,S′为经过一个ReLu层映射得到的序列,W为待学习的参数矩阵,b为R...

【专利技术属性】
技术研发人员:吴泽宏柯宗庆黄佐华
申请(专利权)人:蓝盾信息安全技术股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1