The invention discloses a fine-grained emotion analysis method, device, computer device and storage medium, the method includes: obtaining the source domain data set and the target domain data set, each data in the source domain data set is the ternary group format data of comment text, comment label and comment score, building the initial model of emotion analysis, and sequencing the comment text of the source domain data set And comment tag sequence for vectorization; input the vectorized comment text sequence and comment tag sequence into the initial model of emotional analysis for training, and get the pre training model of emotional analysis; use the pre training model of emotional analysis to train on the data set of the target domain, micro tune the parameters of the pre training model of emotional analysis, and get the fine-grained emotional analysis model; treat the analyzed text After processing, we input the fine-grained emotion analysis model, conduct the fine-grained emotion analysis, and output the emotion analysis results. The invention can overcome the difficulty of lacking Chinese fine-grained sentiment analysis data set.
【技术实现步骤摘要】
细粒度情感分析方法、装置、计算机设备及存储介质
本专利技术涉及一种细粒度情感分析方法、装置、计算机设备及存储介质,属于情感分析、深度学习及迁移学习领域。
技术介绍
情感分析(SentimentAnalysis),又可称为意见挖掘(OpinionMining)、意见倾向性分析(OpinionAnalysis)等,是一门结合自然语言处理、数据挖掘、心理学、语言学等的交叉学科,对带有主观情感极性的信息进行判别和挖掘。情感分析按照粒度可以分为粗粒度及细粒度两大类。其中,粗粒度一般包含文档级和句子级。文档级别的情感分析是将文档作为一个整体的研究对象,分析其整体表现的情感极性,属于正向的、负向的还是中性的。句子级的情感分析比文档级的要更具体、细致,句子级情感分析在判别一个句子的情感极性之前,首先要判断该句子是属于主观句还是客观句。主观句是用户情感表达的直接句子,而客观句是陈述客观对象的句子,不含有情感极性,故其不应作为情感分析的句子。粗粒度的情感分析虽然能够快速挖掘正负类观点,但在粗粒度范畴下忽略了对更具体方面、属性的考虑,导致情感极性判定不准确情况,也无法知道用户发表观点的主因。细粒度就是为了研究客体更具体化属性的情感分析而提出来的。细粒度的情感分析能深入地挖掘评论者对评论对象不同属性(aspect)的态度,能够表现出更具体、更多的信息,这种细粒度的评价对象也可能成为属性。例如对于餐厅点评,用户可以对餐厅的服务态度、菜品、上菜速度等多种属性进行评论,商家可以从评论的具体属性中发现用户对商家各方面的评价,从中可以发现自己 ...
【技术保护点】
1.一种细粒度情感分析方法,其特征在于,所述方法包括:/n获取源领域数据集和目标领域数据集;其中,所述源领域数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;/n搭建情感分析初始模型;/n将源领域数据集的评论文本序列和评论标签序列进行向量化;/n将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型;/n利用情感分析预训练模型在目标领域数据集上进行微调训练,得到细粒度情感分析模型;/n对待分析文本进行分词、去停用词处理,在处理后输入细粒度情感分析模型,进行细粒度情感分析,输出得到情感分析结果。/n
【技术特征摘要】
1.一种细粒度情感分析方法,其特征在于,所述方法包括:
获取源领域数据集和目标领域数据集;其中,所述源领域数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;
搭建情感分析初始模型;
将源领域数据集的评论文本序列和评论标签序列进行向量化;
将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型;
利用情感分析预训练模型在目标领域数据集上进行微调训练,得到细粒度情感分析模型;
对待分析文本进行分词、去停用词处理,在处理后输入细粒度情感分析模型,进行细粒度情感分析,输出得到情感分析结果。
2.根据权利要求1所述的细粒度情感分析方法,其特征在于,所述情感分析初始模型包括双向长短期记忆网络层、注意力机制层和全连接层;
所述将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型,具体包括:
将向量化后的评论文本序列输入双向长短期记忆网络层,经特征映射后得到序列规律信息;
将向量化后的评论文本序列、向量化后的评论标签序列平均值和序列规律信息输入注意力机制层,对序列规律信息的各个元素进行加权,得到输出序列;
将输出序列输入全连接层,输出预测结果,并对情感分析初始模型的参数进行优化,得到情感分析预训练模型。
3.根据权利要求2所述的细粒度情感分析方法,其特征在于,所述对序列规律信息的各个元素进行加权,得到输出序列,如下:
S=α1h1,α2h2,...,αnhn
其中,S为输出序列,(h1,h2,...,hn)为序列规律信息;(α1,α2,...,αn)为权重,其计算公式如下:
其中,1≤i≤n,1≤j≤n;wi为向量化后的评论文本序列;score为得分函数,其计算公式如下:
score(T,wi)=vTtanh(WhT+WTwi+b)
其中,vT、Wh、WT为待学习的参数矩阵,b为注意力机制层的偏置值;Ti为向量化后的评论标签序列,1≤i≤n。
4.根据权利要求2所述的细粒度情感分析方法,其特征在于,所述将输出序列输入全连接层,输出预测结果,具体包括:
在全连接层中,输出序列经过一个ReLu层的映射,如下:
S′=ReLu(WS+b)
其中,S为输出序列,S′为经过一个ReLu层映射得到的序列,W为待学习的参数矩阵,b为R...
【专利技术属性】
技术研发人员:吴泽宏,柯宗庆,黄佐华,
申请(专利权)人:蓝盾信息安全技术股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。