一种基于CNN的情感分析方法、装置、设备及存储介质制造方法及图纸

技术编号:21571779 阅读:30 留言:0更新日期:2019-07-10 15:28
本发明专利技术公开了一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质;在本方案中,使用卷积神经网络CNN作为基础架构,将待分析的目标文本输入CNN得到分析结果;通过使用CNN,可以在训练过程中很好地并行化计算;在CNN中的卷积与门控机制层中含有嵌入方面信息的GTRU单元,通过该GTRU单元,可以在给定方面信息的帮助下,通过门控机制更好地控制情感特征;进而,在CNN全连接层的损失函数中,含有至少一个语言规则的正则项,该正则项为通过语言学资源建模而成的,有助于识别情感极性;可以看出,本方案通过语言规则的正则项,可以提高CNN模型的可解释性,提高CNN模型的性能。

An Emotional Analysis Method, Device, Equipment and Storage Medium Based on CNN

【技术实现步骤摘要】
一种基于CNN的情感分析方法、装置、设备及存储介质
本专利技术涉及情感分析
,更具体地说,涉及一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质。
技术介绍
随着文本评论数据的快速增长,情感分析在现代社交网络中不可或缺。它为智能环境、客户分析系统、文本数据安全保护等下游应用提供了基础。方面级别情感分析(Aspect-BasedSentimentAnalysis,ABSA)这是情感分析中一项具有挑战性的核心子任务。ABSA的目的不是预测一个句子的整体情感极性,而是判断出一个句子中各个不同的特定方面的情感极性(积极、负面或中性)。例如,在“Theenvironmentisverybeautiful,butthefoodisdreadful”这句话中,提到了两个不同的方面:“环境(environment),食物(food)”。“ambience(氛围、环境)”这一方面表达的情感极性是积极的,而“food(食物)”这一方面的情感极性却是消极的。传统的解决ABSA的方法主要侧重于人工设计一系列特征,如使用情感词典,将n-gram(语言模型)和情感词汇特征结合。然而,这种传统的特征工程属于一种劳动密集型工程,而且在表现上几乎达到了瓶颈。随着机器学习的快速发展,特别是其中的深度学习,一些研究者针对ABSA任务,设计了高效的神经网络,取得了不错的结果。例如递归神经网络和循环神经网络等等。然而虽然这些方法很有效,但它们仍然存在缺陷,如:神经网络在很大程度上依赖于大量的数据,而这种纯数据驱动的学习将会出现无法解释的结果。
技术实现思路
本专利技术的目的在于提供一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质,以实现分析模型的可解释性,提高分析模型的性能。为实现上述目的,本专利技术实施例提供了如下技术方案:一种基于CNN的方面级别情感分析方法,包括:获得待分析的目标文本,并将所述目标文本输入CNN分析模型;通过所述CNN分析模型获得与所述目标文本对应的词向量矩阵,将所述词向量矩阵输入所述CNN分析模型的卷积与门控机制层;其中,所述卷积与门控机制层中具有方面嵌入的GTRU单元;利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵,并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵;将所述目标特征矩阵输入最大池化层,通过所述最大池化层提取所述目标特征矩阵的重要的特征信息,并将所述最大池化层的输出结果输入全连接层,通过所述全连接层得到最终的分析结果;其中,所述全连接层的损失函数中包括至少一个语言规则的正则项。其中,利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵,并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵,包括:确定与词向量矩阵X的方面特征矩阵ai,ai=ReLU(Wa·Xi:i+h+Va+b);其中,ReLU为方面特征的激活函数,Wa为方面特征的权重矩阵,Xi:i+h为第i至第i+h的词向量矩阵,h为滤波器的长度,Va为嵌入的方面信息,b为偏置项;确定与词向量矩阵X的情感特征矩阵si,si=tanh(Ws·Xi:i+h+b);其中,tanh为情感特征的激活函数,Ws为情感特征的权重矩阵;通过所述方面特征矩阵ai和情感特征矩阵si生成目标特征矩阵ci,其中,ci=ai×si。其中,所述损失函数L为:其中,m为句子的索引,j为类的索引,为第m个句子中第j类的真实的情感分布,为第m个句子中第j类的预测的情感分布,α为正则化项的权重,为第m个句子中第j类的至少一个语言规则的正则项,λ为L2正则化的控制系数,θ为相关参数。其中,所述正则项为并列连词正则项和转折词正则项中的任意一者,或者并列连词正则项和转折词正则项的组合。其中,所述并列连词正则项为R(CCR),R(CCR)=max(0,DKL(PE,PF)-M);其中,P和Q是情感标签的分布,PE为第一方面的情感分布,PF为第二方面的情感分布,M为超参数,DKL(P,Q)是对称KL散度;其中,所述转折词正则项R(ACR),其中,P和Q是情感标签的分布,PE为第一方面的情感分布,PF为第二方面的情感分布,M为超参数,为第一方面经过变换矩阵T后的情感分布;T为变换矩阵。一种基于CNN的方面级别情感分析装置,包括:目标文本获取模块,用于获得待分析的目标文本,并将所述目标文本输入CNN分析模型;词向量矩阵获取模块,用于通过所述CNN分析模型获得与所述目标文本对应的词向量矩阵,将所述词向量矩阵输入所述CNN分析模型的卷积与门控机制层;其中,所述卷积与门控机制层中具有方面嵌入的GTRU单元;目标特征矩阵生成模块,用于利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵,并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵;特征信息生成模块,用于将所述目标特征矩阵输入最大池化层,通过所述最大池化层提取所述目标特征矩阵的重要的特征信息;分析结果生成模块,用于将所述最大池化层的输出结果输入全连接层,通过所述全连接层得到最终的分析结果;其中,所述全连接层的损失函数中包括至少一个语言规则的正则项。其中,所述目标特征矩阵生成模块包括:方面特征矩阵确定单元,用于确定与词向量矩阵X的方面特征矩阵ai,ai=ReLU(Wa·Xi:i+h+Va+b);其中,ReLU为方面特征的激活函数,Wa为方面特征的权重矩阵,Xi:i+h为第i至第i+h的词向量矩阵,h为滤波器的长度,Va为嵌入的方面信息,b为偏置项;情感特征矩阵确定单元,用于确定与词向量矩阵X的情感特征矩阵si,si=tanh(Ws·Xi:i+h+b);其中,tanh为情感特征的激活函数,Ws为情感特征的权重矩阵;目标特征矩阵生成单元,用于通过所述方面特征矩阵ai和情感特征矩阵si生成目标特征矩阵ci,其中,ci=ai×si。一种基于CNN的方面级别情感分析设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述方面级别情感分析方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述方面级别情感分析方法的步骤。通过以上方案可知,本专利技术实施例提供的一种基于CNN的方面级别情感分析方法、装置、设备及计算机可读存储介质;在本方案中,使用卷积神经网络CNN作为基础架构,将待分析的目标文本输入CNN得到分析结果;通过使用CNN,可以在训练过程中很好地并行化计算;并且,在CNN中的卷积与门控机制层中,具有方面嵌入的GTRU单元,通过该GTRU单元,可以在给定方面信息的帮助下,通过门控机制更好地控制情感特征;进而,在CNN全连接层的损失函数中,含有至少一个语言规则的正则项,该正则项为通过语言学资源建模而成的,有助于识别情感极性;可以看出,本方案通过语言规则的正则项,可以提高CNN模型的可解释性,提高CNN模型的性能。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图本文档来自技高网...

【技术保护点】
1.一种基于CNN的方面级别情感分析方法,其特征在于,包括:获得待分析的目标文本,并将所述目标文本输入CNN分析模型;通过所述CNN分析模型获得与所述目标文本对应的词向量矩阵,将所述词向量矩阵输入所述CNN分析模型的卷积与门控机制层;其中,所述卷积与门控机制层中具有方面嵌入的GTRU单元;利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵,并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵;将所述目标特征矩阵输入最大池化层,通过所述最大池化层提取所述目标特征矩阵的重要的特征信息,并将所述最大池化层的输出结果输入全连接层,通过所述全连接层得到最终的分析结果;其中,所述全连接层的损失函数中包括至少一个语言规则的正则项。

【技术特征摘要】
1.一种基于CNN的方面级别情感分析方法,其特征在于,包括:获得待分析的目标文本,并将所述目标文本输入CNN分析模型;通过所述CNN分析模型获得与所述目标文本对应的词向量矩阵,将所述词向量矩阵输入所述CNN分析模型的卷积与门控机制层;其中,所述卷积与门控机制层中具有方面嵌入的GTRU单元;利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵,并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵;将所述目标特征矩阵输入最大池化层,通过所述最大池化层提取所述目标特征矩阵的重要的特征信息,并将所述最大池化层的输出结果输入全连接层,通过所述全连接层得到最终的分析结果;其中,所述全连接层的损失函数中包括至少一个语言规则的正则项。2.根据权利要求1所述的方面级别情感分析方法,其特征在于,利用所述卷积与门控机制层确定与词向量矩阵对应的方面特征矩阵和情感特征矩阵,并通过所述方面特征矩阵和情感特征矩阵生成目标特征矩阵,包括:确定与词向量矩阵X的方面特征矩阵ai,ai=ReLU(Wa·Xi:i+h+Va+b);其中,ReLU为方面特征的激活函数,Wa为方面特征的权重矩阵,Xi:i+h为第i至第i+h的词向量矩阵,h为滤波器的长度,Va为嵌入的方面信息,b为偏置项;确定与词向量矩阵X的情感特征矩阵si,si=tanh(Ws·Xi:i+h+b);其中,tanh为情感特征的激活函数,Ws为情感特征的权重矩阵;通过所述方面特征矩阵ai和情感特征矩阵si生成目标特征矩阵ci,其中,ci=ai×si。3.根据权利要求1所述的方面级别情感分析方法,其特征在于,所述损失函数L为:其中,m为句子的索引,j为类的索引,为第m个句子中第j类的真实的情感分布,为第m个句子中第j类的预测的情感分布,α为正则化项的权重,为第m个句子中第j类的至少一个语言规则的正则项,λ为L2正则化的控制系数,θ为相关参数。4.根据权利要求3所述的方面级别情感分析方法,其特征在于,所述正则项为并列连词正则项和转折词正则项中的任意一者,或者并列连词正则项和转折词正则项的组合。5.根据权利要求4所述的方面级别情感分析方法,其特征在于,所述并列连词正则项为R(CCR),R(CCR)=max(0,DKL(PE,PF)-M);其中,P和Q是情感标签的分布,PE为第一方面的情感分布,PF为第二方面的情感分布,M为超参数,DKL(...

【专利技术属性】
技术研发人员:曾道建戴愿
申请(专利权)人:长沙理工大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1