基于注意力因果解释的文本情感特征提取方法技术

技术编号:28979908 阅读:25 留言:0更新日期:2021-06-23 09:26
本发明专利技术公开了基于注意力因果解释的文本情感特征提取方法,通过情感特征注意力计算、筛选注意力权重分布、优化目标函数,最终构建具有纵向因果关系的文本情感分析模型,基于此模型提取高质量的情感特征并完成情感分类预测。本发明专利技术通过添加情感先验知识和综合句子的平均情感分数,从而增强模型提取情感特征的质量。通过信息熵的计算引导注意力更加集中地关注句子的情感特征,从而消除其余无关特征对预测的影响,增强预测的稳定性和可靠性。通过在目标函数中加入信息熵差距的约束条件,使模型学到包含因果关系的情感特征,进而从因果层面给模型的情感极性分类提供可靠的依据,增强模型情感决策的合理性。

【技术实现步骤摘要】
基于注意力因果解释的文本情感特征提取方法
本专利技术涉及自然语言处理中的文本情感分析
,尤其涉及到基于注意力因果解释的文本情感特征提取方法。
技术介绍
文本情感分析是自然语言处理中具有重要价值的任务之一,通过对用户的情感进行分类,可以帮助企业决策者调整营销方案。而传统的文本情感分析存在以下不足:1)目前的文本情感分析方法缺乏词性层面的先验情感知识与语义层面的句子特征的有效结合,因此难以分析句子的情感否定成分以及情感转折点。2)目前自然语言处理任务大部分采用直接微调大型预处理模型的方法,尽管这种方法对文本分类起到一定的作用,但是对文本情感分析的提升效果不大,注意力机制缺乏对情感特征的有效关注。3)目前深度学习模型普遍不可解释,因此提取的情感特征无法评估其合理性,如果在企业的决策中应用这些无法评估合理性的注意力模型,那么产生的决策将无法判断是否具有商业价值。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种能有效地融合先验情感知识和语义特征、使注意力机制的关注点更加集中在情感特征上、降低模型的冗余信息量、提高预测的稳定性、模型提取的文本情感特征具备因果可解释性的文本情感特征提取方法,解决了传统深度学习模型不可解释的缺陷,为企业的决策提供了可解释的依据。为实现上述目的,本专利技术所提供的技术方案为:基于注意力因果解释的文本情感特征提取方法,通过情感特征注意力计算、筛选注意力权重分布、优化目标函数,最终构建具有纵向因果关系的文本情感分析模型,基于此模型提取高质量的情感特征并完成情感分类预测。进一步地,包括以下步骤:S1、用情感词典给数据集中的句子添加先验的情感信息,得到情感平均分数矩阵S;S2、用双向注意力机制计算词嵌入矩阵与情感平均分数矩阵的相关关系,得到两个注意力权重分布P1和P2;S3、根据信息熵筛选注意力权重分布,进行加权融合;S4、在目标函数中加入信息熵差距的约束条件,优化目标函数,使模型学到情感极性分类的因果决策关系;S5、通过优化的模型提取具有纵向因果决策关系的文本情感特征,用这些特征完成情感极性分类。进一步地,所述步骤S1具体为:首先使用情感词典给每个句子的情感词汇标记情感分数,得到一个包含所有句子词汇情感分数的二维矩阵S;接着通过式(1)对S按行求平均,得到由每个句子的平均情感分数组成的一维矩阵其中,sij∈S,sij表示第i个句子的第j个词汇的分数,若该词汇不属于情感词汇,则分数为0;表示第i个句子的平均情感分数;Li表示第i个句子的情感词汇个数;将作为模型的先验情感信息。进一步地,所述步骤S2的具体过程如下:设所有句子的词向量组成词嵌入三阶张量W,通过式(2)-式(5),计算W和情感平均分数矩阵的相关关系并分配权重,得到两个注意力权重分布P1和P2:上式中,Xi∈W,xij∈Xi,Xi表示第i个句子的二维词嵌入矩阵,xij表示第i个句子的第j个单词的词向量;Ni表示第i个句子的单词总数;表示第i个句子的平均情感分数;式(2)的注意力方向:词嵌入矩阵→平均情感分数,xs_aij表示该方向上第i个句子的第j个单词的注意力权重,所有的xs_aij通过式(3)的激活函数σ构成P1;式(4)的注意力方向:平均情感分数→词嵌入矩阵,sx_aij表示该方向上第i个句子的第j个单词的注意力权重,所有的sx_aij通过式(5)激活函数σ构成P2。进一步地,所述步骤S3的具体过程如下:计算步骤S2中P1和P2的信息熵H(P1)和H(P2),选择两者中信息熵小的注意力权重分布Pmin按式(6)进行加权融合,min_ai∈Pmin,min_ai表示该分布中的第i个句子的注意力权重;从而调整注意力输入层的信息流;接着按式(7)合并所有特征矩阵,表示加权融合后第i个句子的特征矩阵,Concat(;)表示沿着批次的方向将所有合并,n表示句子总数,U表示合并后的特征张量;受残差结构的启发,将注意力输入层的词嵌入张量W和注意力输出层的特征张量U按式(8)的规则进行结合,[;]表示将张量纵向合并;避免前面加权融合时丢失部分关键信息。进一步地,所述步骤S4中,优化目标函数的具体过程如下:信息熵小的注意力权重分布Pmin的信息熵记为H(Pmin),计算预测输出层O的信息熵H(O),将这两者融入损失函数Loss中,形成式(9)新的目标函数,进而在更新模型参数时,引导模型扩大这两层信息熵的差距;其中,B表示一个训练批次的句子数,yi表示模型预测值,表示真实标签,λ1和λ2表示可训练的参数,第一项是损失函数,第二项是Pmin和O的信息熵的差距。进一步地,所述步骤S5中,预测输出层O包含模型纵向因果关系的情感特征,将O通过线性层和softmax激活函数的计算,得到情感极性的预测值,再与真实标签进行对比,进而完成情感极性的分类。与现有技术相比,本方案原理及优点如下:1.提出一种情感特征注意力计算的方法,通过添加情感先验知识和综合句子的平均情感分数,从而增强模型提取情感特征的质量。2.提出一种筛选注意力权重分布的方法,通过信息熵的计算引导注意力更加集中地关注句子的情感特征,从而消除其余无关特征对预测的影响,增强预测的稳定性和可靠性。3.提出一种基于信息熵的目标函数优化的方法,通过在目标函数中加入信息熵差距的约束条件,使模型学到情感极性分类的因果决策关系,从而可以从因果层面保证情感特征的合理性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于注意力因果解释的文本情感特征提取方法的原理流程图;图2为本专利技术基于注意力因果解释的文本情感特征提取方法中情感特征注意力计算的流程图;图3为本专利技术基于注意力因果解释的文本情感特征提取方法中筛选注意力权重分布的流程图;图4为本专利技术基于注意力因果解释的文本情感特征提取方法中基于信息熵的目标函数优化的流程图;图5为本专利技术基于注意力因果解释的文本情感特征提取方法中情感极性分类的流程图。具体实施方式下面结合具体实施例对本专利技术作进一步说明:如图1所示,本实施例所述的基于注意力因果解释的文本情感特征提取方法,通过情感特征注意力计算、筛选注意力权重分布、优化目标函数,最终构建具有纵向因果关系的文本情感分析模型,基于此模型提取高质量的情感特征并完成情感分类预测。下面为具体的实施步骤:S1、用情感词典给数据集中的句子添加先本文档来自技高网...

【技术保护点】
1.基于注意力因果解释的文本情感特征提取方法,其特征在于,通过情感特征注意力计算、筛选注意力权重分布、优化目标函数,最终构建具有纵向因果关系的文本情感分析模型,基于此模型提取高质量的情感特征并完成情感分类预测。/n

【技术特征摘要】
1.基于注意力因果解释的文本情感特征提取方法,其特征在于,通过情感特征注意力计算、筛选注意力权重分布、优化目标函数,最终构建具有纵向因果关系的文本情感分析模型,基于此模型提取高质量的情感特征并完成情感分类预测。


2.根据权利要求1所述的基于注意力因果解释的文本情感特征提取方法,其特征在于,包括以下步骤:
S1、用情感词典给数据集中的句子添加先验的情感信息,得到情感平均分数矩阵S;
S2、用双向注意力机制计算词嵌入矩阵与情感平均分数矩阵的相关关系,得到两个注意力权重分布P1和P2;
S3、根据信息熵筛选注意力权重分布,进行加权融合;
S4、在目标函数中加入信息熵差距的约束条件,优化目标函数,使模型学到情感极性分类的因果决策关系;
S5、通过优化的模型提取具有纵向因果决策关系的文本情感特征,用这些特征完成情感极性分类。


3.根据权利要求2所述的基于注意力因果解释的文本情感特征提取方法,其特征在于,所述步骤S1具体为:
首先使用情感词典给每个句子的情感词汇标记情感分数,得到一个包含所有句子词汇情感分数的二维矩阵S;
接着通过式(1)对S按行求平均,得到由每个句子的平均情感分数组成的一维矩阵



其中,sij∈S,sij表示第i个句子的第j个词汇的分数,若该词汇不属于情感词汇,则分数为0;表示第i个句子的平均情感分数;Li表示第i个句子的情感词汇个数;
将作为模型的先验情感信息。


4.根据权利要求2所述的基于注意力因果解释的文本情感特征提取方法,其特征在于,所述步骤S2的具体过程如下:
设所有句子的词向量组成词嵌入三阶张量W,通过式(2)-式(5),计算W和情感平均分数矩阵的相关关系并分配权重,得到两个注意力权重分布P1和P2:












上式中,Xi∈W,xij∈Xi,Xi表示第i个句子的二维词嵌入矩阵,xij表示第i个句子的第j个单词的词向量;Ni表示第i个句子的单词总数;表示第i个句子的平均情感分数;式(2)的注意力方向:词嵌入矩阵→平均情感分数,xs_aij...

【专利技术属性】
技术研发人员:叶苑莉
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1