一种文本情感分类方法、系统、装置及计算机介质制造方法及图纸

技术编号:35737381 阅读:23 留言:0更新日期:2022-11-26 18:39
本发明专利技术提供一种文本情感分类方法、系统、装置及计算机介质,包括:获取文本数据;标签标注获得的每条文本数据,构建和标注训练集和测试集;构建包含文本序列的文本数据集合,并进行文本向量化,构建词向量集合;构建改进情感知识增强模型;联合改进BiGRU和多头注意力机制进行文本情感特征提取;基于文本特征向量集合数据,计算焦点损失的损失度函数;进行文本情感分类模型训练;将词向量集合输入到文本情感分类模型,获得文本情感分类结果,解决了现有技术中文本情感分类准确率低的问题。有技术中文本情感分类准确率低的问题。有技术中文本情感分类准确率低的问题。

【技术实现步骤摘要】
一种文本情感分类方法、系统、装置及计算机介质


[0001]本专利技术涉及自然语言处理
,具体为一种文本情感分类方法、系 统、装置及计算机介质。

技术介绍

[0002]随着互联网技术的迅速普及和高速发展,越来越多的人会在互联网中花 上更多的时间并且热忱于发表自己的观点或看法,从而会产生数以万计且类 型不统一的文本数据。的文本数据会蕴涵丰富的个人情感信息,如何有效提 取分析文本数据情感特征成为一个关键问题。
[0003]自然语言处理技术应时而生,且对于文本信息处理产生越来越重要的影 响,若采用基于规则的方法来实现文本情感分类,其通过大量学者的语言知 识经验从而获取句子特征表示,但是获取规则的方法复杂度较高且成本巨大; 若选择采用基于统计的机器学习方法来实现文本情感分类,但人工标记训练 样本集会导致主观意识较强、效率低下等问题;由于文本情感分类方法作为 自然语言处理技术中的一项核心算法,与事件抽取、智能问答、情感分析等 多个自然语言处理任务息息相关,能够为特定领域分类出所需要的具体信息。
[0004]目前基于规则和字典的文本情感本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本情感分类方法,其特征在于,包括:获取文本数据;标签标注获得的每条文本数据,构建和标注训练集和测试集;构建包含文本序列的文本数据集合,并进行文本向量化,构建词向量集合;构建改进情感知识增强模型;联合改进BiGRU和多头注意力机制进行文本情感特征提取;基于文本特征向量集合数据,计算焦点损失的损失度函数;进行文本情感分类模型训练;将词向量集合输入到文本情感分类模型,获得文本情感分类结果。2.根据权利要求1所述的一种文本情感分类方法,其特征在于,所述获取文本数据,包括:通过数据服务中心系统获取文本数据,以线上方式获取包括语音和文本的格式的在线情感数据,其中,将语音格式的数据转为文本数据。3.根据权利要求1所述的一种文本情感分类方法,其特征在于,所述构建包含文本序列的文本数据集合,并进行文本向量化,构建词向量集合,包括:标注数据集完成之后,令S={S1,S2,...,S
l
,...,S
n
},其中,S表示所有文本数据集合,S
l
表示第l条文本序列,表示第l条文本序列中的第i个字符,n表示文本数据集合有n条序列,m表示第l条文本序列中有m个字符;从文本序列S
l
中分别获取每个字符的向量和每个字符所对应的位置向量其中位置向量计算方式如下:其中,pos表示文本在文本序列中的具体位置,i表示向量维度,d
model
表示情感知识增强模型所接受的512维向量;将512维的向量和进行加和运算,获得文本输入向量T
l
,作为后续模型的输入,计算方式如下:其中,表示通过文本词嵌入和位置向量嵌入综合得到的后续情感知识增强模型所需要的输入向量,进而构成向量集合T={T1,T2,...,T
l
,...,T
n
}。4.根据权利要求1所述的一种文本情感分类方法,其特征在于,所述构建改进情感知识增强模型,包括:引入以自注意力机制为核心的Transformer编码器与解码器架构;首先对情感词、情感词极性和属性词

情感词搭配二元组进行掩盖,并计算情感词的损失函数:
其中,表示第i个词经过Transformer层后输入到softmax中所计算得到的概率分布,W
sw
表示情感词输出层的权重值,b
sw
表示情感词输出层的偏差值,m
i
表示情感词的标识符,若第i个词为情感词时m
i
=1,否则m
i
=0,y
isw
表示原始第i个词通过one

hot方式生成的向量表示;计算情感词极性的损失函数F
wp
::其中,表示第i个情感词的极性经过Transformer层后输入到softmax中所计算得到的概率分布,W
wp
表示情感词极性输出层的权重值,b
wp
表示情感词极性输出层的偏差值,y
iwp
表示原始第i个情感词的极性通过one

hot方式生成的向量表示;计算属性词

情感词对的损失函数F
asp
::其中,表示第a个属性词

情感词对经过Transformer层后输入到softmax中所计算得到的概率分布,W
asp
表示属性词

情感词对的输出层权重值,b
asp
表示属性词

情感词对的输出层偏差值,y
aasp
表示原始第a个属性词

情感词对通过one

hot方式生成的向量表示;针对上述三个损失函数,构建三目标优化模型(9),来权衡三个优化函数之间的关系,从而找到得到最优的多种情感任务的情感预训练目标优化函数,具体公式如下:max(F
sw
),max(F
wp
),max(F
asp
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(9)采用Pareto优化策略求解三目标优化模型(9),获得优化情感词、情感词极性和属性词

情感词的模型权重,并改进情感知识增强模型,得到情感知识增强模型的输出集合X={X1,X2,...,X
l
,...,X
n
}。5.根据权利要求1所述的一种文本情感分类方法,其特征在于,所述联合改进BiGRU和多头注意力机制进行文本情感特征提取;包括:引入多头注意力机制来学习不同的子空间下情感文本的情感特征,提取联合改进BiGRU和多头注意力机制的情感文本情感特征,获取文本中的内部结构信息;...

【专利技术属性】
技术研发人员:陈友荣王本安张旭东吕晓雯缪克雷刘半藤
申请(专利权)人:浙江树人学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1