【技术实现步骤摘要】
一种改进训练方式的BERT短文本情感分析方法
[0001]本专利技术属于人工智能
,涉及利用人工智能进行自然语言处理,特别涉及一种改进训练方式的BERT短文本情感分析方法。
技术介绍
[0002]随着信息技术的快速发展及社交网络的崛起,越来越多的网民在网络上发表观点和看法,微博、脸书、推特等互联网平台每天都会产生海量的文字评论,挖掘并分析其潜在的情感倾向对辅助政府、企业等团体机构进行决策有着重要的价值。
[0003]情感分析技术的核心在于情感分类模型的构建,传统的情感分析方法包括基于情感词典的方法和机器学习的方法。基于情感词典的情感分析方法指将预处理后的词汇与情感词典中的词汇进行匹配,然后根据词匹配程度计算情感得分并判断情感极性该方法主要依赖于情感词典的构建,由于现阶段网络快速发展,信息更新速度加快,网络上不断产生新词,若词典不能及时更新会造成情感倾向误判,导致分析结果出现偏差,因此需要不断地扩充情感词典来满足对情感分析的需要,对于情感词典的扩充需要花费大量的时间和资源。
[0004]利用机器学习的方法 ...
【技术保护点】
【技术特征摘要】
1.一种改进训练方式的BERT短文本情感分析方法,其特征在于,包括:步骤1:构建短文本情感分析模型,所述短文本情感分析模型包括输入层、语义特征提取层、池化层、全连接层和分类输出层;步骤2:采集数据集,所述数据集为公开数据集或通过采集短文本评论数据自行构造的数据集;当为自行构造的数据集时,对采集的每一条短文数据,均标注其情感极性标签,情感极性包括happy、sad、angry、surprise、neutral、fear六种情绪;步骤3:对数据集中的短文数据进行预处理,去除对情感分析无用的字符,并将非简体中文的内容转为简体中文,得到清洗后的短文本数据集,方便进行后续的短文本情感分析模型的构建;步骤4:在输入层,对于输入的简体中文文本,首先进行分词,然后对分词后的文本编码,得到输入文本的词向量表示,该词向量由字向量、文本向量、位置向量三部分相加所得;步骤5:在所述词向量中添加一个扰动得到对抗样本;步骤6:所述语义特征提取层基于BERT模型,对所述对抗样本进行语义特征提取,输出特征向量,得到特征向量矩阵B∈R
s*e
,其中s为以字为单位的文本长度,e为特征向量的维度;步骤7:池化层对所述特征向量进行池化处理,降维、去除冗余信息,对特征进行压缩,简化网络复杂度,将池化后的特征向量输出到全连接层;步骤8:所述全连接层基于池化后的特征向量提取语义特征,捕捉情感信息,最后利用Softmax分类函数对全连接层输出的特征向量进行归一化处理,得到最终的情感极性分类结果;步骤9:训练所述短文本情感分析模型,对抗训练过程为:step1,计算词向量x沿模型前向传播的损失值,然后反向传播得到损失函数关于输入词向量x的梯度g,f
θ
()是神经网络函数,获取预测值,y是样本的真实情感极性标签,L( )是损失函数;step2,由公式计算扰动r
adv
,其中∈表示扰动空间;step3,将扰动r
adv
添加进词向量x中,即x+r
adv
,计算x+r
adv
沿模型前向传播的损失值,然后反向传播得到损失函数关于x+r
adv
的梯度g
′
,不断迭代,找到一个使损失函数关于x+r
adv
与真实情感极性标签y最大的损失值,此时的r
adv
...
【专利技术属性】
技术研发人员:魏泽阳,张文博,姬红兵,
申请(专利权)人:陕西方寸积慧智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。