一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法技术

技术编号:33303918 阅读:33 留言:0更新日期:2022-05-06 12:12
本发明专利技术是一种基于对抗训练和多注意力的CNN

【技术实现步骤摘要】
一种基于对抗训练和多注意力的CNN

BiLSTM方面情感分析方法


[0001]本专利技术涉及自然语言处理
,是一种基于对抗训练和多注意力的CNN

BiLSTM方面情感分析方法。

技术介绍

[0002]随着互联网以及信息技术的迅猛发展,自媒体和电商平台的发展被迅速带动,人们日常社交生活的方方面面都充斥着网络服务,第446次《中国互联网络发展状况统计报告》显示,截至2020年6月,我国网民规模达9.40亿,较2020年3月增长3625万,互联网普及率达67.0%,较2020年3月提升2.5个百分点。随着互联网用户的增加和论坛、社交平台以及电商平台的壮大,各类网络平台也渗透进人们的生活中,用户在各类论坛和自媒体平台上发表言论和观点,在电商平台上发布已购商品的评价,如此一来便产生了海量的文本数据,呈现出几何式爆炸增长的态势,这些数据带有着用户的情感倾向和个人观点,是用户对于不同方面事物的评价,因此这些数据长短不一、种类复杂、结构混乱,表现为口语化、简单化、多元化的特点,因此通过人工是难以进行分类和组织的。由本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于对抗训练和多注意力的CNN

BiLSTM方面情感分析方法,其特征是:包括以下步骤:步骤1:采集并预处理SemEval 2014的公开数据集Laptop reviews和Restaurent Reviews,并对预处理后的数据按预设比例划分为训练集和测试集;步骤2:对训练样本进行筛选,得到样本特征向量;步骤3:利用对抗训练对输入的样本特征向量制造一个扰动,与最初的样本特征向量一起参加模型的训练,得到模型的输入层;步骤4:结合卷积神经网络和长短时记忆网络,连接模型的输入层,得到模型的CNN

BiLSTM层;步骤5:计算CNN

BiLSTM层输出的每个词与目标词的距离,作为情感强度的权重值,得到模型的位置加权记忆层;步骤6:对位置加权记忆层的输出结果应用多重注意力机制,并将结果用GRU网络进行非线性的结合,得到模型的循环多注意层;步骤7:利用Softmax函数对循环多注意层的输出结果进行分类,得到方面级情感分析模型;步骤8:将测试集输入方面级情感分析模型中,得到情感分析结果。2.根据权利要求1所述的一种基于对抗训练和多注意力的CNN

BiLSTM方面情感分析方法,其特征是:所述步骤2具体为:对每个数据集中的训练样本进行筛选,只保留具有积极、消极和中性情感标签的数据,剩余的舍弃。3.根据权利要求2所述的一种基于对抗训练和多注意力的CNN

BiLSTM方面情感分析方法,其特征是:所述步骤3具体为:步骤3.1:使用FGM方法进行对抗训练,表示为一个最小最大化公式为:其中,x是输入的训练样本,y是训练样本的标签,θ是模型参数构成的集合,D为样本训练集,δ是对抗扰动,L为神经网络的损失函数;每一个文本中包含的T个词表示为:{w
(t)
|t=1,...,T}词向量矩阵表示为:V∈R
(K+1)
×
D
其中,K为词汇表中词汇的数量,D表示词向量的维度;步骤3.2:将离散的向量输入转为连续的向量输入,通过下式表示:步骤3.2:将离散的向量输入转为连续的向量输入,通过下式表示:
扰动后的词向量嵌入层用正则化嵌入v
k
`来表示第i个单词的嵌入v
k
,f
j
表示第j个词汇的词频;步骤3.3:将v
k
`嵌入到扰动后的词向量嵌入层,词嵌入中添加扰动r
adv
,通过下式表示:,通过下式表示:其中,x为模型输入,为短文本分类器参数。4.根据权利要求3所述的一种基于对抗训练和多注意力的CNN

BiLSTM方面情感分析方法,其特征是:所述步骤4具体为:步骤4.1:将输入层的输出作为CNN层的输入,词向量矩阵通过下式表示:V∈R
(K+1)
×
D
其中,K为词汇表中的词汇的数量,D表示词向量的维度;步骤4.2:进行卷积操作,利用设置好的滤波器实现特征提取:S
i
=f(ω
×
X
i:i+g
‑1+b)其中,ω为卷积核,g为卷积核的尺寸,X
i:i+g
‑1表示从第i到第i+g

1个词构成的句子向量矩阵,b是偏置向量;步骤4.3:经过卷积层,得到特征矩阵:S=[s1,s2,...s
n

g+1
]步骤4.4:经过池化层,进行下采样操作,利用最大池化技术MaxPooling,求得局部最优解:M=max{s1,s2,...,s
n

g+1
}步骤4.5:通过全连接层将M
i
向量连接成向量Q作为BiLSTM的输入:Q={M1,M2,...,M
n
}步骤4.6:遗忘门f
t
、记忆门i
t
、输出门o
t
均由上一个时刻的隐藏状态h
t
‑1和当前时刻的输入x
t
计算得到,具体表示过程:f
t
=logistic(W
f
x
t
+U
f
h
t
‑1+b
f

【专利技术属性】
技术研发人员:陈海龙王青马玉群郑鑫
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1