一种基于数据增强和特征融合的电影评论情感分析方法技术

技术编号:39243127 阅读:12 留言:0更新日期:2023-10-30 11:55
本发明专利技术公开了一种基于数据增强和特征融合的电影评论情感分析方法,包括:将电影评论文本通过结合TF

【技术实现步骤摘要】
一种基于数据增强和特征融合的电影评论情感分析方法


[0001]本专利技术属于自然语言处理技术的情感分析领域,具体涉及一种基于数据增强和特征融合的电影评论情感分析方法。

技术介绍

[0002]网络上存在着大量的电影评论文本,对这些评论进行情感分析,可以更准确地分析出电影的口碑,因此,提高电影评论文本情感分析的精度和效率,完善相关技术,具有重要的研究价值和现实意义。
[0003]数据是机器学习的原材料,而大部分机器学习任务都是有监督任务,所以非常依赖训练数据,在很多场景之下,由于缺少足够的数据,在训练中会导致过拟合的现象。想要让人工智能模型有更好的效果,需要更大、质量更好的数据。文本增强就是在尽量保证标签语义不变的前提下,用少量数据生成大量数据。传统的EDA数据增强采取了4种数据增强操作,分别是同义词替换(Synonym Replacement,SR),随机插入(Random Insertion,RI),随机交换(Random Swap,RS),随机删除(Random Deletion,RD)。数据增强操作引入了一些噪声,有助于防止过拟合,并且引入了一些新的词汇,提高了模型的泛化能力。但是在对文本进行替换、插入、交换、删除操作时不可避免地选取到影响文本情感的核心词汇,会导致文本偏离了原本的意思,使得数据在特征空间中偏离原来的标签,从而影响文本训练的准确率。
[0004]卷积神经网络在自然语言处理领域有着十分广泛的应用,并取得很好的效果。传统的TextCNN文本分类模型中的所采取的池化方式为最大池化,虽然能减少模型参数数量,有利于减轻模型过拟合问题,但是将其他所有的特征值给抛弃,只保留其最大值,会导致特征的位置信息在这一步骤彻底丢失。此外,若是文本中某一重要词语多次出现,只提取最大值一次,则会丢失同一特征强度的信息。
[0005]综上所述,如何针对电影评论文本存在的问题选择合适的方法予以解决,提高电影评论文本的情感极性分类的准确性成为亟待解决的问题。

技术实现思路

[0006]专利技术目的:本专利技术提出一种基于数据增强和特征融合的电影评论情感分析方法,解决传统的EDA数据增强在进行替换、交换、删除操作时选取到影响文本情感的核心词汇导致偏离了原本的意思,影响文本训练的准确率的问题;以及传统TextCNN模型中采用最大池化导致位置信息丢失和重要词语多次出现,丢失该词特征强度的问题。
[0007]技术方案:为实现本专利技术的目的,本专利技术所采用的技术方案是:
[0008]一种基于数据增强和特征融合的电影评论情感分析方法,包括以下步骤:
[0009]步骤一:获取电影评论的文本数据构建数据集并划分训练集和测试集,训练集与测试集中正负面评论都各占预设比例;
[0010]步骤二:结合TF

IDF算法和情感词典对数据集中的文本数据进行改进的EDA数据
增强,并进行预处理操作,包括去除文本中停用词、标点;
[0011]步骤三:将经过数据增强和预处理后的文本通过Word2Vec模型进行词嵌入,得到文本的词向量表示;
[0012]步骤四:将步骤三所得的向量送入TextCNN中进行卷积操作,随后使用分段最大池化提取特征并拼接;
[0013]步骤五:将步骤三所得的向量送入BiLSTM提取上下文信息,随后添加注意力机制;
[0014]步骤六:将步骤四和步骤五所得结果进行拼接,随后送入全连接层,最后将结果输入到softmax函数中进行情感分类,得到电影评论文本情感分类的概率。
[0015]进一步的,步骤二中采用了结合TF

IDF算法和情感词典的EDA数据增强,通过TF

IDF算法和情感词典分别提取出文本中对文本语义表达和情感倾向具有影响的词,具体包括:
[0016]首先通过TF

IDF算法评估字词对于文档集合中某一文本的重要程度,得分越高该字词对文本的重要性越大,其公式如下:
[0017][0018][0019]TF

IDF
W
=TF
W
*IDF
W
[0020]式中TF
W
是某一个给定的词语在某一文本中出现的频率,N
W
是在该文本中某词出现的次数,N为该文本的总词条数;IDF
W
是一个词在所有文本中出现的频率,Y是语料库的文本总数,Y
W
是包含某词条的文本数;TF

IDF
W
的值为TF
W
和IDF
W
的乘积,反映一字词对于一个文本的重要程度,值越大,重要程度越高;
[0021]随后使用SentiWordNet的情感词典计算文本中词语的情感得分,情感得分分为正面情感得分和负面情感得分,得分区间在0

1之间,得分越接近1,该情感倾向越强;相反得分越接近0,情感倾向越弱,当单词存在情感正负得分大于预设值时,加入关键词词表;
[0022]使用TF

IDF算法筛选出文本的主题词或带有情感倾向的词,结合情感词典计算情感得分提取出具有情感倾向的词语,构建成关键词词表;
[0023]最后对数据集中的文本数据进行EDA数据增强,在进行EDA数据增强操作时不对关键词词表中的词语进行替换或者删除。
[0024]进一步的,步骤三中将文本通过Word2Vec模型进行词向量表示,使用的是Word2Vec模型中的用文本上下文信息预测当前词的CBOW模型。
[0025]进一步的,步骤四中将进行词嵌入后的文本输入带有分段最大池化的TextCNN模型:
[0026]选取三个尺寸不同的卷积核进行卷积,选取的卷积核大小分别为2*k,3*k和4*k,用于提取不同尺度下文本的局部信息特征,k是词嵌入维度的大小;
[0027]TextCNN中所采用的分段池化,其操作是将卷积之后的特征向量进行分割,在切割成多段之后各自取分段里最大的一个特征值;
[0028]保留m个局部最大特征值的相对顺序信息和部分位置信息,并且如果出现强特征,分段最大池化捕获该特征的特征强度。
[0029]进一步的,步骤五中将进行词嵌入后的文本输入带有注意力机制的BiLSTM模型:
[0030]第一步,采用遗忘门决定细胞状态需要丢弃哪些信息,当前时刻的输入x
t
和上一时刻输出h
t
‑1共同输入遗忘门,输出一个在0到1之间的数值,通过这个数值决定每个在细胞状态C
t
‑1中的信息保留或丢弃多少,1表示完全保留,0表示完全舍弃,遗忘门公式如下:
[0031]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
[0032]式中f
t
为遗忘门的输出,w...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强和特征融合的电影评论情感分析方法,其特征在于,包括以下步骤:步骤一:获取电影评论的文本数据构建数据集并划分训练集和测试集,训练集与测试集中正负面评论都各占预设比例;步骤二:结合TF

IDF算法和情感词典对数据集中的文本数据进行改进的EDA数据增强,并进行预处理操作,包括去除文本中停用词、标点;步骤三:将经过数据增强和预处理后的文本通过Word2Vec模型进行词嵌入,得到文本的词向量表示;步骤四:将步骤三所得的向量送入TextCNN中进行卷积操作,随后使用分段最大池化提取特征并拼接;步骤五:将步骤三所得的向量送入BiLSTM提取上下文信息,随后添加注意力机制;步骤六:将步骤四和步骤五所得结果进行拼接,随后送入全连接层,最后将结果输入到softmax函数中进行情感分类,得到电影评论文本情感分类的概率。2.根据权利要求1所述的基于数据增强和特征融合的电影评论情感分析方法,其特征在于,步骤二中采用了结合TF

IDF算法和情感词典的EDA数据增强,通过TF

IDF算法和情感词典分别提取出文本中对文本语义表达和情感倾向具有影响的词,具体包括:首先通过TF

IDF算法评估字词对于文档集合中某一文本的重要程度,得分越高该字词对文本的重要性越大,其公式如下:对文本的重要性越大,其公式如下:TF

IDF
W
=TF
W
*IDF
W
式中TF
W
是某一个给定的词语在某一文本中出现的频率,N
W
是在该文本中某词出现的次数,N为该文本的总词条数;IDF
W
是一个词在所有文本中出现的频率,Y是语料库的文本总数,Y
W
是包含某词条的文本数;TF

IDF
W
的值为TF
W
和IDF
W
的乘积,反映一字词对于一个文本的重要程度,值越大,重要程度越高;随后使用SentiWordNet的情感词典计算文本中词语的情感得分,情感得分分为正面情感得分和负面情感得分,得分区间在0

1之间,得分越接近1,该情感倾向越强;相反得分越接近0,情感倾向越弱,当单词存在情感正负得分大于预设值时,加入关键词词表;使用TF

IDF算法筛选出文本的主题词或带有情感倾向的词,结合情感词典计算情感得分提取出具有情感倾向的词语,构建成关键词词表;最后对数据集中的文本数据进行EDA数据增强,在进行EDA数据增强操作时不对关键词词表中的词语进行替换或者删除。3.根据权利要求1所述的基于数据增强和特征融合的电影评论情感分析方法,其特征在于,步骤三中将文本通过Word2Vec模型进行词向量表示,使用的是Word2Vec模型中的用文本上下文信息预测当前词的CBOW模型。4.根据权利要求1所述的基于数据增强和特征融合的电影评论情感分析方法,其特征
在于,步骤四中将进行词嵌入后的文本输入带有分段最大池化的TextCNN模型:选取三个尺寸不同的卷积核进行卷积,选取的卷积核大小分别为2*k,3*k和4*k,用于提取不同尺度下文本的局部信息特征,k是词嵌入维度的大小;TextCNN中所采用的分段池化,其操作是将卷积之后的特征向量进行分割,在切割成多段之后各自取分段里最大的一个特征值;保留m个局部最大特征值的相对顺序信息和部分位置信息,并且如果出现强特征,分段最大池化捕获该特征的特征强度。5.根据权利要求1

4任一所述的基于数据增强和特征融合的电影评论情感分析方法,其特征在于,步骤五中将进行词嵌入后的文本输...

【专利技术属性】
技术研发人员:陈行健徐荣青赵江
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1