当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于对抗训练融合BERT的微博文本情感分析方法及系统技术方案

技术编号:35761492 阅读:16 留言:0更新日期:2022-11-26 19:12
本发明专利技术涉及自然语言处理的情感分析技术领域,公开了一种基于对抗训练融合BERT的微博文本情感分析方法及系统,包括:S1文本预处理步骤:读取原始微博文本数据集,进行数据扩充,得到预处理文本数据;S2预训练步骤:将预处理文本数据输入增量BERT模型中进行训练,得到增量预训练模型;S3下游微调步骤:将增量预训练模型结合预处理文本数据集进行微调,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,输出保存为情感分类预测模型;通过所述情感分类预测模型执行目标任务,输出目标微博文本数据情感分析结果。本发明专利技术融合对抗训练和增加外部数据,提升了模型预测的精确性与鲁棒性,可以使BERT在微博情感分类领域的发挥更好的作用。的作用。的作用。

【技术实现步骤摘要】
一种基于对抗训练融合BERT的微博文本情感分析方法及系统


[0001]本专利技术涉及自然语言处理的情感分析
,具体涉及一种基于对抗训练融合BERT的微博文本情感分析方法及系统。

技术介绍

[0002]随着科技的快速发展,智能手机的迅速普及,城乡上网条件的差距持续缩小。以新浪微博为例,作为分享简短实时咨询的重要社交平台,用户可以发布不超过140字的博文和评论。大量的微博文本信息中包含着多彩多样的个人情感,这些信息反映了某段时间内用户对某件事情或某个观点的态度和看法,最终结果呈现出情感倾向。通过分析微博文本的情感倾向,一方面,对政府部门来说,可以第一时间了解某个社会事件或话题下社会群众的普遍看法,及时回应大众关心的问题,有效遏止谣言的传播,维护社会的和谐与稳定。另一方面,情感分析也能很好地为生产商的市场调研服务,生产商能够利用使用者的反馈及时改进产品,挖掘出潜在的优点;经销商也能通过情感分析预测大众对产品的态度,及时制定合适的营销策略;消费者则能通过产品的情感分析及时了解到其他使用者的真实感受。
[0003]目前,对于微博文本此类具有数据量大,时效性高等特点的短文本分类预测任务中,普遍存在以下不足:(1)分类精度低、数据处理慢。传统领域的方法如词典、规则等都面临耗费大量人力物力财力的问题。基于机器学习的分析方法虽然能避免人工给词典标注分数的主观缺陷,大部分情况下其分类精度也都远超基于词典的方法。但是其成效很大程度上取决于特征工程,也就是数据集的标注、清洗等工作,这个过程也是需要耗费大量的人力。而对于上下文之间的联系,机器学习目前只能通过机械的增加特征维度的方式实现,但随着数据量的增长,诸如语言模型N

gram往前考虑N个字的方法容易引发维度爆炸的问题。
[0004](2)无法在大型文本上做到快速的情感分析。目前在深度学习领域已经有不少学者提出了许多可靠的情感分析算法和模型,谷歌团队提出了一种全新的深度网络结构——Transformer架构,并在此基础上提出了预训练语言模型BERT,其在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩。基于Transformer架构的BERT模型完全抛弃了深度学习中常用的卷积神经网络和循环神经网络,其原因在于卷积神经网络对于长文本的上下文特征提取并没有比较理想的效果;循环神经网络核心依然是序列结构,无法解决并行计算的问题;基于长短期记忆网络(Long Short

Term Memory, LSTM)的语言模型ELMo的特点是对上下文提取的语义信息仅仅是用作简单的拼接,无法实现真正的同时兼顾上下文,提取更多的隐藏特征。

技术实现思路

[0005]为了克服现有技术存在的缺陷与不足,本专利技术提供一种基于对抗训练融合BERT的微博文本情感分析方法及系统,其融合对抗训练和增加外部数据,提升了模型预测的精确性与鲁棒性,可以使BERT在微博情感分类领域的发挥更好的作用。
[0006]本专利技术实施例第一方面公开了一种基于对抗训练融合BERT的微博文本情感分析方法,包括以下步骤:S1文本预处理步骤:读取原始微博文本数据集,对原始微博文本数据集进行数据扩充,得到预处理文本数据;S2预训练步骤:将所述预处理文本数据输入增量BERT模型中进行训练,得到增量预训练模型;S3下游微调步骤:将所述增量预训练模型在下游任务中结合所述预处理文本数据集进行微调,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,输出保存为情感分类预测模型;读取目标微博文本数据生成目标任务,通过所述情感分类预测模型执行目标任务,输出目标微博文本数据情感分析结果。
[0007]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述数据扩充方法包括:对原始微博文本数据的情感极性进行分析,得到第一文本与第二文本,所述第一文本为“第一情感极性”的文本数据,所述第二文本为除所述第一文本以外的其他文本数据;对所述第一文本进行第一预处理得到第一扩充文本;对所述第一扩充文本与所述第二文本进行第二预处理,得到预处理文本数据。
[0008]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述第一预处理方法包括以下步骤:S11外部评论数据集扩充步骤:采用互联网搜集到的相关微博情感评论文本作为扩充来源进行扩充;S12EDA数据增强扩充步骤:将所述第一文本进行分词处理得到分词集,对所述分词集进行EDA数据增强;S13回译法扩充步骤:通过翻译器将所述第一文本翻译为第一译文,再将所述第一译文翻译为第二译文,所述第一译文与所述第二译文为不同语种,所述第二译文为中文,将所述第二译文数据添加至所述第一扩充文本中。
[0009]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述S12EDA数据增强扩充步骤包括:同义词替换步骤、随机插入步骤、随机交换步骤与随机删除步骤。
[0010]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述第二预处理方法包括:S14超长文本截断步骤:设置单句文本标准长度,将超过单句文本标准长度的文本数据根据语义拆分成若干子句后,再进行输入;S15超短文本补齐步骤:将长度小于单句文本标准长度的文本用符号[PAD]补齐;S16特殊符号处理步骤:将所述文本中的回复和转发标记、用户ID、网址,通过正则表达式去除;将所述文本中的表情符号,采用Python的第三方开源库将其转换为对应的中文释义;S17全角转半角步骤:将所述文本中的全角符号转换为半角符号。
[0011]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述预训练步骤包括:生成增量BERT模型;将预处理文本数据通过词嵌入后变成词向量,将词向量输入进增量BERT模型中,
与分段Embeddings和位置Embeddings信息融合,输出词嵌入向量,完成编码。
[0012]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述预训练步骤还包括:将所述词嵌入向量输入Transformer模型的编码器(Encoder)结构,进行Masked LM和Next Sentence Prediction预训练任务,依次经过多头注意力层、前馈神经网络层,并且在中间进行残差连接和归一化处理。
[0013]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述下游微调步骤包括,将预处理文本数据集按比例划分为训练集、验证集和测试集进行训练;将所述增量预训练模型根据具体任务的不同进行参数微调得到下游微调模型。
[0014]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述下游微调步骤还包括,根据所述下游微调模型反向传播计算出来的梯度来寻找最佳扰动项r,将r与数据集各Embeddings的权重矩阵进行相加,接着进行前向计算,使其对抗损失adv_loss达到最大;对于最佳扰动项计算出的损失adv_loss,将其进行后向计算,得出梯度adv_grad,最后进行所述下游微调模型的权重参数的更新,从而得到情感分类预测模型。
[0015]本专利技术实施例第二方面公开一种基于对抗训练融合B本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,包括以下步骤:S1文本预处理步骤:读取原始微博文本数据集,对原始微博文本数据集进行数据扩充,得到预处理文本数据;S2预训练步骤:将所述预处理文本数据输入增量BERT模型中进行训练,得到增量预训练模型;S3下游微调步骤:将所述增量预训练模型在下游任务中结合所述预处理文本数据集进行微调,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,输出保存为情感分类预测模型;读取目标微博文本数据生成目标任务,通过所述情感分类预测模型执行目标任务,输出目标微博文本数据情感分析结果。2.根据权利要求1所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述数据扩充方法包括:对原始微博文本数据的情感极性进行分析,得到第一文本与第二文本,所述第一文本为“第一情感极性”的文本数据,所述第二文本为除所述第一文本以外的其他文本数据;对所述第一文本进行第一预处理得到第一扩充文本;对所述第一扩充文本与所述第二文本进行第二预处理,得到预处理文本数据。3.根据权利要求2所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述第一预处理方法包括以下步骤:S11外部评论数据集扩充步骤:采用互联网搜集到的相关微博情感评论文本作为扩充来源进行扩充;S12EDA数据增强扩充步骤:将所述第一文本进行分词处理得到分词集,对所述分词集进行EDA数据增强;S13回译法扩充步骤:通过翻译器将所述第一文本翻译为第一译文,再将所述第一译文翻译为第二译文,所述第一译文与所述第二译文为不同语种,所述第二译文为中文,将所述第二译文数据添加至所述第一扩充文本中。4.根据权利要求3所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述S12EDA数据增强扩充步骤包括:同义词替换步骤、随机插入步骤、随机交换步骤与随机删除步骤。5.根据权利要求2所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述第二预处理方法包括:S14超长文本截断步骤:设置单句文本标准长度,将超过单句文本标准长度的文本数据根据语义拆分成若干子句后,再进行输入;S15超短文本补齐步骤:将长度小于单句文本标准长度的文本用符号[PAD]补齐;S16特殊符号处理步骤:将所述文本中的回复和转发标记、用户ID、网址,通过正则表达式去除;将所述文本中的表情符号,采用Python的第三方开源库将其转换为对应的中文释义;S17全角转半角步骤:将所述文本中的全角符号转换为半角符号。6.根据权利要求1所述的一种基于对抗训练融合BE...

【专利技术属性】
技术研发人员:黄斐然刘文骁刘炜麟支庭荣
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1