一种基于对抗训练融合BERT的微博文本情感分析方法及系统技术方案

技术编号：35761492 阅读：16 留言：0更新日期：2022-11-26 19:12

本发明专利技术涉及自然语言处理的情感分析技术领域，公开了一种基于对抗训练融合BERT的微博文本情感分析方法及系统，包括：S1文本预处理步骤：读取原始微博文本数据集，进行数据扩充，得到预处理文本数据；S2预训练步骤：将预处理文本数据输入增量BERT模型中进行训练，得到增量预训练模型；S3下游微调步骤：将增量预训练模型结合预处理文本数据集进行微调，并结合对抗训练的方法，对Embeddings的权重矩阵进行扰动，输出保存为情感分类预测模型；通过所述情感分类预测模型执行目标任务，输出目标微博文本数据情感分析结果。本发明专利技术融合对抗训练和增加外部数据，提升了模型预测的精确性与鲁棒性，可以使BERT在微博情感分类领域的发挥更好的作用。的作用。的作用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗训练融合BERT的微博文本情感分析方法及系统

[0001]本专利技术涉及自然语言处理的情感分析
，具体涉及一种基于对抗训练融合BERT的微博文本情感分析方法及系统。

技术介绍

[0002]随着科技的快速发展，智能手机的迅速普及，城乡上网条件的差距持续缩小。以新浪微博为例，作为分享简短实时咨询的重要社交平台，用户可以发布不超过140字的博文和评论。大量的微博文本信息中包含着多彩多样的个人情感，这些信息反映了某段时间内用户对某件事情或某个观点的态度和看法，最终结果呈现出情感倾向。通过分析微博文本的情感倾向，一方面，对政府部门来说，可以第一时间了解某个社会事件或话题下社会群众的普遍看法，及时回应大众关心的问题，有效遏止谣言的传播，维护社会的和谐与稳定。另一方面，情感分析也能很好地为生产商的市场调研服务，生产商能够利用使用者的反馈及时改进产品，挖掘出潜在的优点；经销商也能通过情感分析预测大众对产品的态度，及时制定合适的营销策略；消费者则能通过产品的情感分析及时了解到其他使用者的真实感受。
[0003]目前，对于微博文本此类具有数据量大，时效性高等特点的短文本分类预测任务中，普遍存在以下不足：（1）分类精度低、数据处理慢。传统领域的方法如词典、规则等都面临耗费大量人力物力财力的问题。基于机器学习的分析方法虽然能避免人工给词典标注分数的主观缺陷，大部分情况下其分类精度也都远超基于词典的方法。但是其成效很大程度上取决于特征工程，也就是数据集的标注、清洗等工作，这个过程也是需要耗费大量的人力。而对于上下文之...

【技术保护点】

【技术特征摘要】
1.一种基于对抗训练融合BERT的微博文本情感分析方法，其特征在于，包括以下步骤：S1文本预处理步骤：读取原始微博文本数据集，对原始微博文本数据集进行数据扩充，得到预处理文本数据；S2预训练步骤：将所述预处理文本数据输入增量BERT模型中进行训练，得到增量预训练模型；S3下游微调步骤：将所述增量预训练模型在下游任务中结合所述预处理文本数据集进行微调，并结合对抗训练的方法，对Embeddings的权重矩阵进行扰动，输出保存为情感分类预测模型;读取目标微博文本数据生成目标任务，通过所述情感分类预测模型执行目标任务，输出目标微博文本数据情感分析结果。2.根据权利要求1所述的一种基于对抗训练融合BERT的微博文本情感分析方法，其特征在于，所述数据扩充方法包括：对原始微博文本数据的情感极性进行分析，得到第一文本与第二文本，所述第一文本为“第一情感极性”的文本数据，所述第二文本为除所述第一文本以外的其他文本数据；对所述第一文本进行第一预处理得到第一扩充文本；对所述第一扩充文本与所述第二文本进行第二预处理，得到预处理文本数据。3.根据权利要求2所述的一种基于对抗训练融合BERT的微博文本情感分析方法，其特征在于，所述第一预处理方法包括以下步骤：S11外部评论数据集扩充步骤：采用互联网搜集到的相关微博情感评论文本作为扩充来源进行扩充；S12EDA数据增强扩充步骤：将所述第一文本进行分词处理得到分词集，对所述分词集进行EDA数据增强；S13回译法扩充步骤：通过翻译器将所述第一文本翻译为第一译文，再将所述第一译文翻译为第二译文，所述第一译文与所述第二译文为不同语种，所述第二译文为中文，将所述第二译文数据添加至所述第一扩充文本中。4.根据权利要求3所述的一种基于对抗训练融合BERT的微博文本情感分析方法，其特征在于，所述S12EDA数据增强扩充步骤包括：同义词替换步骤、随机插入步骤、随机交换步骤与随机删除步骤。5.根据权利要求2所述的一种基于对抗训练融合BERT的微博文本情感分析方法，其特征在于，所述第二预处理方法包括：S14超长文本截断步骤：设置单句文本标准长度，将超过单句文本标准长度的文本数据根据语义拆分成若干子句后，再进行输入；S15超短文本补齐步骤：将长度小于单句文本标准长度的文本用符号[PAD]补齐；S16特殊符号处理步骤：将所述文本中的回复和转发标记、用户ID、网址，通过正则表达式去除;将所述文本中的表情符号，采用Python的第三方开源库将其转换为对应的中文释义；S17全角转半角步骤:将所述文本中的全角符号转换为半角符号。6.根据权利要求1所述的一种基于对抗训练融合BE...

【专利技术属性】
技术研发人员：黄斐然，刘文骁，刘炜麟，支庭荣，
申请(专利权)人：暨南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人