一种针对互联网信息情感倾向性的自动研判方法技术

技术编号:30433266 阅读:16 留言:0更新日期:2021-10-24 17:29
本发明专利技术公开了一种针对互联网信息情感倾向性的自动研判方法,涉及语言情感分析技术领域,采用了在通用语料上使用RoBERTa模型预训练并对下游任务进行微调的方法。并在深度学习训练过程中使用混合精度,多机多GPU训练模式。寻找超参训练完成后,部署模型并提供接口以完成自动研判的工作;解决传统舆情情感研判工作中出现的准确率不高、研判模型泛化效果不够好、应对隐晦、歧义等复杂中文语境时表现欠佳的问题。的问题。的问题。

【技术实现步骤摘要】
一种针对互联网信息情感倾向性的自动研判方法


[0001]本专利技术涉及语言情感分析
,特别涉及一种针对互联网信息情感倾向性的自动研判方法。

技术介绍

[0002]根据中国互联网络信息中心(CNNIC)发布的第47期《中国互联网发展统计报告》显示,截至2020年12月20日,中国互联网用户数量达到9.89亿。因此,互联网给我们网罗和提供了大量的数据信息,其中对于网民舆论的分析是应对网络舆情分析必不可少的步骤。
[0003]随着互联网时代的不断深入发展,互联网舆情情感分析已经成为了解社情民意、把握舆情动向、对突发事件做出快速响应和处理的不可或缺的手段。互联网舆情的情感倾向自动研判,是大数据与人工智能结合的一个生动运用。
[0004]但现有的情感分析方案普遍采用传统机器学习、支持向量机、逻辑回归、 CNN神经网络、LSTM神经网络等技术,现有技术在情感倾向性的自动研判的核心——自然语言处理方面,面对如隐晦、歧义等复杂的中文语境时表现欠佳,模型泛化效果差、情感倾向性判别准确率存在很大提升空间。
[0005]针对现有技术存在的问题,本申请提供了一种针对互联网信息情感倾向性的自动研判方法,解决传统舆情情感研判工作中出现的准确率不高、研判模型泛化效果不够好、应对隐晦、歧义等复杂中文语境时表现欠佳的问题。

技术实现思路

[0006]本专利技术的目的在于提供一种针对互联网信息情感倾向性的自动研判方法,解决传统舆情情感研判工作中出现的准确率不高、研判模型泛化效果不够好、应对隐晦、歧义等复杂中文语境时表现欠佳的问题。
[0007]本专利技术提供了一种针对互联网信息情感倾向性的自动研判方法,包括以下步骤:
[0008]建立舆情语料数据集;
[0009]建立RoBERTa模型,导入舆情语料数据集进行预训练,改进RoBERTa 模型的Bert,获得预训练模型;
[0010]基于下游任务数据集微调预训练模型的参数,微调后保存最终模型;
[0011]经最终模型预测后输出情感倾向概率,实现自动研判。
[0012]进一步地,对舆情语料数据集进行预处理,该预处理的步骤为:
[0013]收集舆情语料数据集中标注情感倾向性的舆情数据,对该数据进行数据清洗;
[0014]对舆情数据进行格式化;
[0015]使用中文字符词典文件,按需转换舆情数据;
[0016]对舆情数据进行多进程预处理。
[0017]进一步地,对舆情语料数据集的预训练基于深度学习进行,训练过程中使用混合精度,多机多GPU训练模式。
[0018]进一步地,对舆情语料数据集的预训练包括对Bert进行改进,具体包括:
[0019]移去NSP任务;
[0020]指定BERT遮罩类型;
[0021]静态Mask变动态Mask。
[0022]进一步地,微调预训练模型的learning rate参数为3e

4,batch size参数为 64,epochs参数为12,遮罩类型设置为fully_visible。
[0023]进一步地,最终模型配置HTTP接口,HTTP接口采用的数据提交方式为 POST,传输格式为JSON。
[0024]进一步地,经模型预测后输出的情感倾向包括正面情感倾向、负面情感倾向、中性情感倾向和不相关情感倾向。
[0025]与现有技术相比,本专利技术具有如下显著优点:
[0026](一)本专利技术提出的一种针对互联网信息情感倾向性的自动研判方法,采用了在通用语料上使用RoBERTa模型预训练并对下游任务进行微调的方法。并在深度学习训练过程中使用混合精度,多机多GPU训练模式。寻找超参训练完成后,部署模型并提供接口以完成自动研判的工作,此方法鲁棒性好、模型泛化能力强、面对特殊中文语境也可提供高准确率的研判结果。
[0027](二)本专利技术提出的一种针对互联网信息情感倾向性的自动研判方法,在预训练过程中对Bert进行改进,将静态Mask变动态Mask,间接的增加了训练数据,有助于提高模型性能。消除NSP损失在下游任务的性能上能够与原始BERT持平或略有提高。
[0028](三)本专利技术提出的一种针对互联网信息情感倾向性的自动研判方法, RoBERTa模型(160G)使用了比Bert模型(16G)多10倍的数据。更多的训练数据增加了词汇量、句法结构和语法结构数据的多样性。
附图说明
[0029]图1为本专利技术实施例提供的微调预训练模型的结构图;
[0030]图2为本专利技术实施例提供的训练前模型架构差异图;
[0031]图3为本专利技术实施例提供的RoBERTa在不同任务上的微调原理示意图;
[0032]图4为本专利技术实施例提供的微调后的MNLI精度图;
[0033]图5为本专利技术实施例提供的BERT输入部分表示图。
具体实施方式
[0034]下面结合本专利技术中的附图,对本专利技术实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。
[0035]参照图1

5,本专利技术提供了一种针对互联网信息情感倾向性的自动研判方法,包括以下步骤:
[0036]建立舆情语料数据集,并对舆情语料数据集进行预处理;
[0037]建立RoBERTa模型,指定模型的目标任务,导入预处理后的舆情语料数据集进行预
训练,改进RoBERTa模型的Bert,获得预训练模型;
[0038]基于下游任务数据集微调预训练模型的参数,微调后保存最终模型;
[0039]经最终模型预测后输出情感倾向概率,实现自动研判。
[0040]其中,最终模型配置HTTP接口,HTTP接口采用的数据提交方式为 POST,传输格式为JSON,经模型预测后输出情感倾向概率,实现自动研判。
[0041]经模型预测后输出的情感倾向包括正面情感倾向、负面情感倾向、中性情感倾向和不相关情感倾向。
[0042]实施例1
[0043]对舆情语料数据集进行预处理,该预处理的步骤为:
[0044]收集舆情语料数据集中标注情感倾向性的舆情数据,对该数据进行数据清洗;
[0045]对舆情数据进行格式化;
[0046]使用中文字符词典文件,按需转换舆情数据;
[0047]对舆情数据进行多进程预处理。
[0048]实施例2
[0049]参照图2,训练前模型架构之间的差异:BERT使用双向 Transformer。OpenAI GPT使用从左到右的Transformer。ELMo使用独立训练的从左到右和从右到左LSTMs的连接来生成下游任务的特征。在这三种表示中,只有BERT表示是联合表示在所有层上都有左、右两个上下文的条件。除了架构上的差异,BER本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对互联网信息情感倾向性的自动研判方法,其特征在于,包括以下步骤:建立舆情语料数据集;建立RoBERTa模型,导入舆情语料数据集进行预训练,改进RoBERTa模型的Bert,获得预训练模型;基于下游任务数据集微调预训练模型的参数,微调后保存最终模型;经最终模型预测后输出情感倾向概率,实现自动研判。2.如权利要求1所述的一种针对互联网信息情感倾向性的自动研判方法,其特征在于,对舆情语料数据集进行预处理,该预处理的步骤为:收集舆情语料数据集中标注情感倾向性的舆情数据,对该数据进行数据清洗;对舆情数据进行格式化;使用中文字符词典文件,按需转换舆情数据;对舆情数据进行多进程预处理。3.如权利要求1所述的一种针对互联网信息情感倾向性的自动研判方法,其特征在于,对舆情语料数据集的预训练基于深度学习进行,训练过程中使用混合精度,多机多GPU训练模式。4.如权利要求3所述的一种针...

【专利技术属性】
技术研发人员:郭齐
申请(专利权)人:西安康奈网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1