一种针对互联网信息情感倾向性的自动研判方法技术

技术编号：30433266 阅读：16 留言：0更新日期：2021-10-24 17:29

本发明专利技术公开了一种针对互联网信息情感倾向性的自动研判方法，涉及语言情感分析技术领域，采用了在通用语料上使用RoBERTa模型预训练并对下游任务进行微调的方法。并在深度学习训练过程中使用混合精度，多机多GPU训练模式。寻找超参训练完成后，部署模型并提供接口以完成自动研判的工作；解决传统舆情情感研判工作中出现的准确率不高、研判模型泛化效果不够好、应对隐晦、歧义等复杂中文语境时表现欠佳的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对互联网信息情感倾向性的自动研判方法

[0001]本专利技术涉及语言情感分析
，特别涉及一种针对互联网信息情感倾向性的自动研判方法。

技术介绍

[0002]根据中国互联网络信息中心(CNNIC)发布的第47期《中国互联网发展统计报告》显示，截至2020年12月20日，中国互联网用户数量达到9.89亿。因此，互联网给我们网罗和提供了大量的数据信息，其中对于网民舆论的分析是应对网络舆情分析必不可少的步骤。
[0003]随着互联网时代的不断深入发展，互联网舆情情感分析已经成为了解社情民意、把握舆情动向、对突发事件做出快速响应和处理的不可或缺的手段。互联网舆情的情感倾向自动研判，是大数据与人工智能结合的一个生动运用。
[0004]但现有的情感分析方案普遍采用传统机器学习、支持向量机、逻辑回归、 CNN神经网络、LSTM神经网络等技术，现有技术在情感倾向性的自动研判的核心——自然语言处理方面，面对如隐晦、歧义等复杂的中文语境时表现欠佳，模型泛化效果差、情感倾向性判别准确率存在很大提升空间。
[0005]针对现有技术存在的问题，本申请提供了一种针对互联网信息情感倾向性的自动研判方法，解决传统舆情情感研判工作中出现的准确率不高、研判模型泛化效果不够好、应对隐晦、歧义等复杂中文语境时表现欠佳的问题。

技术实现思路

[0006]本专利技术的目的在于提供一种针对互联网信息情感倾向性的自动研判方法，解决传统舆情情感研判工作中出现的准确率不高、研判模型泛化效果不够好、应对隐晦、歧义等复杂中...

【技术保护点】

【技术特征摘要】
1.一种针对互联网信息情感倾向性的自动研判方法，其特征在于，包括以下步骤：建立舆情语料数据集；建立RoBERTa模型，导入舆情语料数据集进行预训练，改进RoBERTa模型的Bert，获得预训练模型；基于下游任务数据集微调预训练模型的参数，微调后保存最终模型；经最终模型预测后输出情感倾向概率，实现自动研判。2.如权利要求1所述的一种针对互联网信息情感倾向性的自动研判方法，其特征在于，对舆情语料数据集进行预处理，该预处理的步骤为：收集舆情语料数据集中标注情感倾向性的舆情数据，对该数据进行数据清洗；对舆情数据进行格式化；使用中文字符词典文件，按需转换舆情数据；对舆情数据进行多进程预处理。3.如权利要求1所述的一种针对互联网信息情感倾向性的自动研判方法，其特征在于，对舆情语料数据集的预训练基于深度学习进行，训练过程中使用混合精度，多机多GPU训练模式。4.如权利要求3所述的一种针...

【专利技术属性】
技术研发人员：郭齐，
申请(专利权)人：西安康奈网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人