网络舆情文本信息情感极性分类处理系统及方法技术方案

技术编号：24331263 阅读：58 留言：0更新日期：2020-05-29 19:41

本发明专利技术属于计算机科学技术领域，公开了一种网络舆情文本信息情感极性分类处理系统及方法，网络文本情感极性广泛应用与舆情监控系统中，但传统机器学习方法的特征工程提取模块对文本信息损失较大，分类模型准确性也不够高。本方法，数据预处理后，通过BERT预训练模型fine‑tuning的方式构建词向量，BERT模型计算了句子中的字与其他每个字之间的相关性，构造的词向量能较好解决汉语的“一词多义”和“近义词”情况，大大减少了词向量表示的损失，分类模型中，先用Bi‑LSTM有效学习上下文信息，再用Attention捕获主要语义信息，有效过滤无价值舆情信息，最后使用softmax分类，所得舆情文本情感极性分类结果性能比当下主流算法达到更好的性能。

Classification and processing system and method of emotional polarity of online public opinion text information

全部详细技术资料下载

【技术实现步骤摘要】
网络舆情文本信息情感极性分类处理系统及方法
本专利技术属于计算机自然语言信息处理
，尤其涉及一种网络舆情文本信息情感极性分类处理系统及方法。
技术介绍
随着互联网的发展，网络成为了人们交流思想、表达意见的重要平台。当经济社会中出现的热点或焦点问题在互联网上传播时，会形成具有倾向性的言论观点，产生具有较强影响力的社会舆论。对社会稳定和国家安全有着不可忽视的影响。因此，为满足对网络舆情分析的需求，迫切需要提出针对网络短文本的情感倾向性分类算法，帮助相关机构从海量文本数据中挖掘出有效的舆情信息以辅助决策。实现网络舆情短文本情感极性分析的基础是文本分类技术。传统做法是先进行特征工程，构建出特征向量，再将特征向量输入各种分类模型进行分类。特征工程包括文本预处理、文本表示、特征选择与特征抽取。其中文本预处理又包括去停用词、分词模块，分词模块基本以分词词典为依据，通过文档中的汉字串和词典中的词逐一匹配来完成词的切分，对于网络新词很不友好；文本表示传统做法常用词袋模型(BOW,BagOfWords)或向量空间模型(VectorSpaceModel)，最大的不足是忽略文本上下文关系，每个词之间彼此独立，并且无法表征语义信息；特征选择与特征抽取，是当用特征向量对文档进行表示的时候，特征向量通常维数较大.特征选择和特征抽取属于降维方法；文本分类算法常用的有支持向量机算法、决策树算法、朴素贝叶斯分类算法、神经网络算法等，但传统的文本分类算法存在较大缺陷，如：1)支持向量机(SVM)：对缺失数据敏感，且在非线性问题上无通用解决方...

【技术保护点】
1.一种网络舆情文本信息情感极性分类处理方法，其特征在于，所述基于BERT预训练模型的网络舆情文本情感分类信息处理方法包括以下步骤：/n第一步，获取数据集：爬虫收集网络文本数据，对数据集进行情感极性打标或下载网上公开数据集；/n第二步，文本预处理：对数据进行预处理，去除没有意义的词，繁体字转换为简体字，去标点符号等，建立Token，将Token转化为列表，通过填充统一输入文本长度，将数据分为训练集和测试集；/n第三步，词嵌入模型：通过BERT预训练模型fine-tuning的方式构建词向量，步骤包括加载BERT中文预训练模型，读取数据集的文本数据，训练模型，调整模型参数，获得并保存最佳词向量模型；/n第四步，分类模型构建：情感极性分类模型是在Bi-LSTM模型上加入Attention层，最后用softmax方式完成文本情感极性的输出；/n第五步，模型训练与优化：读取测试集数据，输入模型并进行测试，计算模型情感极性预测准确率，根据测试集的结果，调整模型参数，获得并保存最佳情感极性分析模型；/n第六步，情感极性分类：加载训练好的模型，输入待分类文本数据，获取文本情感极性结果。/n

【技术特征摘要】
1.一种网络舆情文本信息情感极性分类处理方法，其特征在于，所述基于BERT预训练模型的网络舆情文本情感分类信息处理方法包括以下步骤：
第一步，获取数据集：爬虫收集网络文本数据，对数据集进行情感极性打标或下载网上公开数据集；
第二步，文本预处理：对数据进行预处理，去除没有意义的词，繁体字转换为简体字，去标点符号等，建立Token，将Token转化为列表，通过填充统一输入文本长度，将数据分为训练集和测试集；
第三步，词嵌入模型：通过BERT预训练模型fine-tuning的方式构建词向量，步骤包括加载BERT中文预训练模型，读取数据集的文本数据，训练模型，调整模型参数，获得并保存最佳词向量模型；
第四步，分类模型构建：情感极性分类模型是在Bi-LSTM模型上加入Attention层，最后用softmax方式完成文本情感极性的输出；
第五步，模型训练与优化：读取测试集数据，输入模型并进行测试，计算模型情感极性预测准确率，根据测试集的结果，调整模型参数，获得并保存最佳情感极性分析模型；
第六步，情感极性分类：加载训练好的模型，输入待分类文本数据，获取文本情感极性结果。

2.如权利要求1所述的基于BERT预训练模型的网络舆情文本信息情感分类处理方法，其特征在于，所述第一步中获取数据集包括以下步骤：a)通过网络爬虫、社交媒体API接口获取海量数据作为原始预料，b)标注为正向、中性、负向三类，其中对网络舆情导向产生积极正面影响的标注为正；客观称述事实，不带个人情绪的文本标注为中性；对网络舆情导向产生负面影响的标注为负。

3.如权利要求1所述的基于BERT预训练模型的网络舆情文本信息情感分类处理方法，其特征在于，所述第二步中文本预处理包括以下步骤：a)去除没有意义的词、标点符号和英文字母，繁体字转换为简体字等，b)建立Token，将Token转化为列表，c)通过填充统一文本长度，d)将数据分为训练集和测试集。

4.如权利要求1所述的网络舆情文本信息情感极性分类处理方法，其特征在于，所述第三步中词嵌入原理是通过BERT预训练模型fine-tuning的方式构建词向量，步骤包括：a)加载Google官方的BERT中文预训练模型，b)读取自己的文本数据集，c)训练模型，调整模型参数，获得并保存最佳词向量模型。需要注意的是fine-tuning的学习率要小于官方学习率。

5.如权利要求1所述的网络舆情文本信息情感极性分类处理方法，其特征在于，所述第三步中BERT中文预训练模型使用Transformer模型的encoding部分构建词向量，其优势在于所有字并行计算，利...

【专利技术属性】
技术研发人员：裴庆祺，王玉燕，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人