【技术实现步骤摘要】
网络舆情文本信息情感极性分类处理系统及方法
本专利技术属于计算机自然语言信息处理
,尤其涉及一种网络舆情文本信息情感极性分类处理系统及方法。
技术介绍
随着互联网的发展,网络成为了人们交流思想、表达意见的重要平台。当经济社会中出现的热点或焦点问题在互联网上传播时,会形成具有倾向性的言论观点,产生具有较强影响力的社会舆论。对社会稳定和国家安全有着不可忽视的影响。因此,为满足对网络舆情分析的需求,迫切需要提出针对网络短文本的情感倾向性分类算法,帮助相关机构从海量文本数据中挖掘出有效的舆情信息以辅助决策。实现网络舆情短文本情感极性分析的基础是文本分类技术。传统做法是先进行特征工程,构建出特征向量,再将特征向量输入各种分类模型进行分类。特征工程包括文本预处理、文本表示、特征选择与特征抽取。其中文本预处理又包括去停用词、分词模块,分词模块基本以分词词典为依据,通过文档中的汉字串和词典中的词逐一匹配来完成词的切分,对于网络新词很不友好;文本表示传统做法常用词袋模型(BOW,BagOfWords)或向量空间模型(VectorSpaceModel),最大的不足是忽略文本上下文关系,每个词之间彼此独立,并且无法表征语义信息;特征选择与特征抽取,是当用特征向量对文档进行表示的时候,特征向量通常维数较大.特征选择和特征抽取属于降维方法;文本分类算法常用的有支持向量机算法、决策树算法、朴素贝叶斯分类算法、神经网络算法等,但传统的文本分类算法存在较大缺陷,如:1)支持向量机(SVM):对缺失数据敏感,且在非线性问题上无通用解决方 ...
【技术保护点】
1.一种网络舆情文本信息情感极性分类处理方法,其特征在于,所述基于BERT预训练模型的网络舆情文本情感分类信息处理方法包括以下步骤:/n第一步,获取数据集:爬虫收集网络文本数据,对数据集进行情感极性打标或下载网上公开数据集;/n第二步,文本预处理:对数据进行预处理,去除没有意义的词,繁体字转换为简体字,去标点符号等,建立Token,将Token转化为列表,通过填充统一输入文本长度,将数据分为训练集和测试集;/n第三步,词嵌入模型:通过BERT预训练模型fine-tuning的方式构建词向量,步骤包括加载BERT中文预训练模型,读取数据集的文本数据,训练模型,调整模型参数,获得并保存最佳词向量模型;/n第四步,分类模型构建:情感极性分类模型是在Bi-LSTM模型上加入Attention层,最后用softmax方式完成文本情感极性的输出;/n第五步,模型训练与优化:读取测试集数据,输入模型并进行测试,计算模型情感极性预测准确率,根据测试集的结果,调整模型参数,获得并保存最佳情感极性分析模型;/n第六步,情感极性分类:加载训练好的模型,输入待分类文本数据,获取文本情感极性结果。/n
【技术特征摘要】
1.一种网络舆情文本信息情感极性分类处理方法,其特征在于,所述基于BERT预训练模型的网络舆情文本情感分类信息处理方法包括以下步骤:
第一步,获取数据集:爬虫收集网络文本数据,对数据集进行情感极性打标或下载网上公开数据集;
第二步,文本预处理:对数据进行预处理,去除没有意义的词,繁体字转换为简体字,去标点符号等,建立Token,将Token转化为列表,通过填充统一输入文本长度,将数据分为训练集和测试集;
第三步,词嵌入模型:通过BERT预训练模型fine-tuning的方式构建词向量,步骤包括加载BERT中文预训练模型,读取数据集的文本数据,训练模型,调整模型参数,获得并保存最佳词向量模型;
第四步,分类模型构建:情感极性分类模型是在Bi-LSTM模型上加入Attention层,最后用softmax方式完成文本情感极性的输出;
第五步,模型训练与优化:读取测试集数据,输入模型并进行测试,计算模型情感极性预测准确率,根据测试集的结果,调整模型参数,获得并保存最佳情感极性分析模型;
第六步,情感极性分类:加载训练好的模型,输入待分类文本数据,获取文本情感极性结果。
2.如权利要求1所述的基于BERT预训练模型的网络舆情文本信息情感分类处理方法,其特征在于,所述第一步中获取数据集包括以下步骤:a)通过网络爬虫、社交媒体API接口获取海量数据作为原始预料,b)标注为正向、中性、负向三类,其中对网络舆情导向产生积极正面影响的标注为正;客观称述事实,不带个人情绪的文本标注为中性;对网络舆情导向产生负面影响的标注为负。
3.如权利要求1所述的基于BERT预训练模型的网络舆情文本信息情感分类处理方法,其特征在于,所述第二步中文本预处理包括以下步骤:a)去除没有意义的词、标点符号和英文字母,繁体字转换为简体字等,b)建立Token,将Token转化为列表,c)通过填充统一文本长度,d)将数据分为训练集和测试集。
4.如权利要求1所述的网络舆情文本信息情感极性分类处理方法,其特征在于,所述第三步中词嵌入原理是通过BERT预训练模型fine-tuning的方式构建词向量,步骤包括:a)加载Google官方的BERT中文预训练模型,b)读取自己的文本数据集,c)训练模型,调整模型参数,获得并保存最佳词向量模型。需要注意的是fine-tuning的学习率要小于官方学习率。
5.如权利要求1所述的网络舆情文本信息情感极性分类处理方法,其特征在于,所述第三步中BERT中文预训练模型使用Transformer模型的encoding部分构建词向量,其优势在于所有字并行计算,利...
【专利技术属性】
技术研发人员:裴庆祺,王玉燕,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。