网络舆情文本信息情感极性分类处理系统及方法技术方案

技术编号:24331263 阅读:46 留言:0更新日期:2020-05-29 19:41
本发明专利技术属于计算机科学技术领域,公开了一种网络舆情文本信息情感极性分类处理系统及方法,网络文本情感极性广泛应用与舆情监控系统中,但传统机器学习方法的特征工程提取模块对文本信息损失较大,分类模型准确性也不够高。本方法,数据预处理后,通过BERT预训练模型fine‑tuning的方式构建词向量,BERT模型计算了句子中的字与其他每个字之间的相关性,构造的词向量能较好解决汉语的“一词多义”和“近义词”情况,大大减少了词向量表示的损失,分类模型中,先用Bi‑LSTM有效学习上下文信息,再用Attention捕获主要语义信息,有效过滤无价值舆情信息,最后使用softmax分类,所得舆情文本情感极性分类结果性能比当下主流算法达到更好的性能。

Classification and processing system and method of emotional polarity of online public opinion text information

【技术实现步骤摘要】
网络舆情文本信息情感极性分类处理系统及方法
本专利技术属于计算机自然语言信息处理
,尤其涉及一种网络舆情文本信息情感极性分类处理系统及方法。
技术介绍
随着互联网的发展,网络成为了人们交流思想、表达意见的重要平台。当经济社会中出现的热点或焦点问题在互联网上传播时,会形成具有倾向性的言论观点,产生具有较强影响力的社会舆论。对社会稳定和国家安全有着不可忽视的影响。因此,为满足对网络舆情分析的需求,迫切需要提出针对网络短文本的情感倾向性分类算法,帮助相关机构从海量文本数据中挖掘出有效的舆情信息以辅助决策。实现网络舆情短文本情感极性分析的基础是文本分类技术。传统做法是先进行特征工程,构建出特征向量,再将特征向量输入各种分类模型进行分类。特征工程包括文本预处理、文本表示、特征选择与特征抽取。其中文本预处理又包括去停用词、分词模块,分词模块基本以分词词典为依据,通过文档中的汉字串和词典中的词逐一匹配来完成词的切分,对于网络新词很不友好;文本表示传统做法常用词袋模型(BOW,BagOfWords)或向量空间模型(VectorSpaceModel),最大的不足是忽略文本上下文关系,每个词之间彼此独立,并且无法表征语义信息;特征选择与特征抽取,是当用特征向量对文档进行表示的时候,特征向量通常维数较大.特征选择和特征抽取属于降维方法;文本分类算法常用的有支持向量机算法、决策树算法、朴素贝叶斯分类算法、神经网络算法等,但传统的文本分类算法存在较大缺陷,如:1)支持向量机(SVM):对缺失数据敏感,且在非线性问题上无通用解决方案;2)决策树分类:不适用训练大样本集,在噪声影响下容易导致过分拟合;3)朴素贝叶斯分类:假设条件在现实中无法满足,不能达到各属性相互独立,影响正确分类等。近几年来,随着深度学习在自然语言处理领域不断发展,其中循环神经网络(RNN)、卷积神经网络(CNN)、长短时记忆循环神经网络(LSTM)等深度学习算法在文本分类中表现出了较为良好地自适应性、容错性和模式识别性。主流算法是经过文本预处理、词嵌入、深度学习分类模型三步。词向量构建大多基于word2vec方法,word2vec的思想是利用一个词和它在文本中的上下文的词的关系,用高维词向量表示词语,尽量把相近意思的词语放在相近的位置,但是关注的上下文的长度固定。不利于长短句变化较大的文本。深度学习算法虽然一定程度上优化了特征提取过程,但是还是存在不足,如CNN无法识别处理文本的上下文顺序关系,RNN可以利用内部的记忆来处理任意时序的输入序列,但只能对部分序列进行记忆,在长序列上表现较差,LSTM是RNN模型的一种特殊结构类型,其增加了输入门、输出门、忘记门三个控制单元,可以较好解决神经网络中长序列依赖问题,但是只能单向得到下文依赖关系,不能得到上文信息。综上所述,现有技术存在的问题是:传统机器学习的做法特征工程模块对文本信息损失较大,分类模型结果的准确性也不够高。深度学习模型虽然有一定优化,但词向量表示模块依旧不够准确。深度学习特征提取过程不能较好处理上下文依赖关系,特征提取存在较大损耗。解决上述技术问题的主要难度,一方面在于从文本信息到词向量更精准表达,另一方面在于现有深度学习分类算法,不能特别准确地识别上下文关系,提取文本最主要特征,致使情感极性分析模型性能还有待提高。解决上述技术问题的意义是通过研究出更精准的词向量表达和分类模型,提高现有网络舆情文本情感极性信息处理系统的性能,为监管部门挖掘出有效的舆情信息以辅助决策。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种网络舆情文本信息情感极性分类处理系统及方法。本专利技术是这样实现的,一种网络舆情文本信息情感极性分类处理方法,所述网络舆情文本信息情感极性分类处理方法包括以下步骤:第一步,获取数据集:爬虫收集网络文本数据,对数据集进行情感极性打标或下载网上公开数据集;第二步,文本预处理:对数据进行预处理,如:去除没有意义的词,繁体字转换为简体字,去标点符号等,建立Token,将Token转化为列表,通过填充统一输入文本长度,将数据分为训练集和测试集;第三步,词嵌入模型:通过BERT预训练模型fine-tuning的方式构建词向量,步骤包括加载BERT中文预训练模型,读取数据集的文本数据,训练模型,调整模型参数,获得并保存最佳词向量模型;第四步,分类模型构建:情感极性分析模型是在Bi-LSTM模型上加入Attention层,最后用softmax方式完成文本情感极性的预测;第五步,模型训练与优化:读取测试集数据,输入模型并进行测试,计算模型情感极性预测准确率,根据测试集的结果,调整模型参数,获得并保存最佳情感极性分析模型;第六步,情感极性分类:加载训练好的模型,输入自己的数据,获取文本情感极性分析结果。进一步,所述第一步中获取数据集包括以下步骤:a)通过网络爬虫、社交媒体API接口获取海量数据作为原始预料,b)标注为正向、中性、负向三类,其中对网络舆情导向产生积极正面影响的标注为正;客观称述事实,不带个人情绪的文本标注为中性;对网络舆情导向产生负面影响的标注为负。进一步,所述第二步中文本预处理包括以下步骤:a)去除没有意义的词、标点符号和英文字母,繁体字转换为简体字等,b)建立Token,将Token转化为列表,c)通过填充统一文本长度,d)将数据分为训练集和测试集。进一步,所述第三步中词嵌入模型原理是通过BERT预训练模型fine-tuning的方式构建词向量,步骤包括:a)加载Google官方的BERT中文预训练模型,b)读取自己的文本数据集,c)训练模型,调整模型参数,获得并保存最佳词向量模型。需要注意的是fine-tuning的学习率要小于官方学习率。进一步,所述第三步中BERT中文预训练模型使用Transformer模型的encoding部分构建词向量,其优势在于所有字并行计算,利用位置嵌入来理解语言的顺序,计算了句中每个字与其他字之间的相关性,解决了句子长度词向量构建精确度的影响,每个Transformer单元的encoding部分包括两个子层:注意力层和全连接层;其中每个子层都加了残差连接和归一化,最终输出词向量矩阵。进一步,所述第四步中分类模型是在Bi-LSTM模型上加入Attention层,然后用softmax完成文本情感极性的输出。步骤包括:a)使用Bi-LSTM模型在低三步得到的词向量矩阵基础上提取句子特征,b)用Attention从每个句子中捕获最重要的语义信息,c)用softmax完成文本情感极性的输出。进一步,所述第五步中模型训练与优化步骤包括:a)读取测试集数据,输入模型并进行测试,b)计算模型情感极性预测准确率,c)根据测试集的结果,调整模型参数,获得并保存最佳情感极性分析模型;。进一步,所述第六步情感极性分类模块中步骤包括:a)加载训练好的模型,b)输入自己需要进行情感极性分析的数据,c)通过模型分析,得到文本情感极性的输出。本专利技术的另一目的本文档来自技高网
...

【技术保护点】
1.一种网络舆情文本信息情感极性分类处理方法,其特征在于,所述基于BERT预训练模型的网络舆情文本情感分类信息处理方法包括以下步骤:/n第一步,获取数据集:爬虫收集网络文本数据,对数据集进行情感极性打标或下载网上公开数据集;/n第二步,文本预处理:对数据进行预处理,去除没有意义的词,繁体字转换为简体字,去标点符号等,建立Token,将Token转化为列表,通过填充统一输入文本长度,将数据分为训练集和测试集;/n第三步,词嵌入模型:通过BERT预训练模型fine-tuning的方式构建词向量,步骤包括加载BERT中文预训练模型,读取数据集的文本数据,训练模型,调整模型参数,获得并保存最佳词向量模型;/n第四步,分类模型构建:情感极性分类模型是在Bi-LSTM模型上加入Attention层,最后用softmax方式完成文本情感极性的输出;/n第五步,模型训练与优化:读取测试集数据,输入模型并进行测试,计算模型情感极性预测准确率,根据测试集的结果,调整模型参数,获得并保存最佳情感极性分析模型;/n第六步,情感极性分类:加载训练好的模型,输入待分类文本数据,获取文本情感极性结果。/n

【技术特征摘要】
1.一种网络舆情文本信息情感极性分类处理方法,其特征在于,所述基于BERT预训练模型的网络舆情文本情感分类信息处理方法包括以下步骤:
第一步,获取数据集:爬虫收集网络文本数据,对数据集进行情感极性打标或下载网上公开数据集;
第二步,文本预处理:对数据进行预处理,去除没有意义的词,繁体字转换为简体字,去标点符号等,建立Token,将Token转化为列表,通过填充统一输入文本长度,将数据分为训练集和测试集;
第三步,词嵌入模型:通过BERT预训练模型fine-tuning的方式构建词向量,步骤包括加载BERT中文预训练模型,读取数据集的文本数据,训练模型,调整模型参数,获得并保存最佳词向量模型;
第四步,分类模型构建:情感极性分类模型是在Bi-LSTM模型上加入Attention层,最后用softmax方式完成文本情感极性的输出;
第五步,模型训练与优化:读取测试集数据,输入模型并进行测试,计算模型情感极性预测准确率,根据测试集的结果,调整模型参数,获得并保存最佳情感极性分析模型;
第六步,情感极性分类:加载训练好的模型,输入待分类文本数据,获取文本情感极性结果。


2.如权利要求1所述的基于BERT预训练模型的网络舆情文本信息情感分类处理方法,其特征在于,所述第一步中获取数据集包括以下步骤:a)通过网络爬虫、社交媒体API接口获取海量数据作为原始预料,b)标注为正向、中性、负向三类,其中对网络舆情导向产生积极正面影响的标注为正;客观称述事实,不带个人情绪的文本标注为中性;对网络舆情导向产生负面影响的标注为负。


3.如权利要求1所述的基于BERT预训练模型的网络舆情文本信息情感分类处理方法,其特征在于,所述第二步中文本预处理包括以下步骤:a)去除没有意义的词、标点符号和英文字母,繁体字转换为简体字等,b)建立Token,将Token转化为列表,c)通过填充统一文本长度,d)将数据分为训练集和测试集。


4.如权利要求1所述的网络舆情文本信息情感极性分类处理方法,其特征在于,所述第三步中词嵌入原理是通过BERT预训练模型fine-tuning的方式构建词向量,步骤包括:a)加载Google官方的BERT中文预训练模型,b)读取自己的文本数据集,c)训练模型,调整模型参数,获得并保存最佳词向量模型。需要注意的是fine-tuning的学习率要小于官方学习率。


5.如权利要求1所述的网络舆情文本信息情感极性分类处理方法,其特征在于,所述第三步中BERT中文预训练模型使用Transformer模型的encoding部分构建词向量,其优势在于所有字并行计算,利...

【专利技术属性】
技术研发人员:裴庆祺王玉燕
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1