基于样本扩充的网络舆情分析方法技术

技术编号:32460480 阅读:33 留言:0更新日期:2022-02-26 08:48
本发明专利技术公开了了一种基于样本扩充的网络舆情分析方法,包括步骤:S1,扩充情感极性词典,S2,以四元组形式表达情感极性词典中的每个情感词,并从四元组中提取出模型训练样本,然后基于ALBERT和TextCNN算法训练形成网络舆情倾向性分析模型;S3,将当前舆情信息作为网络舆情倾向性分析模型的输入,模型预测输出当前网络舆情的倾向性。本发明专利技术通过扩充情感极性词典,增加了模型训练样本的数据量,解决了样本类型不平衡的问题,通过结合ALBERT和TextCNN算法去训练网络舆情倾向分析模型,克服了单独使用TextCNN算法训练模型存在的不能学习到网络舆情文本更深层次、更全面的信息的缺陷,提升模型了对网络舆情倾向性的预测准确度。度。度。

【技术实现步骤摘要】
基于样本扩充的网络舆情分析方法


[0001]本专利技术涉及数据分析
,具体涉及一种基于样本扩充的网络舆情分析方法。

技术介绍

[0002]舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕社会事件的发生、发展的变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
[0003]网络舆情即发生在网络上的舆情。由于网络空间的开放特性,舆论的发布和扩散方式多种多样,一些片面、煽动性的舆情信息也很容易在网络上传播,这些负面信息若不能及时发现和处理,会对社会产生不良影响。因此,面对大规模的网络舆情信息,如何利用大数据技术,快速且准确的分析出网络舆情倾向,成为及时应对各种网络舆情的关键。
[0004]目前,应用较为广泛的网络舆情倾向性分析方法为基于NLP(Natural LanguageProcessing,自然语言处理)的网络舆情分析方法。但基于监督学习的NLP方法对网络舆情倾向性的预测准确度受模型训练样本质量的影响较大,当样本数据量过少或者噪声太大时,采用NL本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于样本扩充的网络舆情分析方法,其特征在于,包括步骤:S1,扩充情感极性词典,S2,以四元组形式表达所述情感极性词典中的每个情感词,并从所述四元组中提取出模型训练样本,然后基于ALBERT和TextCNN算法训练形成网络舆情倾向性分析模型;S3,将当前舆情信息作为所述网络舆情倾向性分析模型的输入,模型预测输出当前网络舆情的倾向性。2.根据权利要求1所述的基于样本扩充的网络舆情分析方法,其特征在于,步骤S1中,扩充所述情感极性词典的方法具体包括步骤:S11,对网络舆情语料库进行分词操作,所分得的词作为待计算情感极性的候选词;S12,计算所分得的每个所述候选词的情感倾向性概率值;S13,提取出情感倾向性概率值大于预设概率阈值的所述候选词;S14,计算步骤S13提取的所述候选词与所述情感极性词典中的同义词的语义相似度,得到相似度值sim;S15,判断所述相似度值sim是否大于或等于预设的相似度阈值,若是,则赋予参与相似度计算的所述候选词的情感极性为与其具有最高相似度的所述同义词的情感极性;若否,则对参与相似度计算的所述候选词作情感极性计算并赋予其所计算的情感极性;S16,将赋予情感极性后的所述候选词添加到所述情感极性词典中。3.根据权利要求2所述的基于样本扩充的网络舆情分析方法,其特征在于,步骤S12中,通过以下公式(1)计算所述候选词的情感倾向性概率值:公式(1)中,P(w
i
|c
j
)表示待求解的所述候选词的情感倾向性概率值;N
ij
表示候选词w
i
在情感倾向类别c
j
下的所有文档中出现的总次数,候选词包括情感词和非情感词;|V|表示所述情感极性词典中的总单词数;w
i
表示参与情感倾向性概率计算的第i个所述候选词;c
j
表示第j个情感倾向类别。4.根据权利要求2或3所述的基于样本扩充的网络舆情分析方法,其特征在于,步骤S14 中,通过以下公式(2)计算所述相似度值sim:公式(2)中,w表示所述候选词;w1表示HowNet义原树中的一个词语节点;depth(w)表示在HowNet义原树中候选词w节点距离义原树根结点的深度;depth(w1)表示在HowNet义原树中w1节点距离义原树根结点的深度;dist(w,w1)表示w1节点与w节点间的路径距离;
α表示深度对相似度计算的影响参数。5.根据权利要求4所述的基于样本扩充的网络舆情分析方法,其特征在于,预设的所述相似度阈值为0.6。6.根据权利要求2所述的基于样本扩充的网络舆情分析方法,其特征在于,步骤S25中,通过以下公式(3)对参与相似度计算的所述候选词作情感极性计算:公式(3)中,SO_PMI(w)表示对所述候选词的情感极性计算结果;w表示待进行情感极性计算的所述候选词;c
i
表示所述情感极性词典中的第i个基准褒义词;d
i
表示所述情感极性词典中的第i个基准贬义词;n表示基准词总数;P(w)表示候选词w在文本中单独出现的概率;P(c
i
)表示c
i
在文本中单独出现的概率;P(d
i
)表示d
i
在文本中单独出现的概率;P(w&c
i
)表示候选词w与c
i
在文本中同时出现的概率;P(w&d
i
)表示候选词w与d
i

【专利技术属性】
技术研发人员:张蕾吴叶马超杰
申请(专利权)人:杭州萝卜智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1