一种基于词典的舆情监控方法及装置制造方法及图纸

技术编号:33203560 阅读:9 留言:0更新日期:2022-04-24 00:44
本发明专利技术公开了一种基于词典的舆情监控方法及装置,所述方法包括:分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据;通过包含专业术语的词典群,分别对所述多个舆情数据进行分词,得到多个情感分词;对每个所述情感分词分配对应的情感权重值,并利用所述情感权重计算每个所述情感分词的分词分数值;基于多个所述分词分数值的数值大小确定舆情风向。本发明专利技术可以通过词典群对海量的舆情数据进行分词,可以快速提高数据的处理效率,而在分词后可以分配对应的情感权重值并计算对应的情感分数值,从而根据情感分数值确定舆情风向,以避免因个人的主观想法导致分析结果与实际不符,有效提高分析与监控的准确率。有效提高分析与监控的准确率。有效提高分析与监控的准确率。

【技术实现步骤摘要】
一种基于词典的舆情监控方法及装置


[0001]本专利技术涉及舆情监控的
,尤其涉及一种基于词典的舆情监控方法及装置。

技术介绍

[0002]目前关于网络舆情的定义是以互联网为传播平台、以新媒体为传播媒介、以现实事件为基础处对象,以汇聚不同个体外在意见所形成的群体性思想倾向,并不断与现实事件发生有利或者有害的互相影响。随着互联网的飞速发展,互联网新闻媒体具备了互动性强、开放度高、信息量大等特点,成为了当今网络舆情传播核心媒介。为了准确分析网络上各个群体的思想风向,舆情分析是必不可少的。
[0003]现有网络舆情的分析方法是基于机器学习的情感分析方法,其大致流程如下:人工标注文本倾向性作为训练集,提取文本情感特征,通过机器学习的方法构造情感分类器,待分类的文本通过分类器进行倾向性分类。
[0004]但目前常用的网络舆情分析方法有如下技术问题:基于机器学习的情感分析方法,需要人工标注大量的数据,然后再使用机器学习算法做监督训练,此过程需要花费大量的时间,处理效率非常低,而且人工标注时容易因个人的主观想法,而个人的主观与网络舆情的情绪可能不到,导致标注的结果与实际不符,降低分析的准确率。

技术实现思路

[0005]本专利技术提出一种基于词典的舆情监控方法及装置,所述方法可以利用包含专业术语的分词词典对舆情信息进行分词,并为每个分词分配情感权重以计算得到情感分数从而确定对应的舆情风向,以提高舆情分析的处理效率和准确率。
[0006]本专利技术实施例的第一方面提供了一种基于词典的舆情监控方法,所述方法包括:
[0007]分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据;
[0008]通过包含专业术语的词典群,分别对所述多个舆情数据进行分词,得到多个情感分词,其中,所述情感分词包括:负面情感分词与正面情感分词;
[0009]对每个所述情感分词分配对应的情感权重值,并利用所述情感权重计算每个所述情感分词的分词分数值;
[0010]基于多个所述分词分数值的数值大小确定舆情风向。
[0011]在第一方面的一种可能的实现方式中,所述通过包含专业术语的词典群,分别对所述多个舆情数据进行分词,得到多个情感分词,包括:
[0012]获取用户输入的分析属性值;
[0013]按照所述分析属性值从预设的包含专业术语的分词词典群中确定每个舆情数据对应的目标分词词典;
[0014]调用所述目标分词词典对对应的舆情数据进行分句,得到多个舆情分句;
[0015]分别查找每个所述舆情分句所包含的情感词,得到多个情感分词。
[0016]在第一方面的一种可能的实现方式中,所述情感权重包括程度权重值、数量权重值和符号权重值;
[0017]所述对每个所述情感分词分配情感权重,包括:
[0018]确定所述情感分词在对应的舆情分句中的分词位置;
[0019]查找在所述分词位置至舆情分句的开头的区间内所包含的程度词,基于所述程度词的含义分配对应的程度权重值;
[0020]统计在所述分词位置至舆情分句的开头的区间内所包含的否定词的个数值,根据所述个数值的奇偶性分配对应的数量权重值;
[0021]查找所述情感分词在对应的舆情分句的结尾符号类型,根据所述结尾符号类型分配对应的符号权重值。
[0022]在第一方面的一种可能的实现方式中,所述利用所述情感权重计算每个所述情感分词的分词分数值,包括:
[0023]设定所述情感分词的基础分数值;
[0024]将所述基础分数值分别与所述程度权重值和数量权重值相乘,分别得到程度分数值和数量分数值;
[0025]将所述程度分数值、数量分数值和符号权重值相加得到分词分数值。
[0026]在第一方面的一种可能的实现方式中,所述基于多个所述分词分数值的数值大小确定舆情风向,包括:
[0027]将多个所述负面情感分词对应的分词分数值相加得到负面情感值,以及将多个所述正面情感分词对应的分词分数值相加得到正面情感值;
[0028]分别比较所述正面情感值与第一预定数值的数值大小,以及所述负面情感值与第二预设数值的大小;
[0029]基于所述正面情感值与第一预定数值的比较结果和所述负面情感值与第二预设数值的比较结果计算负面分数值和正面分数值;
[0030]对比所述负面分数值和所述正面分数值的数值大小确定舆情风向。
[0031]在第一方面的一种可能的实现方式中,所述正面分数值的计算具体为:
[0032]当所述正面情感值大于第一预定数值且所述负面情感值小于第二预定数值时,所述正面分数值等于所述正面情感值和所述负面情感值的绝对值之和;
[0033]当所述正面情感值小于第一预定数值且所述负面情感值大于第二预定数值时,所述正面分数值等于所述正面情感值的绝对值;
[0034]当所述正面情感值小于或等于第一预定数值且所述负面情感值小于或等于第二预定数值时,所述正面分数值等于所述负面情感值的绝对值;
[0035]当所述正面情感值大于或等于第一预定数值且所述负面情感值大于或等于第二预定数值时,所述正面分数值等于所述正面情感值。
[0036]在第一方面的一种可能的实现方式中,所述负面分数值的计算具体为:
[0037]当所述正面情感值大于第一预定数值且所述负面情感值小于第二预定数值时,所述负面分数值等于所述负面情感值的绝对值;
[0038]当所述正面情感值小于第一预定数值且所述负面情感值大于第二预定数值时,所述负面分数值等于所述正面情感值的绝对值与所述负面情感值之和;
[0039]当所述正面情感值小于或等于第一预定数值且所述负面情感值小于或等于第二预定数值时,所述负面分数值等于所述正面情感值的绝对值;
[0040]当所述正面情感值大于或等于第一预定数值且所述负面情感值大于或等于第二预定数值时,所述负面分数值等于所述负面情感值。
[0041]在第一方面的一种可能的实现方式中,所述对比所述负面分数值和所述正面分数值的数值大小确定舆情风向,包括:
[0042]若所述正面分数值大于所述负面分数值,则确定舆情风向为正面;
[0043]若所述正面分数值等于所述负面分数值,则确定舆情风向为中性;
[0044]若所述正面分数值小于所述负面分数值,则确定舆情风向为负面。
[0045]在第一方面的一种可能的实现方式中,在所述分别从不同的网络平台中提取海量有关公司评价的舆情数据的步骤后,所述方法还包括:
[0046]使用simhash算法清除所述舆情数据中重复的数据。
[0047]本专利技术实施例的第二方面提供了一种基于词典的舆情监控装置,所述装置包括:
[0048]提取模块,用于分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据;
[0049]分词模块,用于通过包含专业术语的词典群,分别对所述多个舆情数据进行分词,得到多个情感分词,其中,所述情感分词包括:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词典的舆情监控方法,其特征在于,所述方法包括:分别从不同的网络平台中提取关于公司的新闻舆情的舆情数据;通过包含专业术语的词典群,分别对所述多个舆情数据进行分词,得到多个情感分词,其中,所述情感分词包括:负面情感分词与正面情感分词;对每个所述情感分词分配对应的情感权重值,并利用所述情感权重计算每个所述情感分词的分词分数值;基于多个所述分词分数值的数值大小确定舆情风向。2.根据权利要求1所述的基于词典的舆情监控方法,其特征在于,所述通过包含专业术语的词典群,分别对所述多个舆情数据进行分词,得到多个情感分词,包括:获取用户输入的分析属性值;按照所述分析属性值从预设的包含专业术语的分词词典群中确定每个舆情数据对应的目标分词词典;调用所述目标分词词典对对应的舆情数据进行分句,得到多个舆情分句;分别查找每个所述舆情分句所包含的情感词,得到多个情感分词。3.根据权利要求2所述的基于词典的舆情监控方法,其特征在于,所述情感权重包括程度权重值、数量权重值和符号权重值;所述对每个所述情感分词分配情感权重,包括:确定所述情感分词在对应的舆情分句中的分词位置;查找在所述分词位置至舆情分句的开头的区间内所包含的程度词,基于所述程度词的含义分配对应的程度权重值;统计在所述分词位置至舆情分句的开头的区间内所包含的否定词的个数值,根据所述个数值的奇偶性分配对应的数量权重值;查找所述情感分词在对应的舆情分句的结尾符号类型,根据所述结尾符号类型分配对应的符号权重值。4.根据权利要求3所述的基于词典的舆情监控方法,其特征在于,所述利用所述情感权重计算每个所述情感分词的分词分数值,包括:设定所述情感分词的基础分数值;将所述基础分数值分别与所述程度权重值和数量权重值相乘,分别得到程度分数值和数量分数值;将所述程度分数值、数量分数值和符号权重值相加得到分词分数值。5.根据权利要求1

4任意一项所述的基于词典的舆情监控方法,其特征在于,所述基于多个所述分词分数值的数值大小确定舆情风向,包括:将多个所述负面情感分词对应的分词分数值相加得到负面情感值,以及将多个所述正面情感分词对应的分词分数值相加得到正面情感值;分别比较所述正面情感值与第一预定数值的数值大小,以及所述负面情感值与第二预设数值的大小;基于所述正面情感值与第一预定数值的比较结果和所述负面情感值与第二预设数值的比较结果计算负面分数值和正面分数值;对比所述负面分数值和所述正面分数值的数值大小确定舆情风向。

【专利技术属性】
技术研发人员:钟文良陈文静刘喆一沈玮
申请(专利权)人:粤开证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1