一种基于大数据的舆情监控与分析系统及方法技术方案

技术编号:35028722 阅读:18 留言:0更新日期:2022-09-24 23:01
本发明专利技术提供一种基于大数据的舆情监控与分析方法,首先根据待监控主题,确定检索词,然后获取舆情数据并存储,其中,舆情数据包括舆情新闻及其评论,接下来基于舆情数据,提取舆情热词,并对舆情数据进行情感分类及量化分析,最后根据舆情热词及量化分析结果形成分析报告。报告。报告。

【技术实现步骤摘要】
一种基于大数据的舆情监控与分析系统及方法


[0001]本专利技术涉及大数据
,特别涉及一种基于大数据的舆情监控与分析系统及方法。

技术介绍

[0002]随着网络技术的快速发展,互联网已成为公众获取信息、表达观点的重要平台。网络舆情是公众对互联网上传播的热点问题所表现的具有一定影响力和倾向性的意见或言论的状态,它通过互联网对社会问题发表看法,或表达有较强影响力、倾向性的言论和观点。网络的舆情状况可以反映社会状态,有效的舆情监控与分析能够帮助锁定热点话题、快速通晓网民情绪发展、明确舆情现状,同时有助于引导舆情走向,避免舆情危机。
[0003]将信息采集技术和智能信息处理技术结合起来,对网络上的海量信息进行获取、分类和聚类、检测主题等处理,可以实现对舆论的监控和预警。同时,在舆情监控中通查还会对新闻评论的情感进行判断和分析。目前,已有各种不同的基于舆情主题挖掘、民众情感分析等的研究。例如,应用认知情感评价模型构建情感与主题挖掘协同分析模型、采用隐含狄利克雷分布主题模型对民众诉求主题进行挖掘、基于用户注意力机制的情感分析模型等等。但是这些研究中,一方面没有集数据采集、情感分析、可视化等操作为一体的方法,另一方面对于舆情数据的采集的检索策略灵活性较差,且情感分析模型的准确率不佳。

技术实现思路

[0004]针对现有技术中的部分或全部问题,本专利技术一方面提供一种基于大数据的舆情监控与分析方法,包括:
[0005]根据待监控主题,确定检索词;
[0006]根据所述检索词,获取舆情数据并存储,其中,所述舆情数据包括舆情新闻的正文及评论;
[0007]基于所述舆情数据,提取舆情热词;
[0008]对所述舆情数据进行情感分类,并进行量化分析;以及
[0009]根据所述舆情热词及量化分析结果形成分析报告。
[0010]进一步地,所述检索词的确定包括:
[0011]根据待监控主题,确定基础检索词;以及
[0012]基于词向量技术,进行语义相似度分析,以获取与所述基础检索词的词向量相似的新词,并将所述新词作为迭代检索词。
[0013]进一步地,所述词向量根据如下步骤训练得到:
[0014]将存储的部分或全部舆情数据作为无监督训练语料;
[0015]对所述无监督训练语料进行清洗,包括:分词、去除符号及停用词;以及
[0016]使用词向量模型对清洗后的语料进行训练,得到词向量。
[0017]进一步地,所述舆情数据通过爬虫技术获取。
[0018]进一步地,通过爬虫技术获取舆情数据包括每间隔指定时长,执行一次以下动作:
[0019]在指定网站的热搜榜中检索包含所述检索词的话题;以及
[0020]选取所述话题下热度最高的舆情新闻,并获取其对应的评论。
[0021]进一步地,所述舆情热词的提取包括:
[0022]对所述舆情新闻的标题进行分词;
[0023]对符合预定词性的关键词进行词频统计,并按照词频从高到低进行排序;以及
[0024]确定排序前N位的关键词的搜索指数,删除搜索指数低于预设值的关键词,将剩下的关键词作为舆情热词。
[0025]进一步地,对所述舆情数据进行情感分类包括:根据情感模型确定所述舆情数据的情感分数,进而确定情感分类。
[0026]进一步地,所述情感模型根据如下步骤训练得到:
[0027]对训练数据集进行清洗及分词,其中所述训练数据集包括互联网上公开的已标注情感的评论,以及根据检索词获取的舆情数据;
[0028]基于互联网上公开的评论数据集,采用无监督的词向量模型训练得到词向量,作为第一特征;
[0029]从互联网获取情感词表,所述情感词表包括积极、消极两个词表,并根据所述情感词表,对训练数据集中的每段文字的情感词进行编码,得到第二特征;以及
[0030]融合所述第一特征及第二特征,通过深度学习技术得到情感模型。
[0031]进一步地,对训练数据集的清洗及分词时,保留表情词、带有明确情感的新词汇以及问号、感叹号。
[0032]进一步地,所述深度学习技术包括:
[0033]使用Bi

LSTM对融合后第一特征及第二特征进行特征提取;以及
[0034]用线性层输出得到情感分数,其中,所述情感分数取值为0到1之间,包含1和0:
[0035]若某段文字的情感分数大于0.6,则所述文字的情感分类判定为积极;
[0036]若某段文字的情感分数小于0.4,则所述文字的情感分类判定为消极;
[0037]若某段文字的情感分数介于0.4到0.6之间,则所述文字的情感分类判定为中性。
[0038]进一步地,所述情感模型的训练还包括:
[0039]训练多个情感模型,并将训练得到最优结果的模型作为最终的情感模型。
[0040]进一步地,所述分析报告包括:
[0041]舆情热词及其对应的不同情感分类的舆情新闻和/或评论的数量和 /或比例;
[0042]报告概论,包括所述舆情数据中,消极评论量排名前L位的舆情新闻的标题;以及
[0043]详细新闻列表,包括所述舆情数据中所有评论量不为0的舆情新闻及其情感分类。
[0044]进一步地,所述方法还包括:
[0045]将所述舆情热词及量化分析结果以可视化的方式展示出来。
[0046]本专利技术另一方面提供一种基于大数据的舆情监控与分析系统,包括:
[0047]数据抓取模块,其用于根据检索词获取舆情数据;
[0048]数据存储模块,其用于存储舆情数据、舆情热词以及量化分析结果;以及
[0049]数据处理模块,其用于基于所述舆情数据提取舆情热词,对所述舆情数据进行情感分类及量化分析,以及形成分析报告。
[0050]本专利技术提供的一种基于大数据的舆情监控与分析系统及方法,其集舆情数据采集、清洗、情感分析、可视化与报告自动生成等功能于一体,相较于现有舆情分析系统仅包含较为单一的功能,其能够实时发现舆情、精准分析舆情、快速出具报告,进而大大提高舆情监管效率以及相关部门的管理决策效率。具体而言,首先,其使用CBOW或Skip

gram 模型,基于大量与指定主题相关的语料进行词向量模型训练,以精准地迭代舆情检索策略,相比于传统的直接调用获取新词的方法,精准度更高,针对后续舆情能够有更好的适用性,能够有效降低系统迁移、更新与应用成本。其次,其采用了基于Bi

LSTM模型的深度学习技术对舆情数据进行情感分类,且在舆情数据数据预处理时保留了表情词、特殊新词、标点符号“!”与“?”,以尽可能广泛的保留文本中的情绪信息,同时,在模型训练过程中,基于舆情大数据对模型参数进行了调整、调优,进一步使得训练出的情感分类模型准确性更佳,能为管理者决策提供高质量舆情数据基础。此外,所述系统还可具备显示功能,其可以基于ECharts图库,将提取到的舆情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的舆情监控与分析方法,其特征在于,包括:根据待监控主题,确定检索词;根据所述检索词,获取舆情数据,其中所述舆情数据包括舆情新闻及其评论;基于所述舆情数据,提取舆情热词;对所述舆情数据进行情感分类,并进行量化分析;以及根据所述舆情热词及量化分析结果形成分析报告。2.如权利要求1所述的方法,其特征在于,所述检索词的确定包括:根据待监控主题,确定基础检索词;以及基于词向量技术,进行语义相似度分析,以获取与所述基础检索词的词向量相似的新词,并将所述新词作为迭代检索词。3.如权利要求2所述的方法,其特征在于,所述词向量根据如下步骤训练得到:将获取的部分或全部舆情数据作为无监督训练语料;对所述无监督训练语料进行清洗,包括:分词、去除符号及停用词;以及使用词向量模型对清洗后的语料进行训练,得到词向量。4.如权利要求1所述的方法,其特征在于,所述舆情数据通过爬虫技术获取。5.如权利要求4所述的方法,其特征在于,通过爬虫技术获取舆情数据包括每间隔指定时长,执行一次以下动作:在指定网站的热搜榜中检索包含所述检索词的话题;以及选取所述话题下热度最高的舆情新闻,并获取其对应的评论。6.如权利要求1所述的方法,其特征在于,所述舆情热词的提取包括:对所述舆情新闻的标题进行分词;对符合预定词性的关键词进行词频统计,并按照词频从高到低进行排序;以及确定排序前N位的关键词的搜索指数,删除搜索指数低于预设值的关键词,将剩下的关键词作为舆情热词。7.如权利要求1所述的方法,其特征在于,对所述舆情数据进行情感分类包括:根据情感模型确定所述舆情数据的情感分数,进而确定情感分类。8.如权利要求7所述的方法,其特征在于,所述情感模型根据如下步骤训练得到:对训练数据集进行清洗及分词,其中所述训练数据集包括互联网上公开的已标注情感的评论,以及根据检索词获取的舆情数据;基于互联网上公开的评论数据集,采用无监督的词向量模型训练得到词向量,作为第一特征;...

【专利技术属性】
技术研发人员:王延峰王兴鹏张文宏徐捷石虎伟张昊澄
申请(专利权)人:上海申康医院发展中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1