一种基于大数据的舆情监控与分析系统及方法技术方案

技术编号：35028722 阅读：18 留言：0更新日期：2022-09-24 23:01

本发明专利技术提供一种基于大数据的舆情监控与分析方法，首先根据待监控主题，确定检索词，然后获取舆情数据并存储，其中，舆情数据包括舆情新闻及其评论，接下来基于舆情数据，提取舆情热词，并对舆情数据进行情感分类及量化分析，最后根据舆情热词及量化分析结果形成分析报告。报告。报告。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的舆情监控与分析系统及方法

[0001]本专利技术涉及大数据
，特别涉及一种基于大数据的舆情监控与分析系统及方法。

技术介绍

[0002]随着网络技术的快速发展，互联网已成为公众获取信息、表达观点的重要平台。网络舆情是公众对互联网上传播的热点问题所表现的具有一定影响力和倾向性的意见或言论的状态，它通过互联网对社会问题发表看法，或表达有较强影响力、倾向性的言论和观点。网络的舆情状况可以反映社会状态，有效的舆情监控与分析能够帮助锁定热点话题、快速通晓网民情绪发展、明确舆情现状，同时有助于引导舆情走向，避免舆情危机。
[0003]将信息采集技术和智能信息处理技术结合起来，对网络上的海量信息进行获取、分类和聚类、检测主题等处理，可以实现对舆论的监控和预警。同时，在舆情监控中通查还会对新闻评论的情感进行判断和分析。目前，已有各种不同的基于舆情主题挖掘、民众情感分析等的研究。例如,应用认知情感评价模型构建情感与主题挖掘协同分析模型、采用隐含狄利克雷分布主题模型对民众诉求主题进行挖掘、基于用户注意力机制的情感分析模型等等。但是这些研究中，一方面没有集数据采集、情感分析、可视化等操作为一体的方法，另一方面对于舆情数据的采集的检索策略灵活性较差，且情感分析模型的准确率不佳。

技术实现思路

[0004]针对现有技术中的部分或全部问题，本专利技术一方面提供一种基于大数据的舆情监控与分析方法，包括：
[0005]根据待监控主题，确定检索词；
[0006]根据所述检索词，获取舆情数据...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的舆情监控与分析方法，其特征在于，包括：根据待监控主题，确定检索词；根据所述检索词，获取舆情数据，其中所述舆情数据包括舆情新闻及其评论；基于所述舆情数据，提取舆情热词；对所述舆情数据进行情感分类，并进行量化分析；以及根据所述舆情热词及量化分析结果形成分析报告。2.如权利要求1所述的方法，其特征在于，所述检索词的确定包括：根据待监控主题，确定基础检索词；以及基于词向量技术，进行语义相似度分析，以获取与所述基础检索词的词向量相似的新词，并将所述新词作为迭代检索词。3.如权利要求2所述的方法，其特征在于，所述词向量根据如下步骤训练得到：将获取的部分或全部舆情数据作为无监督训练语料；对所述无监督训练语料进行清洗，包括：分词、去除符号及停用词；以及使用词向量模型对清洗后的语料进行训练，得到词向量。4.如权利要求1所述的方法，其特征在于，所述舆情数据通过爬虫技术获取。5.如权利要求4所述的方法，其特征在于，通过爬虫技术获取舆情数据包括每间隔指定时长，执行一次以下动作：在指定网站的热搜榜中检索包含所述检索词的话题；以及选取所述话题下热度最高的舆情新闻，并获取其对应的评论。6.如权利要求1所述的方法，其特征在于，所述舆情热词的提取包括：对所述舆情新闻的标题进行分词；对符合预定词性的关键词进行词频统计，并按照词频从高到低进行排序；以及确定排序前N位的关键词的搜索指数，删除搜索指数低于预设值的关键词，将剩下的关键词作为舆情热词。7.如权利要求1所述的方法，其特征在于，对所述舆情数据进行情感分类包括：根据情感模型确定所述舆情数据的情感分数，进而确定情感分类。8.如权利要求7所述的方法，其特征在于，所述情感模型根据如下步骤训练得到：对训练数据集进行清洗及分词，其中所述训练数据集包括互联网上公开的已标注情感的评论，以及根据检索词获取的舆情数据；基于互联网上公开的评论数据集，采用无监督的词向量模型训练得到词向量，作为第一特征；...

【专利技术属性】
技术研发人员：王延峰，王兴鹏，张文宏，徐捷，石虎伟，张昊澄，
申请(专利权)人：上海申康医院发展中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人