一种舆情收集整理方法技术

技术编号:14313191 阅读:141 留言:0更新日期:2016-12-30 14:08
本发明专利技术公开了一种舆情收集整理方法,包括以下步骤:S1、设置高信网站数据库预存网站地址;S2、输入主题,并根据主题进行网络信息检索获取主题相关信息;S3、统计主题相关信息的来源网站以及浏览量;S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类。本发明专利技术中,根据关键词对主题相关信息进行聚类,获得多个信息小类。如此,将零散的主题相关信息转换成具有一定聚集度的信息小类,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。

【技术实现步骤摘要】

本专利技术涉及舆情监控
,尤其涉及一种舆情收集整理方法
技术介绍
舆情监控,整合互联网信息采集技术及信息智能处理技术通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。近年来,互联网发展迅速,作为继电视、广播、报纸之外的第四媒体,已经成为反映社会舆情的一个重要载体。另一方面,由于网络的开放性和虚拟性,网上舆情已经越来越复杂,对现实生活的影响与日俱增,一些重大的网络舆情事件往往对社会产生较大的影响力。对政府部门、公众媒体和大型企业来说,如何加强对网络舆情的及时监测,以及时采取措施进行有效应对,成为网络舆情管理的一大难点。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种舆情收集整理方法。本专利技术提出的一种舆情收集整理方法,包括以下步骤:S1、设置高信网站数据库预存网站地址;S2、输入主题,并根据主题进行网络信息检索获取主题相关信息;S3、统计主题相关信息的来源网站以及浏览量;S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类;S5、对信息小类的关键词进行语义分析,根据语义相似度对各信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称;S6、预设第一阈值和第二阈值;S7、根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序;S8、筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类绘制成评估报告输出;S9、获取存在于高信网站数据库中的来源网站对应的主题相关信息作为校对目标,根据校对目标所在信息小类及信息大类对评估报告进行补充。优选地,步骤S4具体为:提取各主题相关信息的关键词,并将关键词相同的主题相关信息进行聚类,获得多个信息小类。优选地,步骤S5中,预设有相似度阈值,对信息小类的关键词进行语义分析后,将语义相似度大于相似度阈值的信息小类进行聚类,获得多个信息大类。优选地,评估报告包括信息大类的名称、各信息小类对应的关键词以及信息小类中的浏览量最高的主题相关信息,并包括各信息大类的浏览量总值、信息小类的浏览量总值、主题相关信息的浏览量以及来源网址。优选地,步骤S9具体包括以下分步骤:S91、判断评估报告是否遗漏校对目标存在的信息小类;S92、如果有,则将遗漏的校对目标存在的信息小类作为补充目标;S93、判断评估报告是否遗漏补充目标所在的信息大类;S94、如果没有,则将补充目标按格式补入到评估报告中对应的信息大类下;S95、如果有,则将补充目标以及补充补充目标所在信息大类按格式补入到评估报告中。优选地,步骤S9中,对补入的内容突出显示。本专利技术提出的一种舆情收集整理方法,根据主题进行网络信息检索获取主题相关信息,以网络大数据为信息检索的来源,有利于保证舆情监控的全面性,且基于网络数据的快速更新,还有利于保证舆情掌控的实时性。本专利技术中,根据关键词对主题相关信息进行聚类,获得多个信息小类。如此,将零散的主题相关信息转换成具有一定聚集度的信息小类,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。然后,根据语义相似度对各信息小类进行聚类,将信息小类归纳为信息大类,进一步提高了信息处理对象的聚集度。且将语义相似度大于相似度阈值的信息小类归类生成信息大类,使得信息大类中囊括的信息小类表达的主题相关信息相似度高,对信息大类的处理相当于对表达语义相似的主题相关信息进行集中处理,即保证了信息处理的精确性,又保证了信息处理的效率。本专利技术中,高信网站数据库用于存储发布信息真实度较高的且知名度较高的网站地址,通过高信网站数据库中的来源网站对评估报告进行复查和补充,使得评估报告更加可信。附图说明图1为本专利技术提出的一种舆情收集整理方法流程图。具体实施方式参照图1,本专利技术提出的一种舆情收集整理方法,包括以下步骤。S1、设置高信网站数据库预存网站地址。本实施方式中,高信网站数据库用于存储发布信息真实度较高的且知名度较高的网站地址。S2、输入主题,并根据主题进行网络信息检索获取主题相关信息。S3、统计主题相关信息的来源网站以及浏览量。本步骤中,对检索结果进行统计,有利于后续对检索结果的调用和复查。S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类。具体地,本步骤中将关键词相同的主题相关信息进行聚类,获得多个信息小类。本步骤中,通过关键词进行聚类,将零散的主题相关信息转换成具有一定聚集度的信息小类,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。S5、对信息小类的关键词进行语义分析,根据语义相似度对各信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称。本步骤中,可预设有相似度阈值,对信息小类的关键词进行语义分析后,将语义相似度大于相似度阈值的信息小类进行聚类,获得多个信息大类。如此,通过将信息小类归纳为信息大类,进一步提高了信息处理对象的聚集度。且将语义相似度大于相似度阈值的信息小类归类生成信息大类,使得信息大类中囊括的信息小类表达的主题相关信息相似度高,对信息大类的处理相当于对表达语义相似的主题相关信息进行集中处理,即保证了信息处理的精确性,又保证了信息处理的效率。本实施方式中,相似度阈值可又工作人员根据实际情况设置。以下结合一个具体地实施例对步骤S5作出解释。例如,步骤S4中,根据获得地信息小类为A1、A2、A3、A4、A5、A6;根据A1、A2、A3、A4、A5、A6对应的关键词提取的语义分别为AA1、AA2、AA3、AA4、AA5、AA6;首先,选择A1为核心信息小类,且AA1与AA2语义相似度大于相似度阈值、AA1与AA3语义相似度大于相似度阈值,则将A1、A2、A3归类到一个信息大类中。将A1、A2、A3聚类后,从剩余的零散信息A4、A5、A6中选择A4为核心信息小类,并分别计算AA4与AA5的语义相似度和AA4与AA6的语义相似度,假设AA4与AA5的语义相似度和AA4与AA6的语义相似度均小于相似度阈值,则A4自成一个信息大类。然后计算AA5和AA6语义相似度,如果AA5和AA6语义相似度大于相似度阈值,则将A5、A6纳入一个信息大类。至此,信息小类聚类完成。S6、预设第一阈值和第二阈值。S7、根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序。S8、筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类绘制成评估报告输出。本实施方式中,评估报告包括信息大类的名称、各信息小类对应的关键词以及信息小类中的浏览量最高的主题相关信息,并包括各信息大类的浏览量总值、信息小类的浏览量总值、主题相关信息的浏览量以及来源网址。本实施方式中,评估报告的输出,使得工作人员可直观获知各种舆情倾向,从而将模糊抽象的舆情监控工作具象化、实体化,使得舆情监控工作完满完成。S91、判断评估报告是否遗漏校对目标存在的信息小类。S92、如果有,本文档来自技高网...
一种舆情收集整理方法

【技术保护点】
一种舆情收集整理方法,其特征在于,包括以下步骤:S1、设置高信网站数据库预存网站地址;S2、输入主题,并根据主题进行网络信息检索获取主题相关信息;S3、统计主题相关信息的来源网站以及浏览量;S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类;S5、对信息小类的关键词进行语义分析,根据语义相似度对各信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称;S6、预设第一阈值和第二阈值;S7、根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序;S8、筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类绘制成评估报告输出;S9、获取存在于高信网站数据库中的来源网站对应的主题相关信息作为校对目标,根据校对目标所在信息小类及信息大类对评估报告进行补充。

【技术特征摘要】
1.一种舆情收集整理方法,其特征在于,包括以下步骤:S1、设置高信网站数据库预存网站地址;S2、输入主题,并根据主题进行网络信息检索获取主题相关信息;S3、统计主题相关信息的来源网站以及浏览量;S4、提取各主题相关信息的关键词,并根据关键词对主题相关信息进行聚类,获得多个信息小类;S5、对信息小类的关键词进行语义分析,根据语义相似度对各信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称;S6、预设第一阈值和第二阈值;S7、根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序;S8、筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类绘制成评估报告输出;S9、获取存在于高信网站数据库中的来源网站对应的主题相关信息作为校对目标,根据校对目标所在信息小类及信息大类对评估报告进行补充。2.如权利要求1所述的舆情收集整理方法,其特征在于,步骤S4具体为:提取各主题相关信息的关键词,并将关键词相同的主题相关信息进行聚类...

【专利技术属性】
技术研发人员:党连坤石晔
申请(专利权)人:合肥指南针电子科技有限责任公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1