一种舆情信息归类评估系统技术方案

技术编号:14312587 阅读:81 留言:0更新日期:2016-12-30 12:54
本发明专利技术公开了一种舆情信息归类评估系统,包括主题信息检索模块、关键词提取模块、第一聚类模块、语义分析模块、浏览量统计模块和评估报告输出模块。本发明专利技术中,通过关键词对主题相关信息进行聚类获得多个信息小类,然后根据信息小类标注的关键词的语义相似度对信息小类进行聚类获得多个信息大类,如此,将零散的主题相关信息的处理转换为信息小类、信息大类的处理,提高了处理对象的聚集度,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。

【技术实现步骤摘要】

本专利技术涉及舆情分析
,尤其涉及一种舆情信息归类评估系统
技术介绍
舆情监控,整合互联网信息采集技术及信息智能处理技术通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。“网络舆情监测系统”是征对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。“网络舆情”是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种舆情信息归类评估系统。本专利技术提出的一种舆情信息归类评估系统,包括:主题信息检索模块,用于根据主题进行网络信息检索,获取主题相关信息,并对各主题相关信息的来源网站和浏览量进行统计;关键词提取模块,其与主题信息检索模块连接获取主题相关信息,并对各主题相关信息提取关键词;第一聚类模块,其分别与主题信息检索模块和关键词提取模块连接,其将关键词相同的主题相关信息进行聚类,获得多个信息小类,且各信息小类以关键词标注;语义分析模块,与第一聚类模块连接,其对各信息小类的关键词进行语义分析,并将关键词的语义相似度大于预设相似度阈值的信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称;浏览量统计模块,其分别连接主题信息检索模块和语义分析模块,其分别计算各信息小类中包含的主题相关信息的浏览量总值和各信息大类中包含的信息小类的浏览量总值;并根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序;评估报告输出模块,其与浏览量统计模块和主题信息检索模块连接;评估报告输出模块中设置有第一阈值和第二阈值;评估报告输出模块筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类,然后将筛选出的信息大类的名称、各信息小类的标注关键词以及信息小类中的浏览量最高的主题相关信息绘制成评估报告输出,并在评估报告中录入各信息大类的浏览量总值、信息小类的浏览量总值、主题相关信息的浏览量以及来源网址。优选地,还包括网站补充模块,其内部预设有高信网站数据库,高新网站数据库中存储有多个网站网址;网站补充模块分别与主题信息检索模块、语义分析模块和评估报告输出模连接;网站补充模块获取存在于高信网站数据库中的来源网站对应的主题相关信息作为校对目标,并判断评估报告是否收容所有校对目标所在信息小类,并根据判断结果对评估报告进行补充。优选地,如果有校对目标所在信息小类未纳入评估报告,则获取遗漏的校对目标所在信息小类作为补充对象;如果补充对象所在信息大类存在于生成的评估报告中,则将补充对象补入评估报告中对应的信息大类下;如果补充对象所在信息大类未存在于生成的评估报告中,则将补充对象以及补充对象所在信息大类补入评估报告。优选地,评估报告中对于根据高信网站数据库补入的内容突出显示。优选地,主题信息检索模块包括输入单元和网络爬虫,输入单元用于输入主题,网络爬虫与输入单元连接,其根据主题进行网络检索获取主题相关信息。优选地,语义分析模块中预设的相似度阈值可人工编辑。本专利技术中,主题信息检索模块根据工作人员输入的主题基于网络大数据进行主题检索,有利于保证信息检索的全面性,避免舆情监控中的信息遗漏。且对各主题相关信息的来源网站和浏览量进行统计,有利于后续对检索结果的调用和复查。本专利技术中,通过关键词对主题相关信息进行聚类获得多个信息小类,然后根据信息小类标注的关键词的语义相似度对信息小类进行聚类获得多个信息大类,如此,将零散的主题相关信息的处理转换为信息小类、信息大类的处理,提高了处理对象的聚集度,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。本专利技术中,评估报告输出模块中设置有第一阈值和第二阈值,以便根据浏览量对于信息大类、信息小类进行筛选,删减了评估报告录入的内容,使得评估报告简洁明了,便于工作人员查阅。且评估报告中录入的内容为浏览量较高的信息,从而,保证了评估报告对于舆情倾向表达的真实性。另外,通过第二阈值整理各信息大类中的信息小类,使得评估报告中对于舆情倾向的表达更加完整、全面。附图说明图1为本专利技术提出的一种舆情信息归类评估系统框图。具体实施方式参照图1,本专利技术提出的一种舆情信息归类评估系统,包括主题信息检索模块、关键词提取模块、第一聚类模块、语义分析模块、浏览量统计模块、评估报告输出模块和网站补充模块。主题信息检索模块用于根据主题进行网络信息检索,获取主题相关信息,并对各主题相关信息的来源网站和浏览量进行统计。具体地,主题信息检索模块包括输入单元和网络爬虫,输入单元用于输入主题,网络爬虫与输入单元连接,其根据主题进行网络检索获取主题相关信息。本实施方式中,主题由工作人员通过输入单元提供,然后通过网络爬虫基于网络大数据进行主题检索,有利于保证信息检索的全面性,避免舆情监控中的信息遗漏。且对各主题相关信息的来源网站和浏览量进行统计,有利于后续对检索结果的调用和复查。关键词提取模块与主题信息检索模块连接获取主题相关信息,并对各主题相关信息提取关键词。关键词的提取相当于对各主题相关信息进行去冗余,提取要义,使得主题相关信息的表达更加简洁、明确。第一聚类模块分别与主题信息检索模块和关键词提取模块连接,其将关键词相同的主题相关信息进行聚类,获得多个信息小类,且各信息小类以关键词标注。如此,通过关键词进行聚类,将零散的主题相关信息转换成具有一定聚集度的信息小类,避免了以零散的主题相关信息作为信息处理对象的繁琐性,减少了工作量,提高了信息处理效率。各信息小类以关键词标注,便于信息小类的区分,且便于对信息小类中归纳的主题相关信息的表达。语义分析模块第一聚类模块连接,其对各信息小类的关键词进行语义分析,并将关键词的语义相似度大于预设相似度阈值的信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称。如此,通过将信息小类归纳为信息大类,进一步提高了信息处理对象的聚集度,减少了工作量,提高了信息处理效率。本实施方式中,语义分析模块中预设的相似度阈值可人工编辑,以便工作人员根据需要于色好相似度阈值,提高语义分析模块工作的灵活性和适用广度。浏览量统计模块分别连接主题信息检索模块和语义分析模块。浏览量统计模块分别计算各信息小类中包含的主题相关信息的浏览量总值和各信息大类中包含的信息小类的浏览量总值;并根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序。如此,可根据浏览量直观的获知各信息大类、信息小类表达的舆情倾向。评估报告输出模块与浏览量统计模块和主题信息检索模块连接。评估报告输出模块中设置有第一阈值和第二阈值。评估报告输出模块筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前本文档来自技高网...
一种舆情信息归类评估系统

【技术保护点】
一种舆情信息归类评估系统,其特征在于,包括:主题信息检索模块,用于根据主题进行网络信息检索,获取主题相关信息,并对各主题相关信息的来源网站和浏览量进行统计;关键词提取模块,其与主题信息检索模块连接获取主题相关信息,并对各主题相关信息提取关键词;第一聚类模块,其分别与主题信息检索模块和关键词提取模块连接,其将关键词相同的主题相关信息进行聚类,获得多个信息小类,且各信息小类以关键词标注;语义分析模块,与第一聚类模块连接,其对各信息小类的关键词进行语义分析,并将关键词的语义相似度大于预设相似度阈值的信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称;浏览量统计模块,其分别连接主题信息检索模块和语义分析模块,其分别计算各信息小类中包含的主题相关信息的浏览量总值和各信息大类中包含的信息小类的浏览量总值;并根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序;评估报告输出模块,其与浏览量统计模块和主题信息检索模块连接;评估报告输出模块中设置有第一阈值和第二阈值;评估报告输出模块筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类,然后将筛选出的信息大类的名称、各信息小类的标注关键词以及信息小类中的浏览量最高的主题相关信息绘制成评估报告输出,并在评估报告中录入各信息大类的浏览量总值、信息小类的浏览量总值、主题相关信息的浏览量以及来源网址。...

【技术特征摘要】
1.一种舆情信息归类评估系统,其特征在于,包括:主题信息检索模块,用于根据主题进行网络信息检索,获取主题相关信息,并对各主题相关信息的来源网站和浏览量进行统计;关键词提取模块,其与主题信息检索模块连接获取主题相关信息,并对各主题相关信息提取关键词;第一聚类模块,其分别与主题信息检索模块和关键词提取模块连接,其将关键词相同的主题相关信息进行聚类,获得多个信息小类,且各信息小类以关键词标注;语义分析模块,与第一聚类模块连接,其对各信息小类的关键词进行语义分析,并将关键词的语义相似度大于预设相似度阈值的信息小类进行聚类,获得多个信息大类,并提取各信息小类关键词中语义相同的部分作为信息大类的名称;浏览量统计模块,其分别连接主题信息检索模块和语义分析模块,其分别计算各信息小类中包含的主题相关信息的浏览量总值和各信息大类中包含的信息小类的浏览量总值;并根据浏览量对各信息大类、信息大类中包含的信息小类以及信息小类中包含的主题相关信息进行排序;评估报告输出模块,其与浏览量统计模块和主题信息检索模块连接;评估报告输出模块中设置有第一阈值和第二阈值;评估报告输出模块筛选排序位于第一阈值前的信息大类以及各信息大类中排序位于第二阈值前的信息小类,然后将筛选出的信息大类的名称、各信息小类的标注关键词以及信息小类中的浏览量最高的主题相关信息绘制成评估报告输出,并在评估报告中录入各信...

【专利技术属性】
技术研发人员:党连坤石晔
申请(专利权)人:合肥指南针电子科技有限责任公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1