舆情大数据的可视化系统技术方案

技术编号:15329904 阅读:197 留言:0更新日期:2017-05-16 13:28
本发明专利技术公开了一种舆情大数据的可视化系统,包括数据采集模块和显示模块;数据采集模块包括主题设置单元、舆情采集单元、存储单元、目标网页生成单元和分析单元;显示模块包括大数据标准接口、大数据可视化引擎、可视化工具库和智能知识库;大数据标准接口对分析单元输出的数据词库中数据的格式进行标准化处理,得到标准大数据;大数据可视化引擎,通过调用可视化工具库对标准大数据进行可视化处理得到可视标准大数据;调用智能知识库对可视标准大数据进行解读模式匹配得到易读数据流,并将所述易读数据流进行GIS地图呈现处理。本发明专利技术能够对网络舆情进行加工处理,并将处理结果进行可视化展示,便于用户直观地了解舆情的传播状态。

Public opinion large data visualization system

The invention discloses a visualization system of public opinion data, including data acquisition module and a display module; data acquisition module includes a theme setting unit, information collection unit, a storage unit, the target page generating unit and an analysis unit; the display module comprises a data interface standard, data visualization engine, visualization tool library and intelligence knowledge base; data interface standards on standardized data analysis unit output data in the lexicon format, standard data; data visualization engine, the standard data visualization by visual standards through large data visualization tool library call; call intelligent knowledge base of pattern matching to get readable data stream visual standard data, and the read data flow GIS map display processing. The invention can process the network public opinion and display the processing result visually so that the user can intuitively understand the propagation state of the public opinion.

【技术实现步骤摘要】
舆情大数据的可视化系统
本专利技术涉及网络舆情监控
,特别是涉及一种舆情大数据的可视化系统。
技术介绍
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。随着社会进入网络时代,舆情出现了新的分支-网络舆情。网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映。传统的社会舆情存在于民间,存在于大众的思想观念和日常的街头巷尾的议论之中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意调查等方式进行,获取效率低下,样本少而且容易流于偏颇,耗费巨大。而随着互联网的发展,大众往往以信息化的方式发表各自看法,网络舆情可以采用网络自动抓取等技术手段方便获取,效率高而且信息保真(没有人为加工),覆盖面全。近几年来,随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。为了实现对网络舆情的了解,以便采取适当的应对措施,出现了网络舆情监控系统。然而现有的网络舆情监控系统只是简单地对相关信息进行检索,并未对其进行进一步的分析处理,越来越难以满足实际需求。专利技术内容本专利技术的目的在于克服现有技术的不足,提供一种舆情大数据的可视化系统,能够对网络舆情进行加工处理,并将处理结果进行可视化展示,便于用户直观地了解舆情的传播状态。本专利技术的目的是通过以下技术方案来实现的:舆情大数据的可视化系统,包括数据采集模块和显示模块;所述主题设置单元,用于获取舆情主题,并根据所述舆情主题确定临时目标网页;所述舆情采集单元,用于根据临时网页和各数据采集装置的状态信息选择最优数据采集装置进行舆情数据采集,最优数据采集装置在接收到舆情采集指令后从临时目标网页上读取临时舆情数据;所述存储单元,用于采用分布式存储的方式来存储所述临时舆情数据;所述目标网页生成单元,用于计算所述所有临时舆情数据与舆情主题的匹配度,选择匹配度大于阈值的临时舆情数据作为最终舆情数据,最终舆情数据对应的网页为最终目标网页;所述分析单元,用于对所述最终舆情数据的发布者、发布者位置和发布时间进行分析,以及对接收者的位置、接收时间进行分析;所述显示模块包括大数据标准接口、大数据可视化引擎、可视化工具库和智能知识库;所述大数据标准接口用于获取所述分析单元输出的数据词库,并对所述数据词库中数据的格式进行标准化处理,得到标准大数据;所述大数据可视化引擎,用于通过调用所述可视化工具库中相应的可视化工具对所述标准大数据进行可视化处理,得到可视标准大数据;通过调用所述智能知识库中相应的大数据解读模式集,对所述可视标准大数据进行解读模式匹配得到易读数据流,并在获得获取显示指令时将所述易读数据流进行GIS地图呈现处理。优选的,所述舆情采集单元包括:控制装置,用于判断各数据采集装置的工作状态,选择出处于空闲状态的数据采集装置;在第一阈值时间内,测试各数据采集装置完全加载目标网页的次数,选出完全加载目标网页次数最多的数据采集装置作为最优数据采集装置。优选的,所述分析单元包括:发布者分析单元,用于获取所述最终目标网页所属网站作为最终舆情数据的发布者,获取所述最终目标网页所属网站的注册位置作为最终舆情数据的发布者位置,获取所述最终目标网页的创建时间作为发布时间;接收者分析单元,用于获取所述最终目标网页的访问者的IP地址的归属地作为接收者的位置,获取所述访问者访问最终目标网页的时间作为接收时间。优选的,所述发布者分析单元还用于对最终舆情数据进行分析,检测所述最终舆情数据中是否记载数据来源。优选的,所述显示模块还包括:指令接收子模块,用于获取所述显示指令;GIS子模块,用于构建GIS地图;显示子模块,用于将大数据可视化引擎的处理结果结合GIS地图进行显示。优选的,所述目标网页生成单元包括:匹配度计算模块,用于从所述存储单元中读取临时舆情数据,并对所述临时舆情数据进行分词得到数据词库;根据预设的无效词库删除所述数据词库中的无效词;根据出现次数为所述数据词库中的各词组赋予第一权值,根据各词组的第一权值选出关键词;获取所述关键词与监控主题包含的相同词组,以及监控主题包括的词组数量;计算所述相同词组的数量与监控主题中词组的数量的比值得到匹配度;或,用于从所述存储单元中读取临时舆情数据,并对所述临时舆情数据进行分词得到数据词库;根据预设的无效词库删除所述数据词库中的无效词;根据出现次数为所述数据词库中的各词组赋予第一权值,根据各词组的第一权值选出关键词;获取所述关键词与监控主题包含的相同词组,以及监控主题包括的词组数量;为监控主题中各词组设置第二权值;计算所述相同词组的第二权值之和与监控主题中词组的第二权值之和的比值得到匹配度。优选的,所述匹配度计算模块对所述临时舆情数据进行分词时:将所述临时舆情数据从正序和返序分别与预设词典进行匹配,得到第一中间词库;删除临时舆情数据中的标点符号,再将所述临时舆情数据从正序和返序分别与预设词典进行匹配,得到第二中间词库;根据所述第一中间词库和第二中间词库构成数据词库。优选的,所述第一数据采集装置从目标网页中读取临时舆情数据时:获取目标网页的网址,与所述目标网页对应的服务器建立连接,下载并解析该服务器中的超文本链接标识语言源文件。优选的,所述存储单元包括:封装模块,用于获取所述临时舆情数据的属性信息,并根据该属性信息将所述临时舆情数据封装为相应格式,并对所述目标数据进行编号;数据存储模块,用于根据所述临时舆情数据的封装格式将临时舆情数据存入相应的数据库中;编号存储模块,用于存储所述临时舆情数据的编号。优选的,所述显示模块进行GIS地图呈现时,按照时间顺序依次在所述GIS地图上以第一颜色的亮点表示发布者位置,以第二颜色的亮点表示接收者的位置。本专利技术的有益效果是:本专利技术能够根据输入的舆情主题获取相关的舆情数据,并对舆情数据进行分析,获得舆情数据的发布者、发布者的位置、发布时间,以及接收者的位置和接收时间,然后将分析结果进行可视化显示,使得用户可以直观地了解舆情的传播状态,以制定相应的措施。附图说明图1为本专利技术中舆情大数据的可视化系统的一个实施例的框图;图2为本专利技术中舆情采集单元的一个实施例的框图;图3为本专利技术中存储单元的一个实施例的框图;图4为本专利技术中分析单元的一个实施例的框图;图5为本专利技术中显示模块的一个实施例的框图。具体实施方式下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。如图1所示,舆情大数据的可视化系统包括数据采集模块和显示模块;其中,数据采集模块包括主题设置单元、舆情采集单元、存储单元、目标网页生成单元和分析单元,所述显示模块包括大数据标准接口、大数据可视化引擎、可视化工具库和智能知识库。主题设置单元,用于获取舆情主题,并根据本文档来自技高网...
舆情大数据的可视化系统

【技术保护点】
舆情大数据的可视化系统,其特征在于,包括数据采集模块和显示模块;所述数据采集模块包括主题设置单元、舆情采集单元、存储单元、目标网页生成单元和分析单元;所述主题设置单元,用于获取舆情主题,并根据所述舆情主题确定临时目标网页;所述舆情采集单元,用于根据临时网页和各数据采集装置的状态信息选择最优数据采集装置进行舆情数据采集,最优数据采集装置在接收到舆情采集指令后从临时目标网页上读取临时舆情数据;所述存储单元,用于采用分布式存储的方式来存储所述临时舆情数据;所述目标网页生成单元,用于计算所述所有临时舆情数据与舆情主题的匹配度,选择匹配度大于阈值的临时舆情数据作为最终舆情数据,最终舆情数据对应的网页为最终目标网页;所述分析单元,用于对所述最终舆情数据的发布者、发布者位置和发布时间进行分析,以及对接收者的位置、接收时间进行分析;所述显示模块包括大数据标准接口、大数据可视化引擎、可视化工具库和智能知识库;所述大数据标准接口用于获取所述分析单元输出的数据词库,并对所述数据词库中数据的格式进行标准化处理,得到标准大数据;所述大数据可视化引擎,用于通过调用所述可视化工具库中相应的可视化工具对所述标准大数据进行可视化处理,得到可视标准大数据;通过调用所述智能知识库中相应的大数据解读模式集,对所述可视标准大数据进行解读模式匹配得到易读数据流,并在获得获取显示指令时将所述易读数据流进行GIS地图呈现处理。...

【技术特征摘要】
1.舆情大数据的可视化系统,其特征在于,包括数据采集模块和显示模块;所述数据采集模块包括主题设置单元、舆情采集单元、存储单元、目标网页生成单元和分析单元;所述主题设置单元,用于获取舆情主题,并根据所述舆情主题确定临时目标网页;所述舆情采集单元,用于根据临时网页和各数据采集装置的状态信息选择最优数据采集装置进行舆情数据采集,最优数据采集装置在接收到舆情采集指令后从临时目标网页上读取临时舆情数据;所述存储单元,用于采用分布式存储的方式来存储所述临时舆情数据;所述目标网页生成单元,用于计算所述所有临时舆情数据与舆情主题的匹配度,选择匹配度大于阈值的临时舆情数据作为最终舆情数据,最终舆情数据对应的网页为最终目标网页;所述分析单元,用于对所述最终舆情数据的发布者、发布者位置和发布时间进行分析,以及对接收者的位置、接收时间进行分析;所述显示模块包括大数据标准接口、大数据可视化引擎、可视化工具库和智能知识库;所述大数据标准接口用于获取所述分析单元输出的数据词库,并对所述数据词库中数据的格式进行标准化处理,得到标准大数据;所述大数据可视化引擎,用于通过调用所述可视化工具库中相应的可视化工具对所述标准大数据进行可视化处理,得到可视标准大数据;通过调用所述智能知识库中相应的大数据解读模式集,对所述可视标准大数据进行解读模式匹配得到易读数据流,并在获得获取显示指令时将所述易读数据流进行GIS地图呈现处理。2.根据权利要求1所述的舆情大数据的可视化系统,其特征在于,所述舆情采集单元包括:控制装置,用于判断各数据采集装置的工作状态,选择出处于空闲状态的数据采集装置;在第一阈值时间内,测试各数据采集装置完全加载目标网页的次数,选出完全加载目标网页次数最多的数据采集装置作为最优数据采集装置。3.根据权利要求1所述的舆情大数据的可视化系统,其特征在于,所述分析单元包括:发布者分析单元,用于获取所述最终目标网页所属网站作为最终舆情数据的发布者,获取所述最终目标网页所属网站的注册位置作为最终舆情数据的发布者位置,获取所述最终目标网页的创建时间作为发布时间;接收者分析单元,用于获取所述最终目标网页的访问者的IP地址的归属地作为接收者的位置,获取所述访问者访问最终目标网页的时间作为接收时间。4.根据权利要求3所述的舆情大数据的可视化系统,其特征在于,所述发布者分析单元还用于对最终舆情数据进行分析,检测所述最终舆情数据中是否记载数据来源。5.根据权利要求1所述的舆情大数据的可视化系...

【专利技术属性】
技术研发人员:赵神州辛凯颜怀柏
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1