一种基于DFA算法进行网络舆情分析系统及其方法技术方案

技术编号:26763042 阅读:35 留言:0更新日期:2020-12-18 23:19
本发明专利技术公开了一种基于DFA算法进行网络舆情分析系统及其方法,包括数据抓取层,用于对待监测的源数据按照预设的规则进行内容抓取,并将抓取内容发送至原始数据存储层;原始数据存储层,用于存储接收到的数据,包括关系型数据库和分布式文件系统;数据分析层,用于对原始数据存储层存储的数据按照预设的DFA算法进行数据分析,并将分析结果发送至分析结果层;分析结果层,用于存储接收的分析结果;以及控制层和前端展示层。本发明专利技术其架构清晰、简洁,可根据用户的需求实现有针对性的监控,关键字支持动态配置且识别效率高。

【技术实现步骤摘要】
一种基于DFA算法进行网络舆情分析系统及其方法
本专利技术涉及一种基于DFA算法进行网络舆情分析系统及其方法,属于数据分析

技术介绍
随着计算机信息技术快速的普及应用,信息传播的渠道越来越多,当下流行的网络为广大网民提供了一个自由的舆论平台,针对国内外的重大时事,网民的思想观点都能够快速形成网络舆论,产生的巨大影响力引起了相关部门机构的关注,存在于网络舆情监控系统中的问题也逐渐显现。舆情监控是指网络监控系统对互联网上的各种信息进行分类整理,筛选出热点话题和敏感的话题趋势数据,通过图表等方式将分析后的结果直观展示出来,从而确定舆情在网站中的变化情况。现有的舆情分析系统有很多,但大都是对全网进行监控分析,为了实现全面监控,其架构相对复杂,不够简洁。而对于一些有针对性的去监控,如只监控本地的某些论坛和某些网站,从而实现本地或当地居民的动态进行监控,现有舆情分析系统因其架构复杂、不简洁不太适用这种场景,识别效率低。因此,急需一种能够有针对性进行监控、架构清晰简洁、识别率高的舆情分析系统。专利
技术实现思路
针对本文档来自技高网
...

【技术保护点】
1.一种基于DFA算法进行网络舆情分析系统,其特征在于,包括:/n数据抓取层,用于对待监测的源数据按照预设的规则进行内容抓取,并将抓取内容发送至原始数据存储层;/n原始数据存储层,用于存储接收到的数据,包括关系型数据库和分布式文件系统;/n数据分析层,用于对原始数据存储层存储的数据按照预设的DFA算法进行数据分析,并将分析结果发送至分析结果层;/n分析结果层,用于存储接收的分析结果;/n控制层,用于控制分析结果层的数据仓库及相关业务功能的访问权限;/n前端展示层,用于展示舆情分析结果,并对外提供API以供调用查询;/n所述数据抓取层、原始数据存储层、数据分析层、分析结果层和前端展示层之间依次进...

【技术特征摘要】
1.一种基于DFA算法进行网络舆情分析系统,其特征在于,包括:
数据抓取层,用于对待监测的源数据按照预设的规则进行内容抓取,并将抓取内容发送至原始数据存储层;
原始数据存储层,用于存储接收到的数据,包括关系型数据库和分布式文件系统;
数据分析层,用于对原始数据存储层存储的数据按照预设的DFA算法进行数据分析,并将分析结果发送至分析结果层;
分析结果层,用于存储接收的分析结果;
控制层,用于控制分析结果层的数据仓库及相关业务功能的访问权限;
前端展示层,用于展示舆情分析结果,并对外提供API以供调用查询;
所述数据抓取层、原始数据存储层、数据分析层、分析结果层和前端展示层之间依次进行数据传输。


2.根据权利要求1所述的一种基于DFA算法进行网络舆情分析系统,其特征在于,所述源数据包括各门户网站的新闻、论坛讨论帖、博客内容、微博和公众号内容。


3.根据权利要求1所述的一种基于DFA算法进行网络舆情分析系统,其特征在于,所述数据抓取层通过定时任务执行设计好的脚本对源数据进行下载、预清洗和解析,并将解析后获得的有效数据进行预处理后保存到原始数据存储层;整个所述数据抓取层包括:
来源管理模块,用于管理和维护需要监控的数据源网站列表信息;
抓取规则模块,用于针对不同的数据源网站配置与其内部页面相匹配的抓取规则;
内容解析脚本模块,用于针对不同数据源网站的网页特征和源码元素配置相应的解析策略,脚本使用xpath进行配置;
定时任务模块,用于设置抓取任务和解析任务的执行计划,并根据预设的时间和周期定时执行相关任务;
下载器,用于从互联网下载页面内容,并将下载的内容传送给预清洗模块;
预清洗模块,用于对接收的内容进行预清洗,并将预清洗好的数据交由解析器进行处理;
解析器,用于根据解析脚本对预清洗好的数据进行解析,抽取出有用的信息;解析器产生的结果通过输出管道进行输出和保存,支持输出到文件和数据库;
调度器,用于管理待下载的URL列表,并对URL进行去重,调用下载器下载相应的内容;具体的,通过Redis作为消息队列存储和管理URL列表,并通过先进先出的算法进行逐一处理,调用下载器下载相应的内容。


4.根据权利要求1所述的一种基于DFA算法进行网络舆情分析系统,其特征在于,所述数据分析层包括:
预设关键字模块,用于管理和维护需要监测的关键字列表;
定时器,用于定时执行数据分析任务,结合数据量的大小来设定定时任务的执行频率;
数据加载器,用于从原始数据库和文件系统加载文本内容,通过SQL语句或文件读取方式获取待分析的内容列表,并根据文件名称、数据标识过滤已处理过的数据;
词频分析器,利用DFA算法,结合预设的关键字,对抓取的原始内容进行词频分析和统计;
结果输出模块,用于将分析和统计结果输出到数据仓库或文件系统,并按照不同...

【专利技术属性】
技术研发人员:卢宪政左赋斌
申请(专利权)人:南京智数云信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1