当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于storm流计算框架的食品安全网络舆情分析方法技术

技术编号:17541641 阅读:79 留言:0更新日期:2018-03-24 18:42
本发明专利技术为基于storm流计算框架的食品安全网络舆情分析方法,对网络媒体资源进行网络爬虫,获取有关食品安全网页的url,下载相应的网页数据进行分析后保存到Hbase数据库中;Spout节点从数据库读取数据放入网络拓扑结构,随机分发给第一层Bolt节点;第一层Bolt节点获取数据后对文本数据进行向量化,进行分词和计算该词汇的权重;对第一层Bolt节点向量化后的文本数据进行文本聚类,将同一类的发送到相同的Bolt节点中;对同一类的文本数据作进一步处理生成事件,提取事件中舆情信息,据此计算出文本分类的舆情倾向度。本发明专利技术通过对网络舆情进行分析以实现对食品安全的监控,利用storm分布式流计算框架,提高了数据处理的效率,解决了以往时效性较差的缺点。

An analysis method of food safety network public opinion based on storm flow computing framework

The invention relates to a storm flow calculation method based on the framework of food safety network public opinion, the network crawler of network media resources, access to relevant food safety \URL\ to download the corresponding data analysis are saved in the Hbase database; the Spout node reads the data from the database in the network topology, randomly distributed to the first layer of the Bolt node the first layer of the Bolt node; after obtaining data to text data to quantify, segmentation and weight calculation of the vocabulary; the first layer Bolt node text clustering to text the quantized data, send the same class to the same Bolt node; further processing to generate events on the text data of the same class in the event of public opinion, information extraction, text classification are calculated based on public opinion tendency. The invention analyzes the network public opinion to achieve the monitoring of food safety, and improves the efficiency of data processing by using the storm distributed flow computing framework, and solves the shortcomings of the old timeliness.

【技术实现步骤摘要】
一种基于storm流计算框架的食品安全网络舆情分析方法
本专利技术涉及食品安全大数据处理
,尤其涉及一种基于storm流计算框架的食品安全网络舆情分析方法。
技术介绍
随着经济的发展,人们的生活质量不断提高,对食品的要求也从“裹腹”向“健康、营养”过渡。我国目前建立了较为完备的食品质量安全标准,但对于食品安全的网络监控和基于互联网的食品安全分析并不多。食品安全分析是食品安全管理的重要组成部分,其功能主要在于对食品安全风险的预防预测。影响食品安全的因素复杂多变,对于食品安全监管的难度系数也越来越大,建立有效的食品安全网络舆情分析机制,及时发现安全隐患是一项迫切任务。现有的数据处理框架有storm、MapReduce、SparkStreaming等。MapReduce:MapReduce是一种面向大数据并行处理的计算框架。主要分为map阶段和reduce阶段这两个阶段,每个阶段都是用键值对作为输入和输出。map阶段是从文件流读取信息,按关键字形成key/value键值对。reduce阶段是对map阶段的结果进行汇总,将具有相同key值的分为一类进行统一处理。MapReduce是一种分布式框架,可以降低服务器的压力,提高运算效率,但是MapReduce是一种离线数据处理框架,无法满足实时性要求高的业务。SparkStreaming:SparkStreaming是一个类似于MapReduce的分布式计算框架,其核心在于其弹性分布式数据集。它与MapReduce相比的优势就在于它是一种实时计算框架,能同时运行大量的结点,进行海量数据的处理。主要原理是将实时输入的数据流以时间片Δt为单位切分成块,然后把每块数据作为一个RDD(弹性分布式数据集),并使用RDD提供的接口实现数据的批量处理,最终将处理的结果生成一个SparkJob等待汇总。SparkStreaming具有吞吐量大、实时性高的优点,但事务机制并不完善,数据容易丢失出错。综上所述,本专利技术结合Scrapy与storm框架并通过优化storm框架中的Single‐pass算法提供一种食品安全网络舆情分析系统。
技术实现思路
为了解决现有技术所存在的问题,本专利技术提供一种基于storm流计算框架的食品安全网络舆情分析方法,通过Scrapy爬虫框架爬取有关食品安全的网页,然后对提取出来的网页文件的文本内容进行分词以及向量化,对向量化后的文本数据进行分布式聚类,对同一类聚类结果做进一步处理,获取该类的倾向度结果,再根据倾向度结果判断舆情变化的趋势,从而进行监控和预警。本专利技术采用如下技术方案来实现:一种基于storm流计算框架的食品安全网络舆情分析方法,包括以下步骤:S1、利用Scrapy爬虫框架对网络媒体资源进行网络爬虫,获取有关食品安全网页的url,根据url将相应的网页数据下载并进行分析,最后将数据保存到Hbase数据库中;S2、Spout节点从Hbase数据库读取数据放入网络拓扑结构topology,并且随机分发给第一层Bolt节点进行计算和处理;S3、第一层Bolt节点获取数据后对文本数据进行向量化,将文本数据进行分词和计算该词汇的权重;S4、对第一层Bolt节点向量化后的文本数据进行文本聚类,并将同一类的文本数据发送到相同的Bolt节点中;S5、对同一类的文本数据作进一步处理,生成事件,提取事件中的舆情信息,根据舆情信息计算出文本分类的舆情倾向度。所述步骤S3通过汉语分词系统对文本的标题以及摘要进行分词;根据食品分类的规则,在数据库中建立食品类别表,将标题以及摘要分词后的结果与数据库中食品类别表进行对比确定标题或摘要中出现的食品,统计确定为食品的词汇出现的频率,出现频率最高的食品词汇的父类作为事件的分类;继续通过汉语分词系统对整篇文章进行分词,确定该文章出现的时间、地点、评价、转发量及评论数;最后对文本进行向量化。所述步骤S5在第二层Bolt节点中对同一类的文本数据进行进一步处理,生成事件。第二层Bolt节点首先提取由第一层Bolt节点获得的事件发生的时间、地点、类别以及舆情;根据舆情计算得出舆情倾向度,创建正向倾向词库、中立倾向词库、反向倾向词库共三个倾向数据库,并向三个倾向数据库导入相应的词汇;利用汉语分词系统对文本数据中评价的内容进行分词,将分词后的结果与三个倾向数据库进行对比,获取评价内容中正向倾向、中立倾向、反向倾向的个数,计算出个体对象舆情倾向度;然后基于同一类不同对象的倾向度计算某个文本分类的整体舆情倾向度。从以上技术方案可知,本专利技术首先利用Scrapy爬虫框架爬取有关食品安全的网页,然后对提取出来的网页文件的文本内容进行分词以及向量化,对向量化后的文本数据进行分布式聚类,对同一类聚类结果进行进一步的处理,获取该类的倾向度结果,由此达到网络监控的效果。与现有技术相比,本专利技术具有如下优点和有益效果:1、本专利技术通过Scrapy爬虫框架爬取有关食品安全的网页,然后对提取出来的网页文件的文本内容进行分词以及向量化,对向量化后的文本数据进行分布式聚类,对同一类聚类结果做进一步处理,获取该类的倾向度结果,再根据倾向度结果判断舆情变化的趋势,从而进行监控和预警。2、本专利技术还对storm框架的Single‐pass算法进行了优化,在数据处理的第一层Bolt节点先对数据进行分类,然后将相同类别的数据传到相同的节点,并根据类中的转发量、评价数计算出预警值,提高了运算效率以及数据的可信性。3、本专利技术通过对网络舆情进行分析以实现对食品安全的监控,利用storm分布式流计算框架,提高了数据处理的效率,解决了以往时效性较差的缺点。附图说明图1为storm框架的数据交互图;图2为storm框架中的topology拓扑结构图;图3为Spout节点与Bolt节点的数据交互图;图4为本专利技术食品安全网络舆情分析流程图。具体实施方式下面结合附图及实施例对本专利技术做进步详细的描述,但本专利技术的实施方式不限于此。实施例本专利技术提供了一种基于storm流计算框架的食品安全网络舆情分析方法,采用storm框架与优化后的Single‐pass算法相结合进行食品安全网络监控。storm是一个分布式、高容错的实时计算系统。storm具有低延迟、高性能、可扩展等优势,令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。在本专利技术中所使用的storm分布式集群主要由一个控制节点和一群工作节点组成,使用Zookeeper进行管理。控制节点上包括Nimbus组件,Nimbus组件负责响应分布在系统集群中的节点,分配工作给集群上的服务器以及监测故障。工作节点包括Supervisor组件,Supervisor组件负责监听分配给它的那台服务器的工作,根据需要启动或关闭工作进程Worker。Zookeeper是完成Supervisor组件和Nimbus组件之间协调的服务,Nimbus组件和Supervisor组件实际运行的工作进程Worker都是把心跳保存在Zookeeper上。Nimbus组件也是根据Zookeerper上的心跳和任务的运行状况,进行工作调度和任务分配的,图1为本系统的storm数据交互图。在本专利技术中,事先会将分析有关食品安全的网页文件数据的逻辑封装进Storm中的网本文档来自技高网
...
一种基于storm流计算框架的食品安全网络舆情分析方法

【技术保护点】
一种基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,包括以下步骤:S1、利用Scrapy爬虫框架对网络媒体资源进行网络爬虫,获取有关食品安全网页的url,根据url将相应的网页数据下载并进行分析,最后将数据保存到Hbase数据库中;S2、Spout节点从Hbase数据库读取数据放入网络拓扑结构topology,并且随机分发给第一层Bolt节点进行计算和处理;S3、第一层Bolt节点获取数据后对文本数据进行向量化,将文本数据进行分词和计算该词汇的权重;S4、对第一层Bolt节点向量化后的文本数据进行文本聚类,并将同一类的文本数据发送到相同的Bolt节点中;S5、对同一类的文本数据作进一步处理,生成事件,提取事件中的舆情信息,根据舆情信息计算出文本分类的舆情倾向度。

【技术特征摘要】
1.一种基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,包括以下步骤:S1、利用Scrapy爬虫框架对网络媒体资源进行网络爬虫,获取有关食品安全网页的url,根据url将相应的网页数据下载并进行分析,最后将数据保存到Hbase数据库中;S2、Spout节点从Hbase数据库读取数据放入网络拓扑结构topology,并且随机分发给第一层Bolt节点进行计算和处理;S3、第一层Bolt节点获取数据后对文本数据进行向量化,将文本数据进行分词和计算该词汇的权重;S4、对第一层Bolt节点向量化后的文本数据进行文本聚类,并将同一类的文本数据发送到相同的Bolt节点中;S5、对同一类的文本数据作进一步处理,生成事件,提取事件中的舆情信息,根据舆情信息计算出文本分类的舆情倾向度。2.根据权利要求1所述的基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,所述步骤S3通过汉语分词系统对文本的标题以及摘要进行分词;根据食品分类的规则,在数据库中建立食品类别表,将标题以及摘要分词后的结果与数据库中食品类别表进行对比确定标题或摘要中出现的食品,统计确定为食品的词汇出现的频率,出现频率最高的食品词汇的父类作为事件的分类;继续通过汉语分词系统对整篇文章进行分词,确定该文章出现的时间、地点、评价、转发量及评论数;最后对文本进行向量化。3.根据权利要求1所述的基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,所述步骤S4使用余弦相似度算法来进行文本聚类。4.根据权利要求1所述的基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,所述步骤S5在第二层Bolt节点中对同一类的文本数据进行进一步处理,生成事件。5.根据权利...

【专利技术属性】
技术研发人员:吴羽黄文恺林炽杰
申请(专利权)人:广州大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1