The invention relates to a storm flow calculation method based on the framework of food safety network public opinion, the network crawler of network media resources, access to relevant food safety \URL\ to download the corresponding data analysis are saved in the Hbase database; the Spout node reads the data from the database in the network topology, randomly distributed to the first layer of the Bolt node the first layer of the Bolt node; after obtaining data to text data to quantify, segmentation and weight calculation of the vocabulary; the first layer Bolt node text clustering to text the quantized data, send the same class to the same Bolt node; further processing to generate events on the text data of the same class in the event of public opinion, information extraction, text classification are calculated based on public opinion tendency. The invention analyzes the network public opinion to achieve the monitoring of food safety, and improves the efficiency of data processing by using the storm distributed flow computing framework, and solves the shortcomings of the old timeliness.
【技术实现步骤摘要】
一种基于storm流计算框架的食品安全网络舆情分析方法
本专利技术涉及食品安全大数据处理
,尤其涉及一种基于storm流计算框架的食品安全网络舆情分析方法。
技术介绍
随着经济的发展,人们的生活质量不断提高,对食品的要求也从“裹腹”向“健康、营养”过渡。我国目前建立了较为完备的食品质量安全标准,但对于食品安全的网络监控和基于互联网的食品安全分析并不多。食品安全分析是食品安全管理的重要组成部分,其功能主要在于对食品安全风险的预防预测。影响食品安全的因素复杂多变,对于食品安全监管的难度系数也越来越大,建立有效的食品安全网络舆情分析机制,及时发现安全隐患是一项迫切任务。现有的数据处理框架有storm、MapReduce、SparkStreaming等。MapReduce:MapReduce是一种面向大数据并行处理的计算框架。主要分为map阶段和reduce阶段这两个阶段,每个阶段都是用键值对作为输入和输出。map阶段是从文件流读取信息,按关键字形成key/value键值对。reduce阶段是对map阶段的结果进行汇总,将具有相同key值的分为一类进行统一处理。MapReduce是一种分布式框架,可以降低服务器的压力,提高运算效率,但是MapReduce是一种离线数据处理框架,无法满足实时性要求高的业务。SparkStreaming:SparkStreaming是一个类似于MapReduce的分布式计算框架,其核心在于其弹性分布式数据集。它与MapReduce相比的优势就在于它是一种实时计算框架,能同时运行大量的结点,进行海量数据的处理。主要原理是将实时输入 ...
【技术保护点】
一种基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,包括以下步骤:S1、利用Scrapy爬虫框架对网络媒体资源进行网络爬虫,获取有关食品安全网页的url,根据url将相应的网页数据下载并进行分析,最后将数据保存到Hbase数据库中;S2、Spout节点从Hbase数据库读取数据放入网络拓扑结构topology,并且随机分发给第一层Bolt节点进行计算和处理;S3、第一层Bolt节点获取数据后对文本数据进行向量化,将文本数据进行分词和计算该词汇的权重;S4、对第一层Bolt节点向量化后的文本数据进行文本聚类,并将同一类的文本数据发送到相同的Bolt节点中;S5、对同一类的文本数据作进一步处理,生成事件,提取事件中的舆情信息,根据舆情信息计算出文本分类的舆情倾向度。
【技术特征摘要】
1.一种基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,包括以下步骤:S1、利用Scrapy爬虫框架对网络媒体资源进行网络爬虫,获取有关食品安全网页的url,根据url将相应的网页数据下载并进行分析,最后将数据保存到Hbase数据库中;S2、Spout节点从Hbase数据库读取数据放入网络拓扑结构topology,并且随机分发给第一层Bolt节点进行计算和处理;S3、第一层Bolt节点获取数据后对文本数据进行向量化,将文本数据进行分词和计算该词汇的权重;S4、对第一层Bolt节点向量化后的文本数据进行文本聚类,并将同一类的文本数据发送到相同的Bolt节点中;S5、对同一类的文本数据作进一步处理,生成事件,提取事件中的舆情信息,根据舆情信息计算出文本分类的舆情倾向度。2.根据权利要求1所述的基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,所述步骤S3通过汉语分词系统对文本的标题以及摘要进行分词;根据食品分类的规则,在数据库中建立食品类别表,将标题以及摘要分词后的结果与数据库中食品类别表进行对比确定标题或摘要中出现的食品,统计确定为食品的词汇出现的频率,出现频率最高的食品词汇的父类作为事件的分类;继续通过汉语分词系统对整篇文章进行分词,确定该文章出现的时间、地点、评价、转发量及评论数;最后对文本进行向量化。3.根据权利要求1所述的基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,所述步骤S4使用余弦相似度算法来进行文本聚类。4.根据权利要求1所述的基于storm流计算框架的食品安全网络舆情分析方法,其特征在于,所述步骤S5在第二层Bolt节点中对同一类的文本数据进行进一步处理,生成事件。5.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。