一种基于信息熵的食品安全事件聚类分析方法技术

技术编号:20916713 阅读:25 留言:0更新日期:2019-04-20 09:43
本发明专利技术涉及一种基于信息熵的食品安全事件分析方法,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。本发明专利技术利用改进的聚类分析方法从获得的食品安全事件数据出发,结合大数据分析,得到食品安全时间的聚类结果,有助于加强食品安全的检测及监管。

A Clustering Analysis Method of Food Safety Events Based on Information Entropy

The present invention relates to a food safety event analysis method based on information entropy, which includes the following steps: collecting data on food safety websites, cleaning and generating data sets of food safety incidents to be analyzed; (2) constructing improved clustering analysis algorithm; (6) analyzing data sets of food safety incidents to be analyzed according to the improved clustering analysis algorithm obtained; (2) analyzing data sets of food safety incidents to be analyzed according to the improved clustering analysis algorithm. The clustering results are obtained. The invention uses the improved clustering analysis method to obtain the clustering results of food safety time from the obtained food safety event data and combined with the large data analysis, which is helpful to strengthen the detection and supervision of food safety.

【技术实现步骤摘要】
一种基于信息熵的食品安全事件聚类分析方法
本专利技术涉及大数据分析技术与食品安全管理领域,具体涉及一种基于信息熵的食品安全事件聚类分析方法。
技术介绍
目前,我国的食品安全危机主要集中在以下几个方面:食品的源头遭受污染。例如,农产品的种植畜养环境不够天然,非法添加化学制剂,农药严重等。食品制造企业缺乏诚信与质量安全意识,生产流通环节卫生状况差。我国食品安全标准还不够完善,需要提高科学性与实用性,以便于检验参考。监管队伍需要进一步提高专业水平,需要加强打击食品犯罪的力度。因此在智能信息化时代背景下,急需建立一个“互联网+”食品安全监管项目,推进食品安全监管大数据资源共享和应用,提高监管效能。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于信息熵的食品安全事件分析方法,分析出食品安全事件发生的规律,为各地区在食品安全的监控管理方面提供决策支持。为实现上述目的,本专利技术采用如下技术方案:一种基于信息熵的食品安全事件分析方法,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。进一步的,所述步骤S1具体为:步骤S11:搭建页面抓取框架Scrapy,设置目标网站URL,设置食品安全事件信息起始URL;步骤S12:创建爬虫文件,并写入将要读取的URL和爬行域名范围;步骤S13:发起http请求,获取目标网站网页信息,页面抓取框架把目标网站URL封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包,爬虫再解析Response;步骤S14:爬虫根据url_token提取目标网站网页信息,并保存在MongoDB中,并将数据输出在csv中;步骤S15:若页面抓取框架中的调度器传来下一个URL,爬虫会接着处理响应请求并返回项目,再将新的数据请求发送给引擎,即返回步骤S12,否则,信息爬取完成,步骤结束。进一步的,所述改进聚类分析算法具体为:步骤S21:设定输入目标的初始聚类中心数k,k≥1;步骤S22:根据下式计算属性总集合A的信息熵E(A)E(A)表示整体的信息熵,即所有的属性将数据集U划分的情况。其中,A将数据集U划分成了一个新的的集合C,C={A1,A2,A3,……,Ap},对于C中的任意一个元素Ai表示数据集U中与Bi的属性值完全相等的数据集子集,所以且|A1|+|A2|+|A3|+……+|Ap|=|U|,所以|Ai|/|U|即是表示属性值与Ai完全相等的元素在数据集U中出现的概率;步骤S23:计算属性总集合中缺少每个属性后的信息熵E(A-{a});其中E(A-{a})表示去掉a属性后,剩余的属性对U的划分情况,计算公式与E(A)相同;步骤S24:根据步骤S21和步骤2S2获取的结果,计算每个属性的权值Sig(a),若属性a对数据集U毫无影响则E(A)=E(A-{a}),说明a对数据集U的划分没有起到作用,即Sig(a)=0,说明a的属性重要性为0;反之若属性a对数据集U影响越大,则少了a属性的E(A-{a})与E(A)就相差越大;步骤S25:遍历数据集U计算每个属性的平均密度:其中,Densa(x)表示对于A中的任意元素a,对象x在属性a上的平均密度计算方法如下:步骤S26:对于数据集U中的每一个对象x,计算其加权密度WDens(x):步骤S27:选取所有对象中加权密度WDens(x)最大的一个,将其设为第一个初始聚类中心,加入聚类中心集合Z;步骤S28:遍历数据集U中已经选取为聚类中心以外的每个对象x,保存对象的加权密度WDens(x),计算公式与上述步骤S26所述相同;步骤S29:采用0-1相异度度量方法计算对象x与每个已分配好的初始聚类中心的距离之和d(x):其中,xi,al与xj,al分别表示数据集中xi和xj两个对象在对应属性上的属性值,如果相等则当前属性间的距离赋值为0,如果不想等则赋值为1,累加所有属性的属性间距离,最后得出两个对象之间的距离,即差异度;;步骤S210:对每一个对象x,计算m(x)=WDens(x)+d(x)。步骤S211:比较所有的m(x),选取m(x)最大的那个对象作为新的初始聚类中心,加入聚类中心集合Z;步骤S212:判断聚类中心数是否达到k个,即|Z|>k是否成立,若成立跳转到步骤S13,若不成立则跳转到步骤S8,继续选择新的初始聚类中心;步骤S213:根据步骤S24得到的Sig(a)计算每个属性的权值weight(a):步骤S214:用改进的相异度度量方法计算相异度矩阵:wd(xi,xj)=∑a∈Aweight(a)×δa(xi,xj)步骤S215:计算隶属度矩阵Wl×n其中,k表示当前数据集划分为k个簇,即存在k个聚类中心,Zi表示当前第i个类的聚类中心,Zh表示其它类的聚类中心;步骤S216:根据隶属度更新聚类中心集合Z,采用属性众数作为聚类中心的新的属性值。即遍历每一个类簇,计算类簇里每一个属性的每一个属性值的总数,用总数最高的属性值替换当前该类簇的聚类中心;步骤S217:回到步骤S15重新计算隶属度,根据每个样本的最大隶属度重新归类;如果隶属度没有变化,那么k类的聚类已经完成,跳转至步骤S18;步骤S218:根据当前隶属度矩阵与相异度矩阵计算聚类准则函数,聚类准则函数为:其中,n是聚类对象的数量;Zl=[zl1,zl2,...,zlm]代表聚类l的向量,即聚类中心;wi,l∈[0,1]是隶属度矩阵Wl×n的一个元素,它表示对象Xi划分到聚类l中的隶属度,wd是改进后的相异度(距离),α>1是加权指数。步骤S219:聚类数量k递增1,并回到步骤S21,直到为止,聚类准则函数最小的那一轮聚类为最后的聚类结果。本专利技术与现有技术相比具有以下有益效果:1、本专利技术采用的聚类分析算法采用信息熵理论对初始聚类中心进行优选,并对每个聚类对象的属性重要性进行重新计算聚类的准确率进一步提高。2、本专利技术基于改进聚类分析算法和大数据,可发现不同时不同地区食品安全事件发生的规律,这些潜藏在数据中的知识可以辅助决策,进一步加强食品行业的监管,对食品安全管理人员以及广大消费者提供信息参考。附图说明图1是本专利技术一实施例中系统架构图;图2是本专利技术一实施例中数据爬取流程图;图3是本专利技术一实施例中改进的聚类分析算法流程图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。请参照图1,本专利技术提供一种基于信息熵的食品安全事件分析方法,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。如图1所示的食品安全事件数据分析系统架构图中,在过程1中完成数据收集,获取对建立算法和数据模型有关的数据,具体操作即是由数据爬虫系统从“掷出窗外”网站(网址:http://www.zccw.info/)上爬取截止到2018年2月的合计3517条食品安全事件数据。一般原始数据都会有大量的无关项,而筛选的标准则是有助于构建规律挖掘模型,所以需要完成特征选择与特征工程的相关工作,如所述的过程本文档来自技高网...

【技术保护点】
1.一种基于信息熵的食品安全事件分析方法,其特征在于,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。

【技术特征摘要】
1.一种基于信息熵的食品安全事件分析方法,其特征在于,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。2.根据权利要求1所述的一种基于信息熵的食品安全事件分析方法,其特征在于:所述步骤S1具体为:步骤S11:搭建页面抓取框架Scrapy,设置目标网站URL,设置食品安全事件信息起始URL;步骤S12:创建爬虫文件,并写入将要读取的URL和爬行域名范围;步骤S13:发起http请求,获取目标网站网页信息,页面抓取框架把目标网站URL封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包,爬虫再解析Response;步骤S14:爬虫根据url_token提取目标网站网页信息,并保存在MongoDB中,并将数据输出在csv中;步骤S15:若页面抓取框架中的调度器传来下一个URL,爬虫会接着处理响应请求并返回项目,再将新的数据请求发送给引擎,即返回步骤S12,否则,信息爬取完成,步骤结束。3.根据权利要求1所述的一种基于信息熵的食品安全事件分析方法,其特征在于:所述改进聚类分析算法具体为:步骤S21:设定输入目标的初始聚类中心数k,k≥1;步骤S22:根据下式计算属性总集合A的信息熵E(A)E(A)表示整体的信息熵,即所有的属性将数据集U划分的情况,其中,A将数据集U划分成了一个新的的集合C,C={A1,A2,A3,……,Ap},对于C中的任意一个元素Ai表示数据集U中与Bi的属性值完全相等的数据集子集,所以且|A1|+|A2|+|A3|+……+|Ap|=|U|,|Ai|/|U|即是表示属性值与Ai完全相等的元素在数据集U中出现的概率;步骤S23:计算属性总集合中缺少每个属性后的信息熵E(A-{a})其中E(A-{a})表示去掉a属性后,剩余的属性对U的划分情况;步骤S24:根据步骤S21和步骤2S2获取的结果,计算每个属性的权值Sig(a),若属性a对数据集U毫无影响则E(A)=E(A-{a}),说明a对数据集U的划分没有起到作用,即Sig(a)=0,说明a的属性重要性为0;反之若属性a对数据集U影响越大,则少了a属性的E(A-{a})与E(A)就相差越大;步骤S25:遍历数据集U计算每个属性的平均密度:其中,Densa(x)表示对于A中的...

【专利技术属性】
技术研发人员:辜萍萍董敏辉
申请(专利权)人:厦门大学嘉庚学院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1