The present invention relates to a food safety event analysis method based on information entropy, which includes the following steps: collecting data on food safety websites, cleaning and generating data sets of food safety incidents to be analyzed; (2) constructing improved clustering analysis algorithm; (6) analyzing data sets of food safety incidents to be analyzed according to the improved clustering analysis algorithm obtained; (2) analyzing data sets of food safety incidents to be analyzed according to the improved clustering analysis algorithm. The clustering results are obtained. The invention uses the improved clustering analysis method to obtain the clustering results of food safety time from the obtained food safety event data and combined with the large data analysis, which is helpful to strengthen the detection and supervision of food safety.
【技术实现步骤摘要】
一种基于信息熵的食品安全事件聚类分析方法
本专利技术涉及大数据分析技术与食品安全管理领域,具体涉及一种基于信息熵的食品安全事件聚类分析方法。
技术介绍
目前,我国的食品安全危机主要集中在以下几个方面:食品的源头遭受污染。例如,农产品的种植畜养环境不够天然,非法添加化学制剂,农药严重等。食品制造企业缺乏诚信与质量安全意识,生产流通环节卫生状况差。我国食品安全标准还不够完善,需要提高科学性与实用性,以便于检验参考。监管队伍需要进一步提高专业水平,需要加强打击食品犯罪的力度。因此在智能信息化时代背景下,急需建立一个“互联网+”食品安全监管项目,推进食品安全监管大数据资源共享和应用,提高监管效能。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于信息熵的食品安全事件分析方法,分析出食品安全事件发生的规律,为各地区在食品安全的监控管理方面提供决策支持。为实现上述目的,本专利技术采用如下技术方案:一种基于信息熵的食品安全事件分析方法,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。进一步的,所述步骤S1具体为:步骤S11:搭建页面抓取框架Scrapy,设置目标网站URL,设置食品安全事件信息起始URL;步骤S12:创建爬虫文件,并写入将要读取的URL和爬行域名范围;步骤S13:发起http请求,获取目标网站网页信息,页面抓取框架把目标网站URL封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答 ...
【技术保护点】
1.一种基于信息熵的食品安全事件分析方法,其特征在于,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。
【技术特征摘要】
1.一种基于信息熵的食品安全事件分析方法,其特征在于,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。2.根据权利要求1所述的一种基于信息熵的食品安全事件分析方法,其特征在于:所述步骤S1具体为:步骤S11:搭建页面抓取框架Scrapy,设置目标网站URL,设置食品安全事件信息起始URL;步骤S12:创建爬虫文件,并写入将要读取的URL和爬行域名范围;步骤S13:发起http请求,获取目标网站网页信息,页面抓取框架把目标网站URL封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包,爬虫再解析Response;步骤S14:爬虫根据url_token提取目标网站网页信息,并保存在MongoDB中,并将数据输出在csv中;步骤S15:若页面抓取框架中的调度器传来下一个URL,爬虫会接着处理响应请求并返回项目,再将新的数据请求发送给引擎,即返回步骤S12,否则,信息爬取完成,步骤结束。3.根据权利要求1所述的一种基于信息熵的食品安全事件分析方法,其特征在于:所述改进聚类分析算法具体为:步骤S21:设定输入目标的初始聚类中心数k,k≥1;步骤S22:根据下式计算属性总集合A的信息熵E(A)E(A)表示整体的信息熵,即所有的属性将数据集U划分的情况,其中,A将数据集U划分成了一个新的的集合C,C={A1,A2,A3,……,Ap},对于C中的任意一个元素Ai表示数据集U中与Bi的属性值完全相等的数据集子集,所以且|A1|+|A2|+|A3|+……+|Ap|=|U|,|Ai|/|U|即是表示属性值与Ai完全相等的元素在数据集U中出现的概率;步骤S23:计算属性总集合中缺少每个属性后的信息熵E(A-{a})其中E(A-{a})表示去掉a属性后,剩余的属性对U的划分情况;步骤S24:根据步骤S21和步骤2S2获取的结果,计算每个属性的权值Sig(a),若属性a对数据集U毫无影响则E(A)=E(A-{a}),说明a对数据集U的划分没有起到作用,即Sig(a)=0,说明a的属性重要性为0;反之若属性a对数据集U影响越大,则少了a属性的E(A-{a})与E(A)就相差越大;步骤S25:遍历数据集U计算每个属性的平均密度:其中,Densa(x)表示对于A中的...
【专利技术属性】
技术研发人员:辜萍萍,董敏辉,
申请(专利权)人:厦门大学嘉庚学院,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。