一种基于社交网络大数据的空气质量预警和监测分析系统技术方案

技术编号:13585260 阅读:48 留言:0更新日期:2016-08-24 15:31
本发明专利技术公开了一种空气质量预警和监测分析系统,对社交网络中的文本信息进行收集和分词,与空气质量词库进行对比分类计算,再进行信息的情绪判断,计算情感系数;通过文本的地理位置信息选定该位置范围内的空气监测站的数据作为真值,对比该位置范围内的文本信息的情感系数,建立两者之间的映射关系,达到分析和预警整个城市的空气质量的目的。本发明专利技术中公开的空气质量预警和监测分析系统采用了带有地理信息的社交网络数据,大大地降低了监测成本,并且监测覆盖面广,反应迅速,预测精确度高。

【技术实现步骤摘要】

本专利技术涉及一种空气质量预警和监测分析系统。
技术介绍
空气质量信息(如PM2.5的浓度)对控制污染和保护人们身体健康有着重要的意义,在一个城市里,通常通过有限的空气质量监测站的监测数据对空气质量进行预警和监测分析,然而,空气质量在城市空间的非线性变化取决于多种因素,如气象、交通量和土地使用等。现有的空气质量监测分析方法包括线性法、高斯插值法、经典的扩散模型,著名分类模型如决策树和线性随机条件场(CRF),神经网络,数据来源都是空气监测站的数据。以上监测分析系统通常只基于监测站的数据,而监测站由于其建设成本和维修成本高(约200000美元的建设费和每年30000美元的维护费),并且需要占用了不少的土地和人力资源(如北京只有22个站,占了50*50千米),使其覆盖率受到了限制,无法覆盖到城市的每个区域,并且城市空气质量的空间变化是非线性的,受多种因素影响;因此,传统的仅依赖于监测站数据的监测分析系统无法精确地反应城市各个区域的空气质量。
技术实现思路
本专利技术的目的在于克服现有技术中存在的缺陷,提供一种基于社交网络大数据的空气质量预警和监测分析系统,这种分析系统能够弥补现有的空气质量监测分析和预警方法中存在的数据覆盖面的缺陷,为空气质量监测分析系统提供更多的数据源以提供更细颗粒度的监测数据分析。为实现上述目的,本专利技术的设计方案如下:一种基于社交网络数据的空气质量预警和监测分析系统,包括以下步骤:1、收集社交网络中监控目标在一段时间内的文本信息I,并将所收集的文本信息I按时间标记,数据形式为(I,时间戳)。2、对所得的文本信息I进行预处理,具体为:利用中文分词系统对所有社交文本信息进行分词,如对于待测社交信息I,采用中文分词系统,获得长度大于等于2的名词、动词和名动词序列I=(I1,I2,...,Im),并且标记识别情感词、程度词和否定词。3、判断社交文本信息是否具有地理信息,包括社交网站提供的地理信息戳和分词结果,有地理信息的进行下一步处理。4、基于空气质量词库(词库由先期经验和专家评定产生)的分类计算,从而构建信息聚类模型:计算待测社交信息I属于空气质量类的类别值I|C,C表示空气质量相关词的集合,可表示为:C=(K1,W1;K2,W2;K3,W3;…;Ki,Wi;…),其中Ki表示C中的第i个关键词,Wi表示Ki在C中的权重,i=1,2,……,n;设T(I)为相关阈值,若I|C≥T(I),则待测社交信息为相关数据;若I|C<T(I),则待测社交信息I为非相关数据;5、对相关信息进行情绪因素判断,采用基于中国台湾大学情感词库NTUSD的方法,判断社交信息表现出的情绪是否消极,消极情绪是否累积与叠加,具体包括下列步骤:(1)定义每条言论的总情感值为emotionValue,简称eV;(2)定义一条言论中一句话的情感值为sonEmotionValue,简称sV;(3)词语匹配,具体为:a.匹配情感词:有一个消极词汇sV减1,有一个积极词汇sV加1,中性词sV值不变;b.匹配否定词:有奇数个否定词sV正负号取反,有偶数个否定词sV符号不变;c.匹配程度词:有一个程度词,sV符号不变,绝对值加1;(4)计算eV,每条言论的总情感值eV等于言论中m句话的sV求和;6、根据上述内容建立向量空间模型来表示每个相关信息,相关信息RI:(I,地理位置,时间戳,情感系数eV)7、定义地理区块:将一个城市分割成区块(如为1km*1km的网格),假定空气质量在一个区块是均匀的(在不同的区块可能会有不同的结果)。每个区块g都有一个地理坐标g.loc和一个AQI(Air Quality Index,空气质量指数)标签g.Q以及相关信息的集合{g.RIi本文档来自技高网...

【技术保护点】
一种基于社交网络数据的空气质量预警和监测分析系统,其特征在于,包括以下步骤:1)收集社交网络中监控目标在一段时间内的文本信息I,并将所述的文本信息I按时间标记,数据形式为(I,时间戳);2)利用中文分词系统对所述的文本信息I进行分词,获得长度大于等于2的名词、动词和名动词序列,以及识别情感词、程度词和否定词;3)判断所述的文本信息I是否带有地理信息,所述的地理信息包括社交网站提供的地理信息戳和步骤2)中的分词结果,对带有地理信息的所述文本信息I进行下一步处理;4)基于空气质量词库的分类计算,对所述的文本信息I构建信息聚类模型,确定与空气质量相关的文本信息I;5)采用NTUSD法对所述相关的文本信息I进行情绪因素判断,计算情感系数eV值;6)建立向量空间模型来表示每个所述相关的文本信息,表示为RI:(I,地理位置,时间戳,情感系数eV)7)定义地理区块:将一个城市分割成若干区块,每个所述的区块都有一个地理坐标g.loc、一个AQI标签g.Q和所述相关的文本信息集合{g.RIi},并且将每个所述的区块关联一个已有的空气监测站的位置,将所述的空气检测站的数据作为所述的区块的空气质量真值。8)将所述相关的文本信息向量输入基于监测站数据的学习预测模型,将在所述的空气监测站所在区块的相关文本信息作为标记数据,所述的标记数据中随机选取90%的信息归类为训练信息样本;剩下的10%的信息归类为测试信息样本,通过CRF分类器监督学习,建立信息数据g.RI和空气质量g.Q的映射关系g.Q=f({g.RIi})。9)使用非标记数据代入所述的学习预测模型,应用映射关系g.Q=f({g.RIi}),分析出整个城市各个地理区块的空气质量。10)对空气质量进行预警处理,监控每一个地理区块的情感系数{g.RIi.eV},通过均值和方差按照3σ原则确定合理区间,当某一区块的瞬时变化率超过合理区间时进行预警。...

【技术特征摘要】
1.一种基于社交网络数据的空气质量预警和监测分析系统,其特征在于,包括以下步骤:1)收集社交网络中监控目标在一段时间内的文本信息I,并将所述的文本信息I按时间标记,数据形式为(I,时间戳);2)利用中文分词系统对所述的文本信息I进行分词,获得长度大于等于2的名词、动词和名动词序列,以及识别情感词、程度词和否定词;3)判断所述的文本信息I是否带有地理信息,所述的地理信息包括社交网站提供的地理信息戳和步骤2)中的分词结果,对带有地理信息的所述文...

【专利技术属性】
技术研发人员:刘富强
申请(专利权)人:苏州爱诺信信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1