一种利用社交媒体实现停电事件自动检测的方法技术

技术编号:13899947 阅读:96 留言:0更新日期:2016-10-25 14:04
一种利用社交媒体实现停电事件自动检测的方法,包括下列操作步骤:(1)学习过程:首先来获取社交媒体信息中词—主题分布;然后利用该词—主题分布和社交媒体信息中出现的关键词来描述社交媒体信息中的主题内容;(2)监测过程:判断社交媒体信息是否为与停电事件相关的信息;如果是则对社交媒体信息进行地点信息和时间信息的解析,并储存到报警传感器中;本发明专利技术通过获取社交媒体信息中的话题,能够准确的把握停电事件是否真的发生。

【技术实现步骤摘要】

本专利技术涉及一种利用社交媒体实现停电事件自动检测的方法,属于计算机技术和电力系统网络技术的交叉领域,特别属于停电管理系统和数据挖掘相结合的

技术介绍
稳定性和用户的满意度一直是电力系统网络最主要关心的问题。从广域网上收集到的大量的网络社交媒体资源能够帮助电力系统实现基于数据驱动的现代化服务,比如更好的理解系统运行状态以及根据用户的行为习惯来计划和控制电力系统网络等,但要实现这个目标,要面临如何管理和挖掘数据中所蕴含的信息等技术挑战。发现并定位停电事件是停电管理系统的主要职责。一个高效的停电管理系统可以很大程度上减少停电事件发生的时间和范围。在传统的停电管理系统中,电力系统运营商通过客户服务电话的反馈来识别出停电的具体位置。现如今,在信息时代,用户更喜欢使用类似于微博等的社交媒体来发布消息和进行交流。社交网络中的用户一直在持续的监控着世界所发生的一切,所以利用社交网络上用户发布的消息,我们可以更好的检测停电事件。如果有相当数量的和停电有关的社交媒体内容在短时间内被用户发出,则说明用户所在的地方很有可能发生了停电的事件。如何从内容丰富的社交媒体上获取到信息并判断这些信息是否与停电相关是一个非常困难的事情。简单的基于关键词的检索会导致部分有用的信息不能被发现,同时很多与停电事件并不相关的信息却会被使用,因此如何利用社交媒体信息检测出停电事件是一个亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术的目的是专利技术一种利用社交媒体实现停电事件自动检测的方法,能够利用自然语言处理中的主题模型的方法来监测社交媒体中用户谈论的话题,利用有监督的方法训练得到停电事件的主题分布特点,利用社交媒体中信息发布的时间和地点信息来聚合信息流中的信息,进而来判断是否有停电事件发生。为了达到上述目的,本专利技术提出了一种利用社交媒体实现停电事件自动检测的方法,所述方法包括下列操作步骤:(1)学习过程:首先利用有标记的与停电事件有关和无关的训练数据,按照设定的模型,来获取社交媒体信息中词—主题分布;然后利用该词—主题分布和社交媒体信息中出现的关键词来描述所述的社交媒体信息中的主题内容;(2)监测过程:首先将社交媒体信息用词向量进行表示,然后利用步骤1得到的词—主题分布模型来获取社交媒体信息的主题分布,之后根据所获得的社交媒体信息的主题分布并根据步骤1所得到的词—主题分布模型,判断该条社交媒体信息是否为与停电事件相关的信息;如果是则对该条社交媒体信息进行地点信息和时间信息的解析,并储存到报警传感器中;当在某一区域设定的时间段内发现了设定数量的与停电事件相关的社交媒体信息,则报警传感器报警并提供停电所处的区域。所述的设定的模型是指基于Latent Dirichlet Allocation Model隐含狄利克雷分布模型的主题模型。所述步骤(1)的具体包括如下操作子步骤:(101)解析每条训练数据中的信息,用信息中出现的词构造词向量,然后用该词向量来描述该条训练数据中的信息的内容;解析过程需要通过编码分析信息内容是否为中文或英文,对于有中文信息的内容要进行分词处理,解析出文本中的词语,同时还要滤掉所有的标点符合、表情符号和部分停用词;构造词向量时,对于词与词之间出现的先后顺序并不考虑;(102)对所有训练数据中的词,依据不同词之间共同出现的次数信息,通过基于Latent Dirichlet Allocation Model隐含狄利克雷分布模型的主题模型并按照设定的方法来学习词-主题分布模型;所述的设定方法是指基于吉布斯采样的方法;(103)利用所获得的词-主题分布模型和每条训练数据中的信息中的词来统计获得每条训练数据中的信息的主题分布;(104)使用高斯模型来获得与停电事件相关的词-主题分布模型的模型参数;根据训练数据集中的标签来计算与停电事件相关的数据的主题分布的均值向量,使用联合概率密度和最大似然函数计算协方差矩阵,从而得到高斯模型的模型参数:均值向量和协方差矩阵。所述的判断社交媒体信息是否为与停电事件相关的信息的具体内容是:根据步骤(1)学习过程所获得的词—主题高斯分布模型的参数,将所述的社交媒体信息的主题分布作为输入,计算得到该条社交媒体信息与停电事件相关的概率,如果概率大于设定的阈值,则判定该条社交媒体信息与停电事件相关。所述的对社交媒体信息进行地点信息和时间信息的解析的具体内容是:使用所述的社交媒体信息中所附带的信息进行获取,将时间信息转换为un ix时间戳的格式,将地点信息转换为标准的坐标格式,以便于计算时间间隔和空间距离。所述的步骤(2)的监测过程中,当发现第一条与停电事件相关的社交媒体信息后,系统会对该条社交媒体信息之后的设定时间段的所有社交媒体信息进行检测,如果并未发现在设定范围内、设定比例的与停电事件相关的社交媒体信息,则放弃此次监测,否则会发出报警信息。步骤(102)中所述的基于吉布斯采样方法的具体学习过程如下:(1021)对训练数据集中的每个句子中的词t随机标记一个主题标签;(1022)统计词t在训练集中被标记为不同主题标签的数量,其中词t在训练集中被标记为主题标签i的数量记作统计词t所在当前句子被标记为不同主题标签的数量,其中词t所在当前句子被标记为主题标签i的数量记作统计训练集中被标记为不同主题标签的词的总体分布,其中在训练集中被标记为主题标签i的词的数量记作zi;统计当前句子中被标记为不同主题标签的词的总体分布,其中在当前句子中被标记为主题标签i的词的数量记作ci;(1023)统计所有的词的数量V和所有的句子的数量T,对于词t,按照如下公式计算被标记为主题标签i的概率: p ( i ) ∝ c i t + b z i t + V b · c i + a z i + T a ]]>上式中a和b为设定的参数,取值为正的实数;(1024)标记词t为概率最大的主题标签;(1025)重复步骤(1022)~(1024),直到词t的主题标签不再变化为止;(1026)统计每个词被标记为不同主题之间的概率,得到词-主题分布,该分布中每个主题包含不同词属于该主题的概率。本专利技术的有益效果在于:本专利技术的方法通过利用主题模型对自然语言进行分析,获取社交媒体信息中的话题,并结合对时间和地点信息的分析,能够准确的把握停电事件是否真的发生;本专利技术的方法充分考虑了用户的使用习惯,并充分利用了社交媒体信息的及时性,能够提高用户体验并减轻成本支出,实现及时、本文档来自技高网...

【技术保护点】
一种利用社交媒体实现停电事件自动检测的方法,其特征在于:所述方法包括下列操作步骤:(1)学习过程:首先利用有标记的与停电事件有关和无关的训练数据,按照设定的模型,来获取社交媒体信息中词—主题分布;然后利用该词—主题分布和社交媒体信息中出现的关键词来描述所述的社交媒体信息中的主题内容;(2)监测过程:首先将社交媒体信息用词向量进行表示,然后利用步骤(1)得到的词—主题分布模型来获取社交媒体信息的主题分布,之后根据所获得的社交媒体信息的主题分布并根据步骤(1)所得到的词—主题分布模型,判断该条社交媒体信息是否为与停电事件相关的信息;如果是则对该条社交媒体信息进行地点信息和时间信息的解析,并储存到报警传感器中;当在某一区域设定的时间段内发现了设定数量的与停电事件相关的社交媒体信息,则报警传感器报警并提供停电所处的区域。

【技术特征摘要】
1.一种利用社交媒体实现停电事件自动检测的方法,其特征在于:所述方法包括下列操作步骤:(1)学习过程:首先利用有标记的与停电事件有关和无关的训练数据,按照设定的模型,来获取社交媒体信息中词—主题分布;然后利用该词—主题分布和社交媒体信息中出现的关键词来描述所述的社交媒体信息中的主题内容;(2)监测过程:首先将社交媒体信息用词向量进行表示,然后利用步骤(1)得到的词—主题分布模型来获取社交媒体信息的主题分布,之后根据所获得的社交媒体信息的主题分布并根据步骤(1)所得到的词—主题分布模型,判断该条社交媒体信息是否为与停电事件相关的信息;如果是则对该条社交媒体信息进行地点信息和时间信息的解析,并储存到报警传感器中;当在某一区域设定的时间段内发现了设定数量的与停电事件相关的社交媒体信息,则报警传感器报警并提供停电所处的区域。2.根据权利要求1所述的一种利用社交媒体实现停电事件自动检测的方法,其特征在于:所述的设定的模型是指基于Latent Dirichlet Allocation Model隐含狄利克雷分布模型的主题模型。3.根据权利要求1或2所述的一种利用社交媒体实现停电事件自动检测的方法,其特征在于:所述步骤(1)的具体内容包括如下操作子步骤:(101)解析每条训练数据中的信息,用信息中出现的词构造词向量,然后用该词向量来描述该条训练数据中的信息的内容;解析过程需要通过编码分析信息内容是否为中文或英文,对于有中文信息的内容要进行分词处理,解析出文本中的词语,同时还要滤掉所有的标点符合、表情符号和部分停用词;构造词向量时,对于词与词之间出现的先后顺序并不考虑;(102)对所有训练数据中的词,依据不同词之间共同出现的次数信息,通过基于Latent Dirichlet Allocation Model隐含狄利克雷分布模型的主题模型并按照设定的方法来学习词-主题分布模型;所述的设定方法是指基于吉布斯采样的方法;(103)利用所获得的词-主题分布模型和每条训练数据中的信息中的词来统计获得每条训练数据中的信息的主题分布;(104)使用高斯模型来获得与停电事件相关的词-主题分布模型的模型参数;根据训练数据集中的标签来计算与停电事件相关的数据的主题分布的均值向量,使用联合概率密度和最大似然函数计算协方差矩阵,从而得到高斯模型的模型参数:均值向量和协方差矩阵。4.根据权利要求1或3所述的一种利用社交媒体实现停电事件自动检测的方法,其特征在于:所述的判断社交媒体信息是否为与停电事件相关的信息的具体内容是:根据步骤(1)学习过程所获得的词—主题高斯分布模型的参数,将所述的社交媒体信息的主题分布作为输入,计算得到该条社交媒体信息与停电事件相关的概率,如果概率大于设定的阈值,则判定该条社交媒体信息与停电事件相关。5.根据权利要求1所述的一种利用社交媒体...

【专利技术属性】
技术研发人员:廖建新王晶孙海峰沈奇威张乐剑
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1