一种微博话题实时监测方法与装置制造方法及图纸

技术编号:16885887 阅读:29 留言:0更新日期:2017-12-27 03:41
本发明专利技术公开了一种微博话题实时监测方法与系统。该方法包括:获取预定时间段内预定话题对应的全部微博数据;统计全部微博数据中预定特征信息的数量;确定预定特征信息的数量在预定特征信息对应的预定高斯分布模型中所处的数量区间范围;根据预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定预定话题是否异常。本发明专利技术通过确定被监测话题在预定时间段内的预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围来确定被监测话题是否异常,考虑到用户使用微博的时间习惯以及历史同期数据分布情况,排除了周期性活动的干扰,确保异常判断结果的准确性和可靠性。

A real-time monitoring method and device for micro-blog topic

The invention discloses a real-time monitoring method and system for micro-blog topic. The method includes: obtaining all micro-blog data within a predetermined period of time corresponding to the predetermined topic; a predetermined number of feature information statistics of all micro-blog data; to determine the number of interval number predetermined characteristic information at predetermined Gauss distribution model corresponding to a predetermined characteristic information in the range; according to the number of intervals of a predetermined number of feature information. In the book Gauss distribution model of the corresponding in determining a predetermined topic is abnormal. The present invention is the number range number information of a predetermined characteristic within a predetermined period of time monitoring topic at the predetermined Gauss distribution model in the corresponding topic to determine whether the abnormal was monitored by determining, taking into account the users of micro-blog's time distribution habits and history data of the same period, excluding the interference of periodic activities. To ensure the accuracy and reliability of the abnormal.

【技术实现步骤摘要】
一种微博话题实时监测方法与装置
本专利技术涉及计算机应用技术和网络信息领域,特别是涉及一种微博话题实时监测方法与装置。
技术介绍
近年来,微博等社会化网络在线服务快速发展,积累了大量的用户言论数据。截止2016年9月,微博月活跃人数已达到2.97亿,较2015年同期相比增长34%;日活跃用户达到1.32亿。目前,新浪微博注册用户数已超过6亿,这些用户之间结成了复杂的关注关系,用户能够在微博上随时随地方便地发布和传播各种信息,可以说互联网已经进入了网民“自媒体”的时代。由于微博用户从一个互联网网站上获取的信息可以立即在自己的微博上发布这些信息,若该微博用户的关注者较多,该条微博内容非常容易引起快速的转发扩散。新浪微博上每天发送微博量近1亿条,当这些信息是一些谣言或涉及国家安全方面的有害信息时,就会形成一些极为负面的社会影响,并可能对国家安全造成严重的威胁。现有技术中通过阈值判断或峰值判断对微博话题进行异常监测的方法,仅以单一的数值进行异常状况判断,没有考虑到用户使用微博的习惯问题,使得判断结果可能出现不准确或误判的情况。
技术实现思路
本专利技术提供一种微博话题实时监测方法与装置,主要应用对预定的微博话题进行基于历史同期数据分时段的对比以判断其是否异常,解决了现有技术没有考虑用户使用微博的习惯的问题,增加异常状况的判断结果准确性,达到准确监测微博话题的目的。为解决上述技术问题,一方面,本专利技术提供一种微博话题实时监测方法,包括:获取预定时间段内预定话题对应的全部微博数据;统计所述全部微博数据中预定特征信息的数量;确定所述预定特征信息的数量在所述预定特征信息对应的预定高斯分布模型中所处的数量区间范围;其中,所述预定高斯分布模型是根据所述预定特征信息在所述预定时间段的历史数据构建的;根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常。进一步,获取预定时间段内预定话题对应的全部微博数据,包括:实时获取所述预定时间段内微博的全流量数据;根据预设关键词对所述全流量数据进行过滤,得到包含所述预设关键词的一个或多个所述预定话题;获取每个所述预定话题的全部微博数据。进一步,预定特征信息的数量至少包括以下之一:微博数量,参与用户数量,参与用户的粉丝数量。进一步,根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常,包括:在所述预定特征信息的数量处于所述预定高斯分布模型中的第一区间范围时,确定所述预定话题不存在异常,其中,所述第一区间范围为:以均值为中心,向左、右分别延伸一个标准差的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第二区间范围时,确定所述预定话题存在第一等级的异常,其中,所述第二区间范围为:均值减去一个标准差和均值减去两个标准差之间的范围,和/或,均值加上一个标准差和均值加上两个标准差之间的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第三区间范围时,确定所述预定话题存在第二等级的异常,其中,所述第三区间范围为:均值减去两个标准差和均值减去三个标准差之间的范围,和/或,均值加上两个标准差和均值加上三个标准差之间的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第四区间范围时,确定所述预定话题存在第三等级的异常,其中,所述第四区间范围为:小于均值减去三个标准差对应的范围,和/或,大于均值加上三个标准差对应的范围。进一步,根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常之后,还包括:在所述预定话题存在异常的情况下,按照所述预定话题的异常等级向系统管理员发送对应的报警消息。另一方面,本专利技术还提供一种微博话题实时监测装置,包括:获取模块,用于获取预定时间段内预定话题对应的全部微博数据;统计模块,用于统计所述全部微博数据中预定特征信息的数量;范围确定模块,用于确定所述预定特征信息的数量在所述预定特征信息对应的预定高斯分布模型中所处的数量区间范围;其中,所述预定高斯分布模型是根据所述预定特征信息在所述预定时间段的历史数据构建的;异常判断模块,用于根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常。进一步,所述获取模块,具体用于:实时获取所述预定时间段内微博的全流量数据;根据预设关键词对所述全流量数据进行过滤,得到包含所述预设关键词的一个或多个所述预定话题;获取每个所述预定话题的全部微博数据。进一步,所述预定特征信息至少包括以下之一:微博数量,参与用户数量,参与用户的粉丝数量。进一步,所述异常判断模块,具体用于:在所述预定特征信息的数量处于所述预定高斯分布模型中的第一区间范围时,确定所述预定话题不存在异常,其中,所述第一区间范围为:以均值为中心,向左、右分别延伸一个标准差的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第二区间范围时,确定所述预定话题存在第一等级的异常,其中,所述第二区间范围为:均值减去一个标准差和均值减去两个标准差之间的范围,和/或,均值加上一个标准差和均值加上两个标准差之间的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第三区间范围时,确定所述预定话题存在第二等级的异常,其中,所述第三区间范围为:均值减去两个标准差和均值减去三个标准差之间的范围,和/或,均值加上两个标准差和均值加上三个标准差之间的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第四区间范围时,确定所述预定话题存在第三等级的异常,其中,所述第四区间范围为:小于均值减去三个标准差对应的范围,和/或,大于均值加上三个标准差对应的范围。进一步,所述微博话题实时监测装置还包括:报警模块,用于在所述预定话题存在异常的情况下,按照所述预定话题的异常等级向系统管理员发送对应的报警消息。本专利技术通过确定被监测话题在预定时间段内的预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围来确定被监测话题是否异常,考虑到用户使用微博的时间习惯以及历史同期数据分布情况,排除了周期性活动的干扰,确保异常判断结果的准确性和可靠性。附图说明图1是本专利技术第一实施例中微博话题实时监测方法的流程图;图2是本专利技术第一实施例中预定高斯分布模型函数图;图3是本专利技术第一实施例中用户发微博日常习惯统计;图4是本专利技术第一实施例中“两会”话题不同时段的预定特征信息量均值;图5是本专利技术第二实施例中微博话题实时监测系统的结构示意图;图6是本专利技术第三实施例中微博话题的实时监测预警装置结构示意图。具体实施方式为了解决现有技术仅以单一的数值进行异常状况判断,没有考虑到用户使用微博的习惯问题的问题,本专利技术提供了一种微博话题实时监测方法与系统,以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。本专利技术第一实施例提供了一种微博话题实时监测方法,其方法流程图如图1所示,包括步骤S101至S104:S101,获取预定时间段内预定话题对应的全部微博数据;S102,统计全部微博数据中预定特征信息的数量,根据预定特征信息的数量;S103,确定预定特征信息的数量在其对应的预定高斯分布模型中所处的本文档来自技高网...
一种微博话题实时监测方法与装置

【技术保护点】
一种微博话题实时监测方法,其特征在于,包括:获取预定时间段内预定话题对应的全部微博数据;统计所述全部微博数据中预定特征信息的数量;确定所述预定特征信息的数量在所述预定特征信息对应的预定高斯分布模型中所处的数量区间范围;其中,所述预定高斯分布模型是根据所述预定特征信息在所述预定时间段的历史数据构建的;根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常。

【技术特征摘要】
1.一种微博话题实时监测方法,其特征在于,包括:获取预定时间段内预定话题对应的全部微博数据;统计所述全部微博数据中预定特征信息的数量;确定所述预定特征信息的数量在所述预定特征信息对应的预定高斯分布模型中所处的数量区间范围;其中,所述预定高斯分布模型是根据所述预定特征信息在所述预定时间段的历史数据构建的;根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常。2.如权利要求1所述的微博话题实时监测方法,其特征在于,获取预定时间段内预定话题对应的全部微博数据,包括:实时获取所述预定时间段内微博的全流量数据;根据预设关键词对所述全流量数据进行过滤,得到包含所述预设关键词的一个或多个所述预定话题;获取每个所述预定话题的全部微博数据。3.如权利要求1所述的微博话题实时监测方法,其特征在于,所述预定特征信息至少包括以下之一:微博数量,参与用户数量,参与用户的粉丝数量。4.如权利要求1至3中任一项所述的微博话题实时监测方法,其特征在于,根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常,包括:在所述预定特征信息的数量处于所述预定高斯分布模型中的第一区间范围时,确定所述预定话题不存在异常,其中,所述第一区间范围为:以均值为中心,向左、右分别延伸一个标准差的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第二区间范围时,确定所述预定话题存在第一等级的异常,其中,所述第二区间范围为:均值减去一个标准差和均值减去两个标准差之间的范围,和/或,均值加上一个标准差和均值加上两个标准差之间的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第三区间范围时,确定所述预定话题存在第二等级的异常,其中,所述第三区间范围为:均值减去两个标准差和均值减去三个标准差之间的范围,和/或,均值加上两个标准差和均值加上三个标准差之间的范围;在所述预定特征信息的数量处于所述预定高斯分布模型中的第四区间范围时,确定所述预定话题存在第三等级的异常,其中,所述第四区间范围为:小于均值减去三个标准差对应的范围,和/或,大于均值加上三个标准差对应的范围。5.如权利要求4所述的微博话题实时监测方法,其特征在于,根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常之后,还包括:在所述预定话题存在异常的情况下,按照所述...

【专利技术属性】
技术研发人员:段东圣杜翠兰刘晓辉查奇文李扬曦李睿沈华伟邢国亮张静
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1