面向事件检测的多策略媒体数据流过滤方法及其装置制造方法及图纸

技术编号:19692390 阅读:73 留言:0更新日期:2018-12-08 11:19
本发明专利技术涉及一种面向事件检测的多策略媒体数据流过滤方法及其装置,该方法包含:离线阶段,根据收集到的媒体用户数据,构建垃圾用户数据库和应用来源黑名单列表;在线识别阶段,针对媒体数据流,通过垃圾用户数据库和应用来源黑名单列表进行媒体数据过滤,通过媒体内容及上下文特征过滤非事件媒体数据,并对媒体数据进行在线聚类,识别事件类簇,对事件类簇中的媒体数据进行净化。本发明专利技术有效解决微博数据流中噪声数据和其它非事件数据对微博事件检测的影响,能够清理微博数据流中的绝大部分非事件微博,有效提高微博事件检测性能,实时性、实用性强,便于及时提取热点话题和突发事件,对新媒体数据流处理技术具有重要的指导意义。

【技术实现步骤摘要】
面向事件检测的多策略媒体数据流过滤方法及其装置
本专利技术属于媒体数据处理
,特别涉及一种面向事件检测的多策略媒体数据流过滤方法及其装置。
技术介绍
作为新兴媒体的典型代表,微博是一个可以方便快捷发布观点、分享和传播信息的重要平台。由于微博的便捷、实时性和互动性,对于许多民众关注的热点和重大事件的报道和传播,其优越性甚至超过了传统媒体和门户网站,微博已经成为情报收集、市场营销以及舆情监测等行业的重要信息来源。利用面向微博的事件检测技术,可以从海量微博数据中提取当前社会热点话题和重大突发事件,从而更好的帮助用户了解新闻动态,掌控身边发生的重大事件。然而,除了一些热点新闻和突发事件的报道外,微博中还充斥着大量的无用信息,包括广告信息、日常生活琐事、网络谣言以及服务器自动生成的垃圾信息等,如何将这些垃圾信息与有意义的事件微博区分开来已成为微博数据流事件检测的主要挑战之一。针对该问题,现有学者通过一些过滤策略来净化微博数据以提高微博事件检测的性能,其在一定程度上净化了微博数据流,提高了事件检测性能,但它们所使用的过滤策略较为单一,净化效果有限,并且无法对净化效果进行评估。
技术实现思路
针本文档来自技高网
...

【技术保护点】
1.一种面向事件检测的多策略媒体数据流过滤方法,其特征在于,包含如下内容:离线阶段,根据收集到的媒体用户数据,构建垃圾用户数据库和应用来源黑名单列表;在线识别阶段,针对媒体数据流,通过垃圾用户数据库和应用来源黑名单列表进行媒体数据过滤,通过媒体内容及上下文特征过滤非事件媒体数据,并对媒体数据进行在线聚类,识别事件类簇,对事件类簇中的媒体数据进行净化。

【技术特征摘要】
1.一种面向事件检测的多策略媒体数据流过滤方法,其特征在于,包含如下内容:离线阶段,根据收集到的媒体用户数据,构建垃圾用户数据库和应用来源黑名单列表;在线识别阶段,针对媒体数据流,通过垃圾用户数据库和应用来源黑名单列表进行媒体数据过滤,通过媒体内容及上下文特征过滤非事件媒体数据,并对媒体数据进行在线聚类,识别事件类簇,对事件类簇中的媒体数据进行净化。2.根据权利要求1所述的面向事件检测的多策略媒体数据流过滤方法,其特征在于,离线阶段中,基于用户和来源的媒体数据过滤,收集用户个人社交关系及发表的媒体数据,提取用户行为特征及媒体数据内容特征,离线构建垃圾用户数据库和应用来源黑名单列表,通过监督机器学习对垃圾用户进行识别;判断媒体数据流中媒体用户是否存在于垃圾用户数据库,或媒体数据是否来源于应用来源黑名单列表,对媒体数据进行直接过滤。3.根据权利要求2所述的面向事件检测的多策略媒体数据流过滤方法,其特征在于,用户行为特征包含用户声誉度、转发率和活跃度,用户声誉度根据用户粉丝数、用户关注对象数量、粉丝用户的粉丝数量和粉丝用户的关注对象数量获取,转发率通过用户发表的多条媒体数据中转发媒体数据所占比例获取,活跃度根据用户发表媒体数据所跨越的天数与用户注册天数获取。4.根据权利要求2所述的面向事件检测的多策略媒体数据流过滤方法,其特征在于,媒体数据内容特征包含短链接特征、标签特征、博文长度特征、博文重复度特征、博文用字多样性特征和被转发评论率,短链接特征根据用户发表的若干媒体数据中含有URL的媒体数据的占比得到;标签特征根据用户发表的若干媒体数据中含有热门话题标签的媒体数据的占比得到;博文长度特征根据用户发表的若干媒体数据的平均长度和长度方差计算得到;博文重复度特征根据用户发表的若干媒体数据两两之间的余弦相似度的平均值获取;博文用字多样性特征通过统计用户发布的若干媒体数据,并根据非重复字符个数,及每个非重复字符出现次数和媒体数据总字符比率三者来获取;被转发评论率通过统计用户发布的若干媒体数据中转发和评论数之和的占比获取。5.根据权利要求1所述的面向事件检测的多策略媒体数据流过滤方法,其特征在于,在线识别阶段中针对媒体数据流,首先,通过垃圾用户数据库和应用来源黑名单列表进行媒体数据过滤;然后,利用媒体内容及上下文特征对媒体数据进行二分类,过滤非事件媒体数据;对主题相似的媒体数据进行聚类分析,提取类簇特征,识别事件类簇,其中,类簇特征至少包含类簇时间和类簇主题;并基于主题一致原则,对事件类簇...

【专利技术属性】
技术研发人员:陈刚唐永旺魏晗席耀一郭志刚袁江林
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1