本地事件检测方法、装置、设备和存储介质制造方法及图纸

技术编号:31512839 阅读:62 留言:0更新日期:2021-12-22 23:54
本发明专利技术公开了一种本地事件检测方法、装置、设备和存储介质,方法包括:实时获取预设地区的推文数据;通过预设的两级分类器,对各推文数据进行两级分类,得到各推文数据的一级标签和二级标签,并根据一级标签和二级标签,获取属于同一事件类别的推文数据;分别获取属于同一事件类别的各推文数据的位置信息;根据推文数据的文本、发布时间和位置信息,对属于同一事件类别的各推文数据进行聚类,得到属于同一事件类别的推文簇;分别生成各推文簇的事件摘要,作为各推文簇对应的本地事件。本发明专利技术可保证本地事件检测的实时性和准确性。保证本地事件检测的实时性和准确性。保证本地事件检测的实时性和准确性。

【技术实现步骤摘要】
本地事件检测方法、装置、设备和存储介质


[0001]本专利技术涉及数据挖掘
,尤其涉及一种本地事件检测方法、装置、设备和存储介质。

技术介绍

[0002]实时检测城市中的本地事件对于城市的管理非常重要,有利于城市管理者感知与政策的实施。对于市民,大多数人被困在日常工作中而很少有渠道了解居住地身边发生的事件,通过本地事件检测可以给他们更多关于本地的信息,使市民朋友们也可以有更多的参与感,真正感受到了自己被关注,提升了居民的生活幸福感。但是以往的新闻媒体由于资源有限,往往只关注城市中的一些高优先级事件(如特大事故、重大比赛等),并且这些报道往往存在时间上的显著延迟(如在今天的报纸读到昨天发生的事件),所以本地事件的实时检测一直以来都是一个待解决的难题。
[0003]随着时代的进步,手机、电脑等网络终端逐渐走进每个人的生活中,而在线社交媒体的发展使人们可以实时在线分享自己的生活。微博、推特、Instagram就是其中的代表性软件,这些软件的特点在于用户可以实时分享图片文本视频,并且可以加上定位信息,而用户可以选择公开使任意一位用户都可以查看所发的内容。截止到2020年末,微博月活跃用户为5.23亿,推特的月活超过3.3亿,而Instagram每月活跃用户超过10亿,这些海量的用户每天都会在社交平台上更新大量的信息,而这些大量的信息中存在很多用户所分享的自己参与的本地事件的内容,比如参加一场运动会,某道路上发生了一场交通事故等等。这些城市中的本地事件不仅地理位置相近,并且语义上时相同或者相关联。与大规模的新闻不同,单个城市事件的相关推文数量往往很少,可能只有十几、二十几条,如何能实时地从海量的社交媒体推文信息流中挖掘探查到城市中发生的事件同样是一个难题。
[0004]目前,已有人提出了微博突发事件的检测方法,包括:首先获取微博文本数据集,然后基于微博文本关注度及微博文本对应的发布者的影响力,对微博文本数据集进行噪声过滤;通过预设时长建立多个时间窗,将微博文本数据集中的微博文本划分至相应的时间窗中;对每个时间窗内的微博文本进行预处理;基于预设特征属性提取每个时间窗的突发特征词集,再分别计算目标时间窗内的突发特征词之间的相似度,生成目标时间窗的突发事件。
[0005]还有人提出了基于BERT

BTM网络的微博突发事件检测方法,包括:对微博数据集进行处理(分词、去除停用词)后获取原始数据集,再将该原始数据集使用预训练BERT模型进行向量编码,即每个微博文本都用固定长度的一组向量表示。然后根据狄利克雷先验参数α和融合了所述BERT词向量集的先验参数βi构建BERT

BTM模型,通过BERT

BTM模型对所述原始数据集进行处理,获得突发事件词集。最后根据突发事件词集和该突发事件词集中的词与词之间的共现关系构建BERT

BTM网络,通过对BERT

BTM网络的划分完成突发事件检测。
[0006]但上述方法主要集中在突发事件检测上,这种突发事件往往会成为新闻热点,受
到极大关注。这类新闻往往能快速获得数以亿计的关注,同时会有大量的相关推文进行报道评论等,所以在社交媒体信息流中检测出相关事件相对简单。但是这类事件对于城市管理者实时了解城市状态、居民了解居住地附近所发生的活动并没有什么帮助。
[0007]而本地事件检测聚焦在某个城市中所发生的事件,这类事件与市民的生活息息相关,及时快速地了解周边事件对于提升居民的生活幸福获得感非常重要,同时可以快速地让城市管理者了解城市现状,及时针对相关问题以及潜在的风险准备处置方案。
[0008]并且,上述的突发事件检测方法并不能实时检测事件,其工作基础是现有的一段时间内的微博数据集,相当于必须存在一个时间窗。模型必须在这个时间窗结束后才可以起作用。这类基于时间窗的数据集与在线社交媒体实时信息流的实时流入特征相差较大,强行迁移会导致模型的效果变差,甚至无法运行。
[0009]另外,目前还有人提出了一种在线的基于带地理位置标签微博数据的本地事件检测方法。这种方法先将微博的空间信息、时间信息与文本信息共同编码映射到同一低维向量空间,再将这条微博中的三部分信息拼接形成一个向量以表示整个微博;在得到微博的向量表示后,使用贝叶斯混合聚类模型对不断到达的微博信息流进行聚类,每一个聚类簇都是一个潜在的本地事件,然后构建一个逻辑回归分类器来对这些已经聚类完成的聚类簇进行分类,判断其是否为一个真实的本地事件。
[0010]然而,这种方式需要对所有带地理标签的微博进行编码转换和在线聚类,需要大量的计算资源,计算复杂度高,耗时时间长,不利于实时感知本地事件。

技术实现思路

[0011]本专利技术所要解决的技术问题是:提供一种本地事件检测方法、装置、设备和存储介质,可提高本地事件检测的效率,保证检测实时性和准确性。
[0012]第一方面,本专利技术提供了一种本地事件检测方法,包括:实时获取预设地区的推文数据,所述预设地区的推文数据包括签到信息为预设地区的兴趣点的推文数据以及包含预设地区对应的关键字的推文数据;通过预设的两级分类器,对各推文数据进行两级分类,得到各推文数据的一级标签和二级标签,所述一级标签用于表示推文数据是否存在潜在事件,所述二级标签用于表示当存在潜在事件时推文数据所属的事件类别,并根据各推文数据的一级标签和二级标签,获取属于同一事件类别的推文数据;分别获取属于同一事件类别的各推文数据的位置信息;根据推文数据的文本、发布时间和位置信息,对属于同一事件类别的各推文数据进行聚类,得到属于同一事件类别的推文簇;分别生成各推文簇的事件摘要,作为各推文簇对应的本地事件,所述事件摘要包括对应的推文簇中预设第一数量的推文数据的文本和预设第二数量的关键词。
[0013]第二方面,本专利技术还提供了一种本地事件检测装置,包括:第一获取模块,用于实时获取预设地区的推文数据,所述预设地区的推文数据包括签到信息为预设地区的兴趣点的推文数据以及包含预设地区对应的关键字的推文数据;分类模块,用于通过预设的两级分类器,对各推文数据进行两级分类,得到各推文数据的一级标签和二级标签,所述一级标签用于表示推文数据是否存在潜在事件,所述二
级标签用于表示当存在潜在事件时推文数据所属的事件类别,并根据各推文数据的一级标签和二级标签,获取属于同一事件类别的推文数据;第二获取模块,用于分别获取属于同一事件类别的各推文数据的位置信息;聚类模块,用于根据推文数据的文本、发布时间和位置信息,对属于同一事件类别的各推文数据进行聚类,得到属于同一事件类别的推文簇;生成模块,用于分别生成各推文簇的事件摘要,作为各推文簇对应的本地事件,所述事件摘要包括对应的推文簇中预设第一数量的推文数据的文本和预设第二数量的关键词。
[0014]第三方面,本专利技术还提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种本地事件检测方法,其特征在于,包括:实时获取预设地区的推文数据,所述预设地区的推文数据包括签到信息为预设地区的兴趣点的推文数据以及包含预设地区对应的关键字的推文数据;通过预设的两级分类器,对各推文数据进行两级分类,得到各推文数据的一级标签和二级标签,所述一级标签用于表示推文数据是否存在潜在事件,所述二级标签用于表示当存在潜在事件时推文数据所属的事件类别,并根据各推文数据的一级标签和二级标签,获取属于同一事件类别的推文数据;分别获取属于同一事件类别的各推文数据的位置信息;根据推文数据的文本、发布时间和位置信息,对属于同一事件类别的各推文数据进行聚类,得到属于同一事件类别的推文簇;分别生成各推文簇的事件摘要,作为各推文簇对应的本地事件,所述事件摘要包括对应的推文簇中预设第一数量的推文数据的文本和预设第二数量的关键词。2.根据权利要求1所述的本地事件检测方法,其特征在于,所述通过预设的两级分类器,对各推文数据进行两级分类,得到各推文数据的一级标签和二级标签之前,所述方法还包括:构建BERT文本分类器;获取样本数据,并对所述样本数据进行标签标注,得到训练数据,所述标签包括一级标签和二级标签,所述一级标签的值为表示不存在潜在事件的第一值或表示存在潜在事件的第二值,所述二级标签的值为预设的事件类别;根据所述训练数据对所述BERT文本分类器进行训练,得到两级分类器,所述两级分类器包括一级分类器和二级分类器,所述一级分类器用于将推文数据分类为存在潜在事件的推文数据以及不存在潜在事件的推文数据,所述二级分类器用于确定存在潜在事件的推文数据所属的事件类别。3.根据权利要求1所述的本地事件检测方法,其特征在于,所述分别获取属于同一事件类别的各推文数据的位置信息,包括:若一推文数据包含签到信息,则获取签到信息中的兴趣点的位置信息,作为所述一推文数据的位置信息;若一推文数据不包含签到信息,则通过预设的命名体识别模型,识别所述一推文数据的潜在地址,并通过地图,获取所述潜在地址的位置信息,作为所述一推文数据的位置信息。4.根据权利要求1所述的本地事件检测方法,其特征在于,所述根据推文数据的文本、发布时间和位置信息,对属于同一事件类别的各推文数据进行聚类,得到属于同一事件类别的推文簇,包括:分别根据各推文数据的文本,生成各推文数据的文本向量编码;根据推文数据的发布时间,依序获取属于同一事件类别的推文数据中的一推文数据,作为当前推文数据;判断当前推文数据是否为第一个推文数据;若是,则建立推文簇,将当前推文数据加入所述推文簇,并根据当前推文数据的发布时间、位置信息和文本向量编码,设置所述推文簇的时间、地址和文本向量编码;
若否,则判断是否存在一推文簇,当前推文数据与所述一推文簇的距离小于或等于预设的第一距离阈值,当前推文数据的发布时间与所述一推文簇的时间的时间差小于预设的第一时间阈值,且当前推文数据的文本向量编码与所述一推文簇的文本向量编码之间的距离小于预设的第二距离阈值;若存在,则将当前推文数据加入所述一推文簇,并根据所述一推文簇中各推文数据的发布时间、位置信息和文本向量编码,更新所述一推文簇的时间、地址和文本向量编码;若不存在,则建立新的推文簇,将当前推文数据加入所述新的推文簇,并根据当前推文数据的发布时间、位置信息和文本向量编码,设置所述新的推文簇的时间、地址和文本向量编码。5.根据权利要求4所述的本地事件检测方法,其特征在于,所述根据所述一推文簇中各推文数据的发布时间、位置信息和文本向量编码,更新所述一推文簇的时间、地址和文本向量编码,包括:根据所述一推文簇中各推文数据的发布时间,获取最新发布时间,并根据所述最新发布时间,更新所述一推文簇的时间;根据所述...

【专利技术属性】
技术研发人员:宋轩李永康范子沛尹渡冯德帆邓锦亮王宏俊
申请(专利权)人:南方科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1