【技术实现步骤摘要】
本地事件检测方法、装置、设备和存储介质
[0001]本专利技术涉及数据挖掘
,尤其涉及一种本地事件检测方法、装置、设备和存储介质。
技术介绍
[0002]实时检测城市中的本地事件对于城市的管理非常重要,有利于城市管理者感知与政策的实施。对于市民,大多数人被困在日常工作中而很少有渠道了解居住地身边发生的事件,通过本地事件检测可以给他们更多关于本地的信息,使市民朋友们也可以有更多的参与感,真正感受到了自己被关注,提升了居民的生活幸福感。但是以往的新闻媒体由于资源有限,往往只关注城市中的一些高优先级事件(如特大事故、重大比赛等),并且这些报道往往存在时间上的显著延迟(如在今天的报纸读到昨天发生的事件),所以本地事件的实时检测一直以来都是一个待解决的难题。
[0003]随着时代的进步,手机、电脑等网络终端逐渐走进每个人的生活中,而在线社交媒体的发展使人们可以实时在线分享自己的生活。微博、推特、Instagram就是其中的代表性软件,这些软件的特点在于用户可以实时分享图片文本视频,并且可以加上定位信息,而用户可以选择公开使任意一位用户都可以查看所发的内容。截止到2020年末,微博月活跃用户为5.23亿,推特的月活超过3.3亿,而Instagram每月活跃用户超过10亿,这些海量的用户每天都会在社交平台上更新大量的信息,而这些大量的信息中存在很多用户所分享的自己参与的本地事件的内容,比如参加一场运动会,某道路上发生了一场交通事故等等。这些城市中的本地事件不仅地理位置相近,并且语义上时相同或者相关联。与大规模的新闻不 ...
【技术保护点】
【技术特征摘要】
1.一种本地事件检测方法,其特征在于,包括:实时获取预设地区的推文数据,所述预设地区的推文数据包括签到信息为预设地区的兴趣点的推文数据以及包含预设地区对应的关键字的推文数据;通过预设的两级分类器,对各推文数据进行两级分类,得到各推文数据的一级标签和二级标签,所述一级标签用于表示推文数据是否存在潜在事件,所述二级标签用于表示当存在潜在事件时推文数据所属的事件类别,并根据各推文数据的一级标签和二级标签,获取属于同一事件类别的推文数据;分别获取属于同一事件类别的各推文数据的位置信息;根据推文数据的文本、发布时间和位置信息,对属于同一事件类别的各推文数据进行聚类,得到属于同一事件类别的推文簇;分别生成各推文簇的事件摘要,作为各推文簇对应的本地事件,所述事件摘要包括对应的推文簇中预设第一数量的推文数据的文本和预设第二数量的关键词。2.根据权利要求1所述的本地事件检测方法,其特征在于,所述通过预设的两级分类器,对各推文数据进行两级分类,得到各推文数据的一级标签和二级标签之前,所述方法还包括:构建BERT文本分类器;获取样本数据,并对所述样本数据进行标签标注,得到训练数据,所述标签包括一级标签和二级标签,所述一级标签的值为表示不存在潜在事件的第一值或表示存在潜在事件的第二值,所述二级标签的值为预设的事件类别;根据所述训练数据对所述BERT文本分类器进行训练,得到两级分类器,所述两级分类器包括一级分类器和二级分类器,所述一级分类器用于将推文数据分类为存在潜在事件的推文数据以及不存在潜在事件的推文数据,所述二级分类器用于确定存在潜在事件的推文数据所属的事件类别。3.根据权利要求1所述的本地事件检测方法,其特征在于,所述分别获取属于同一事件类别的各推文数据的位置信息,包括:若一推文数据包含签到信息,则获取签到信息中的兴趣点的位置信息,作为所述一推文数据的位置信息;若一推文数据不包含签到信息,则通过预设的命名体识别模型,识别所述一推文数据的潜在地址,并通过地图,获取所述潜在地址的位置信息,作为所述一推文数据的位置信息。4.根据权利要求1所述的本地事件检测方法,其特征在于,所述根据推文数据的文本、发布时间和位置信息,对属于同一事件类别的各推文数据进行聚类,得到属于同一事件类别的推文簇,包括:分别根据各推文数据的文本,生成各推文数据的文本向量编码;根据推文数据的发布时间,依序获取属于同一事件类别的推文数据中的一推文数据,作为当前推文数据;判断当前推文数据是否为第一个推文数据;若是,则建立推文簇,将当前推文数据加入所述推文簇,并根据当前推文数据的发布时间、位置信息和文本向量编码,设置所述推文簇的时间、地址和文本向量编码;
若否,则判断是否存在一推文簇,当前推文数据与所述一推文簇的距离小于或等于预设的第一距离阈值,当前推文数据的发布时间与所述一推文簇的时间的时间差小于预设的第一时间阈值,且当前推文数据的文本向量编码与所述一推文簇的文本向量编码之间的距离小于预设的第二距离阈值;若存在,则将当前推文数据加入所述一推文簇,并根据所述一推文簇中各推文数据的发布时间、位置信息和文本向量编码,更新所述一推文簇的时间、地址和文本向量编码;若不存在,则建立新的推文簇,将当前推文数据加入所述新的推文簇,并根据当前推文数据的发布时间、位置信息和文本向量编码,设置所述新的推文簇的时间、地址和文本向量编码。5.根据权利要求4所述的本地事件检测方法,其特征在于,所述根据所述一推文簇中各推文数据的发布时间、位置信息和文本向量编码,更新所述一推文簇的时间、地址和文本向量编码,包括:根据所述一推文簇中各推文数据的发布时间,获取最新发布时间,并根据所述最新发布时间,更新所述一推文簇的时间;根据所述...
【专利技术属性】
技术研发人员:宋轩,李永康,范子沛,尹渡,冯德帆,邓锦亮,王宏俊,
申请(专利权)人:南方科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。