一种异常事件检测方法及装置制造方法及图纸

技术编号:25441917 阅读:18 留言:0更新日期:2020-08-28 22:29
本发明专利技术实施例提供的一种异常事件检测方法及装置,其中,方法包括:获取当前基站第一预设时间内的POI数据以及通信数据,将当前基站在第一预设时间内的POI数据与通信数据进行融合,获得当前基站的当前总特征向量,进一步通过训练好的多分类模型,计算得到当前总特征向量的当前类别概率向量,计算当前基站的当前类别概率向量与当前基站的历史类别概率向量之间的欧式距离,若欧式距离超过距离阈值,则将当前基站确定为待定异常基站,判断待定异常基站的当前平均特征向量与待定异常基站的历史平均特征向量的第一差值是否超过预设的第一差异阈值,确定当前通信数据是否异常,可以提高检测异常事件的准确性。

【技术实现步骤摘要】
一种异常事件检测方法及装置
本专利技术涉及检测
,特别是涉及一种异常事件检测方法及装置。
技术介绍
当城市中出现一个突发性事件,比如:大型赛事或者交通事故,就会造成道路人群聚集或者交通堵塞,这些突发性事件称为异常事件,检测异常事件可以有效的对城市道路交通进行疏导。现有检测异常事件的方案有:基于粒度聚类的检测方案以及基于密度的检测方案;基于粒度聚类的检测方案中,首先将一个城市区域按照通信基站的覆盖范围划分为多个区域,每个区域有一个通信基站负责该区域的通信。对每一个通信基站内的通信数据按照两种粒度进行分类,然后将同一粒度的通信数据进行聚类,比较对同一通信数据在不同粒度的聚类结果。如果聚类结果不同,则表示产生该通信数据的事件是异常事件。上述基于粒度聚类的检测方案在实施时会存在以下问题:当通信数据受到噪声影响时,同一通信数据在不同粒度的聚类结果会不同,容易误识别异常事件。基于密度的检测方案是将同一基站中的每个通信数据作为一个粒子,同一基站中的所有通信数据组成一个粒子群。根据每个粒子的LOF(LocalOutlierFactor,局部离群因子)打分,LOF表示单个粒子离群的程度,分数越高代表粒子的离群程度越大,将分数超过阈值的通信数据确定为异常数据,则产生该异常数据的事件为异常事件。上述基于密度的检测方案在实施时会存在以下问题:在LOF给单个粒子打分时,只考虑该单个粒子距离较近的有限个粒子,即单个粒子在局部粒子之间的相关性,当该单个粒子考虑的有限个粒子离群程度较大时,该单个粒子的LOF也会较大,导致粒子的分数值会受到局部粒子影响,因此对粒子打分的准确度不高,导致识别异常事件的准确度不高。
技术实现思路
本专利技术实施例的目的在于提供一种异常事件检测方法及装置,以提高检测异常事件的准确性。具体技术方案如下:第一方面,本专利技术实施例提供的一种异常事件检测方法包括:获取当前基站在第一预设时间段内的兴趣点POI数据以及通信数据;将POI数据与通信数据进行融合,得到当前基站的当前总特征向量,当前总特征向量的元素表示当前基站在指定时刻的通信数据所在区域的类别与通信数据的对应关系;基于当前总特征向量,通过训练好的多分类模型,计算得到当前总特征向量的当前类别概率向量,当前类别概率向量表示当前基站所在区域的类别的概率;计算当前类别概率向量与获得的当前基站的历史类别概率向量之间的欧式距离;若当前类别概率向量与历史类别概率向量之间的欧式距离超过距离阈值,则将当前基站确定为待定异常基站;判断待定异常基站的当前平均特征向量与待定异常基站的历史平均特征向量的第一差值是否超过预设的第一差异阈值,确定待定异常基站的当前通信数据是否异常,当前平均特征向量的每个元素表示在指定时刻当前通信数据的用户数的平均值。可选的,将POI数据与通信数据进行融合,得到当前基站的当前总特征向量的步骤,包括:获取在第一预设时间段内的每个指定时刻当前基站的通信数据的特征值;按照预设的周期,计算当前基站的通信数据的特征值的平均值,获得通信数据的当前平均特征向量;将POI数据分别输入预设的词向量Glove模型以及预设的主题生成LDA模型,获得Glove模型输出的第一特征向量以及LDA模型输出的第二特征向量;基于当前平均特征向量、第一特征向量以及第二特征向量,计算得到总相似度矩阵;将总相似度矩阵的每一行元素,确定为与该行元素序号相同的当前基站的当前总特征向量。可选的,训练好的多分类模型是通过如下步骤得到的:获取在当前时刻前的第二预设时间段内,多个历史时刻时的多个基站的POI数据以及通信数据;针对多个基站,将该基站同一历史时刻的POI数据以及通信数据进行融合,得到历史总特征向量;将每个历史总特征向量作为一个样本,组成样本集;基于样本集,使用十折交叉法迭代训练预设的多分类模型,直至达到迭代次数;将达到迭代次数的多分类模型,确定为训练好的多分类模型。可选的,基于样本集,使用十折交叉法迭代训练预设的多分类模型,直至达到迭代次数的步骤,包括:针对样本集中的第一样本,将除第一样本外的一个第二样本输入预设的多分类模型,将第二样本对应的基站所在区域的类别,作为多分类模型输出的概率最高的类别,训练多分类模型直至达到迭代次数。可选的,历史类别概率向量通过如下的步骤获得:针对多个历史总特征向量中的一个历史总特征向量,将该历史总特征向量输入除该历史总特征向量外的历史总特征向量训练得到的多分类模型中,得到该历史总特征向量的历史类别概率向量;将历史类别概率向量确定为历史总特征向量所在基站的历史类别概率向量。可选的,判断待定异常基站的当前平均特征向量与待定异常基站的历史平均特征向量的第一差值是否超过预设的第一差异阈值,确定待定异常基站的当前通信数据是否异常的步骤,包括:确定第一差值超过第一差值阈值的当前通信数据的目标时间段;统计在第一预设时间段内,每个指定时段包含目标时间段的个数;将包含目标时间段的个数最多的指定时段,确定为异常发生时段;并且,当第一差值超过第一差值阈值时,判断待定异常基站的当前平均特征向量与非异常基站的当前平均特征向量的第二差值是否超过第二差值阈值;当第二差值超过第二差值阈值时,将待定异常基站确定为异常基站;将异常基站在异常发生时段的当前通信数据,确定为异常的当前通信数据。第二方面,本专利技术实施例提供的一种异常事件检测装置,该装置包括:获取模块,用于获取当前基站在第一预设时间段内的兴趣点POI数据以及通信数据;融合模块,用于将POI数据与通信数据进行融合,得到当前基站的当前总特征向量,当前总特征向量的元素表示当前基站在指定时刻的通信数据所在区域的类别与通信数据的对应关系;第一计算模块,用于基于当前总特征向量,通过训练好的多分类模型,计算得到当前总特征向量的当前类别概率向量,当前类别概率向量表示当前基站所在区域的类别的概率;第二计算模块,用于计算当前类别概率向量与获得的当前基站的历史类别概率向量之间的欧式距离;第一确定模块,用于若当前类别概率向量与历史类别概率向量之间的欧式距离超过距离阈值,则将当前基站确定为待定异常基站;第二确定模块,用于判断待定异常基站的当前平均特征向量与待定异常基站的历史平均特征向量的第一差值是否超过预设的第一差异阈值,确定待定异常基站的当前通信数据是否异常,当前平均特征向量的每个元素表示在指定时刻当前通信数据的用户数的平均值。可选的,融合模块具体用于:获取在第一预设时间段内的每个指定时刻当前基站的通信数据的特征值;按照预设的周期,计算当前基站的通信数据的特征值的平均值,获得通信数据的当前平均特征向量;将POI数据分别输入预设的词向量Glove模型以及预设的主题生成LDA模型,获得Glove模型输出的第一特征向量以及LDA模型输出本文档来自技高网
...

【技术保护点】
1.一种异常事件检测方法,其特征在于,方法包括:/n获取当前基站在第一预设时间段内的兴趣点POI数据以及通信数据;/n将所述POI数据与所述通信数据进行融合,得到所述当前基站的当前总特征向量,所述当前总特征向量的元素表示所述当前基站在指定时刻的通信数据所在区域的类别与所述通信数据的对应关系;/n基于所述当前总特征向量,通过训练好的多分类模型,计算得到所述当前总特征向量的当前类别概率向量,当前类别概率向量表示当前基站所在区域的类别的概率;/n计算所述当前类别概率向量与获得的当前基站的历史类别概率向量之间的欧式距离;/n若所述当前类别概率向量与所述历史类别概率向量之间的欧式距离超过距离阈值,则将所述当前基站确定为待定异常基站;/n判断所述待定异常基站的当前平均特征向量与所述待定异常基站的历史平均特征向量的第一差值是否超过预设的第一差异阈值,确定所述待定异常基站的当前通信数据是否异常,当前平均特征向量的每个元素表示在指定时刻当前通信数据的用户数的平均值。/n

【技术特征摘要】
1.一种异常事件检测方法,其特征在于,方法包括:
获取当前基站在第一预设时间段内的兴趣点POI数据以及通信数据;
将所述POI数据与所述通信数据进行融合,得到所述当前基站的当前总特征向量,所述当前总特征向量的元素表示所述当前基站在指定时刻的通信数据所在区域的类别与所述通信数据的对应关系;
基于所述当前总特征向量,通过训练好的多分类模型,计算得到所述当前总特征向量的当前类别概率向量,当前类别概率向量表示当前基站所在区域的类别的概率;
计算所述当前类别概率向量与获得的当前基站的历史类别概率向量之间的欧式距离;
若所述当前类别概率向量与所述历史类别概率向量之间的欧式距离超过距离阈值,则将所述当前基站确定为待定异常基站;
判断所述待定异常基站的当前平均特征向量与所述待定异常基站的历史平均特征向量的第一差值是否超过预设的第一差异阈值,确定所述待定异常基站的当前通信数据是否异常,当前平均特征向量的每个元素表示在指定时刻当前通信数据的用户数的平均值。


2.根据权利要求1的方法,其特征在于,所述将所述POI数据与所述通信数据进行融合,得到所述当前基站的当前总特征向量的步骤,包括:
获取在所述第一预设时间段内的每个指定时刻所述当前基站的通信数据的特征值;
按照预设的周期,计算所述当前基站的通信数据的特征值的平均值,获得所述通信数据的当前平均特征向量;
将所述POI数据分别输入预设的词向量Glove模型以及预设的主题生成LDA模型,获得Glove模型输出的第一特征向量以及LDA模型输出的第二特征向量;
基于所述当前平均特征向量、所述第一特征向量以及所述第二特征向量,计算得到总相似度矩阵;
将总相似度矩阵的每一行元素,确定为与该行元素序号相同的所述当前基站的当前总特征向量。


3.根据权利要求1的方法,其特征在于,所述训练好的多分类模型是通过如下步骤得到的:
获取在当前时刻前的第二预设时间段内,多个历史时刻时的多个基站的POI数据以及通信数据;
针对多个基站,将该基站同一历史时刻的POI数据以及通信数据进行融合,得到历史总特征向量;
将每个历史总特征向量作为一个样本,组成样本集;
基于所述样本集,使用十折交叉法迭代训练预设的多分类模型,直至达到迭代次数;
将达到迭代次数的多分类模型,确定为训练好的多分类模型。


4.根据权利要求3的方法,其特征在于,所述基于样本集,使用十折交叉法迭代训练预设的多分类模型,直至达到迭代次数的步骤,包括:
针对所述样本集中的第一样本,将除第一样本外的一个第二样本输入预设的多分类模型,将第二样本对应的基站所在区域的类别,作为多分类模型输出的概率最高的类别,训练多分类模型直至达到迭代次数。


5.根据权利要求1的方法,其特征在于,所述历史类别概率向量通过如下的步骤获得:
针对多个历史总特征向量中的一个历史总特征向量,将该历史总特征向量输入除该历史总特征向量外的历史总特征向量训练得到的多分类模型中,得到该历史总特征向量的历史类别概率向量;
将所述历史类别概率向量确定为历史总特征向量所在基站的历史类别概率向量。


...

【专利技术属性】
技术研发人员:张治项明钧刘宝玲秦晓琦
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1