System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种事件聚类方法和装置。
技术介绍
1、生活中会发生很多事件,对事件进行分析研判有助于了解事件的起因和影响,更好地维护区域秩序。在对事件进行分析研判时,通常根据事件发生的区域、事件发生的时间、事件内容或者事件类型等信息对事件进行聚类,然后基于聚类结果进行分析研判。例如,根据事件发生的地点对事件进行聚类,然后对同一地点发生的事件进行分析。
2、在实现本专利技术的过程中,专利技术人发现现有技术至少存在如下问题:
3、仅根据事件所包括的单一信息对事件进行聚类,忽略了事件所包括的所有信息之间的关联性,导致事件聚类结果不准确。
技术实现思路
1、有鉴于此,本专利技术实施例提供一种事件聚类方法和装置,能够综合考虑事件所包括的多种信息,提高事件聚类的准确性。
2、为实现上述目的,根据本专利技术实施例的第一方面,提供一种事件聚类方法,包括:
3、响应于接收到聚类请求,对所述聚类请求所对应的多个事件进行编码,得到每个事件的语义表征和时空表征;
4、对所述每个事件的语义表征和时空表征进行拼接,得到所述每个事件的向量表征;
5、对所述多个事件的向量表征进行聚类,根据聚类结果确定所述每个事件所属的事件集合。
6、可选地,所述语义表征是基于预先训练的事件语义表征模型编码得到的;在得到每个事件的语义表征之前,所述方法还包括:
7、对预先设置的历史事件进行分词,将分词结果转换为对应的字符
8、使用所述字符标识对预先设置的通用语义模型进行前向传播;
9、确定所述通用语义模型在前向传播过程中的损失函数,根据所述损失函数使用预先设置的优化器对所述通用语义模型进行反向传播,得到事件语义表征模型。
10、可选地,使用所述字符标识对预先设置的通用语义模型进行前向传播,包括:
11、使用所述字符标识对预先设置的通用语义模型进行多次前向传播,在每次前向传播的过程中遮盖所述通用语义模型中的一个或者多个网络节点。
12、可选地,确定所述通用语义模型在前向传播过程中的损失函数,包括:
13、将相同事件的字符标识经过多次前向传播所得到的多个语义表征互相作为正样本,将不同事件的字符标识经过多次前向传播所得到的多个语义表征互相作为负样本,根据所述正样本与所述负样本之间的相似度确定所述通用语义模型在前向传播过程中的对比损失函数。
14、可选地,所述时空表征包括:时间表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:
15、从所述多个事件中获取时间信息,对所述时间信息进行归一化处理;
16、确定所述时间表征的维度信息,根据所述维度信息和所述多个事件的时间信息确定时间变化频率;
17、根据所述时间变化频率,对归一化处理后的时间信息进行三角函数编码。
18、可选地,所述时空表征包括:位置表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:
19、从所述多个事件中获取位置信息,对所述位置信息进行归一化处理;
20、确定所述位置表征的维度信息,根据所述维度信息对预先设置的位置频率进行调整,得到位置变化频率;
21、根据所述位置变化频率,对归一化处理后的位置信息进行三角函数编码。
22、可选地,在对所述多个事件的向量表征进行聚类之前,所述方法还包括:
23、判断每个向量表征所包括的语义表征和时空表征的维度是否相等;
24、在向量表征所包括的语义表征和时空表征的维度不相等的情况下,对向量表征所包括的语义表征和时空表征进行归一化处理。
25、根据本专利技术实施例的第二方面,提供一种事件聚类装置,包括:
26、编码模块,用于响应于接收到聚类请求,对预先设置的多个事件进行编码,得到每个事件的语义表征和时空表征;
27、拼接模块,用于对所述每个事件的语义表征和时空表征进行拼接,得到所述每个事件的向量表征;
28、聚类模块,用于对所述多个事件的向量表征进行聚类,根据聚类结果确定所述每个事件所属的事件集合。
29、可选地,所述语义表征是基于预先训练的事件语义表征模型编码得到的;所述装置还包括:
30、分词模块,用于对预先设置的历史事件进行分词,将分词结果转换为对应的字符标识;
31、前向传播模块,用于使用所述字符标识对预先设置的通用语义模型进行前向传播;
32、反向传播模块,用于确定所述通用语义模型在前向传播过程中的损失函数,根据所述损失函数使用预先设置的优化器对所述通用语义模型进行反向传播,得到事件语义表征模型。
33、可选地,使用所述字符标识对预先设置的通用语义模型进行前向传播,包括:
34、使用所述字符标识对预先设置的通用语义模型进行多次前向传播,在每次前向传播的过程中遮盖所述通用语义模型中的一个或者多个网络节点。
35、可选地,确定所述通用语义模型在前向传播过程中的损失函数,包括:
36、将相同事件的字符标识经过多次前向传播所得到的多个语义表征互相作为正样本,将不同事件的字符标识经过多次前向传播所得到的多个语义表征互相作为负样本,根据所述正样本与所述负样本之间的相似度确定所述通用语义模型在前向传播过程中的对比损失函数。
37、可选地,所述时空表征包括:时间表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:
38、从所述多个事件中获取时间信息,对所述时间信息进行归一化处理;
39、确定所述时间表征的维度信息,根据所述维度信息和所述多个事件的时间信息确定时间变化频率;
40、根据所述时间变化频率,对归一化处理后的时间信息进行三角函数编码。
41、可选地,所述时空表征包括:位置表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:
42、从所述多个事件中获取位置信息,对所述位置信息进行归一化处理;
43、确定所述位置表征的维度信息,根据所述维度信息对预先设置的位置频率进行调整,得到位置变化频率;
44、根据所述位置变化频率,对归一化处理后的位置信息进行三角函数编码。
45、可选地,所述装置还包括:
46、判定模块,用于判断每个向量表征所包括的语义表征和时空表征的维度是否相等;
47、归一化模块,用于在向量表征所包括的语义表征和时空表征的维度不相等的情况下,对向量表征所包括的语义表征和时空表征进行归一化处理。
48、根据本专利技术实施例的第三方面,提供一种电子设备,包括:
49、一个或多个处理器;
50、存储装置,用于存储一个或多个程序,
51、当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实本文档来自技高网...
【技术保护点】
1.一种事件聚类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述语义表征是基于预先训练的事件语义表征模型编码得到的;在得到每个事件的语义表征之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,使用所述字符标识对预先设置的通用语义模型进行前向传播,包括:
4.根据权利要求3所述的方法,其特征在于,确定所述通用语义模型在前向传播过程中的损失函数,包括:
5.根据权利要求1所述的方法,其特征在于,所述时空表征包括:时间表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:
6.根据权利要求5所述的方法,其特征在于,所述时空表征包括:位置表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:
7.根据权利要求1所述的方法,其特征在于,在对所述多个事件的向量表征进行聚类之前,所述方法还包括:
8.一种事件聚类装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读介质,其上存储有计算机程序,其特
...【技术特征摘要】
1.一种事件聚类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述语义表征是基于预先训练的事件语义表征模型编码得到的;在得到每个事件的语义表征之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,使用所述字符标识对预先设置的通用语义模型进行前向传播,包括:
4.根据权利要求3所述的方法,其特征在于,确定所述通用语义模型在前向传播过程中的损失函数,包括:
5.根据权利要求1所述的方法,其特征在于,所述时空表征包括:时间表征;对预先设置的多个事件进行...
【专利技术属性】
技术研发人员:任朝淦,肖艳清,刁文波,
申请(专利权)人:京东城市北京数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。