一种基于多特征类簇粗筛的流式事件聚类处理方法及装置制造方法及图纸

技术编号：41290576 阅读：3 留言：0更新日期：2024-05-13 14:41

本发明专利技术提供一种基于多特征类簇粗筛的流式事件聚类处理方法及装置。其中，该方法包括：基于预设数据文本相似度，通过语义信息特征策略对预设数据样本进行文本初始化，生成初始化类簇集；基于文档逆文档频率特征，通过对相似度计算模型进行设置，生成粗筛数学模型，基于所述粗筛数学模型，通过对所述初始化类簇集进行粗筛，生成类簇文本集合；基于预设重量级模型，通过对所述类簇文本集合进行精细检测，完成流式事件的处理检测。本发明专利技术一方面通过引入语义特征的初始化类簇策略初步解决了原始Single‑Pass算法冷启动的问题，另一方面通过引入文档逆文档频率统计特征的粗筛策略解决了计算相似度时随机采样带来的随机性问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘的流式事件检测，特别涉及一种基于多特征类簇粗筛的流式事件聚类处理方法及装置。

技术介绍

1、目前，对于流式事件检测的文本聚类算法主要包括非增量聚类和增量聚类两类。

2、非增量聚类方法包括使用k-means方法、lda算法改进k-means初始化聚类中心方法、k-medoids算法等基于划分的文本聚类方法，基于划分的文本聚类方法通常具有直观灵活、效率较高的优势，但却面临随机初始化聚类中心导致聚类结果不稳定、无法解决复杂的非凸数据集等问题。自底向上、自顶向下的层次聚类算法，层次聚类的方法对离群数据点敏感，有比较高的计算复杂度，但对文本聚类不适用。dbscan算法、提升dbscan算法等基于密度的文本聚类方法。基于密度的文本聚类方法虽然不需自定义划分的事件类别个数，类簇的形状没有偏倚，但当文本数据分布差异较大、类别密度分布不平衡时，其聚类效果表现很差。

3、增量聚类方法通常可划分为两大类，一类为由非增量聚类算法直接改造而来的增量聚类方法，其中典型方法是流式dbscan模型，但这不适用于大规模数据的处理，算法的时间和空间复杂度也较高。另一类主流的增量聚类方法为基于single-pass算法逐次处理单个数据的方法，是使用single-pass算法找到与输入文档相似度最高的事件类簇，并基于相似度阈值执行合并文档或创建新事件类的操作。但现有流式事件聚类算法中首先算法对文本输入顺序较为敏感，需要文本以较为固定的顺序进行输入。其次当初始类簇中心含有的事件信息较少时，会导致聚类效果不好。最后，随着事件类

4、因此，需要一种或多种方法解决上述问题。

5、需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本专利技术实施例提供一种基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法包括：

2、基于预设数据文本相似度，通过语义信息特征策略对预设数据样本进行文本初始化，生成初始化类簇集；

3、基于文档逆文档频率特征，通过对相似度计算模型进行设置，生成粗筛数学模型，基于所述粗筛数学模型，通过对所述初始化类簇集进行粗筛，生成类簇文本集合；

4、基于预设重量级模型，通过对所述类簇文本集合进行精细检测，完成流式事件的处理检测。

5、在本专利技术的一种示例性实施例中，基于预设数据文本相似度，通过条件随机场模型对预设数据样本命名实体进行词语提取，生成命名实体词汇表；

6、当所述条件随机场模型未检测到所述预设数据样本命名实体时，通过对预设数据样本名词、预设数据样本动词进行词语提取，生成补充词汇表；

7、通过对所述命名实体词汇表，补充词汇表进行复合，生成类簇词汇表。

8、在本专利技术的一种示例性实施例中，基于所述类簇词汇表，通过对预设第一输入文本进行设置，生成初始化类簇中心；

9、基于语义信息特征统计预设时间，通过对相似度聚合计算时间进行设置，生成第一时间窗口；

10、基于所述第一时间窗口，通过所述类簇词汇表对预设第一输入文本、预设第二输入文本进行相似度计算，生成初始化类簇集。

11、在本专利技术的一种示例性实施例中，基于文档逆文档频率特征，通过对逆文档频率进行设定，生成逆文档频率数学模型；

12、基于所述逆文档频率数学模型，通过对相似度计算模型进行设置，生成粗筛数学模型。

13、在本专利技术的一种示例性实施例中，基于所述粗筛数学模型，通过对所述初始化类簇集进行筛选，生成类簇文本；

14、基于预设相似度分数，通过对所述类簇文本进行预设数量的排序筛选，生成类簇文本集合。

15、在本专利技术的一种示例性实施例中，基于预设重量级模型，通过对所述类簇文本集合与预设输入文本进行相似度精细筛选，生成精细类簇文本；

16、基于相似度计算预设时间，通过对类簇检测状态时间进行设置，生成第二时间窗口；

17、基于所述第二时间窗口，通过余弦相似度对所述精细类簇文本进行降序排序，生成精排输入文本集合；

18、基于流式事件聚类算法，通过对所述精排输入文本集合进行精细检测，完成流式事件的处理检测。

19、在本专利技术的一个方面，提供一种基于多特征类簇粗筛的流式事件聚类处理装置，所述装置包括：

20、文本初始化模块，用于通过语义信息特征策略对预设数据样本进行文本初始化；

21、类簇粗筛模块，用于对相似度计算模型进行设置，用于对所述初始化类簇集进行粗筛；

22、精细检测模块，用于对所述类簇文本集合进行精细检测。

23、本专利技术的示例性实施例中的一种基于多特征类簇粗筛的流式事件聚类处理方法及装置。其中，该方法包括：基于预设数据文本相似度，通过语义信息特征策略对预设数据样本进行文本初始化，生成初始化类簇集；基于文档逆文档频率特征，通过对相似度计算模型进行设置，生成粗筛数学模型，基于所述粗筛数学模型，通过对所述初始化类簇集进行粗筛，生成类簇文本集合；基于预设重量级模型，通过对所述类簇文本集合进行精细检测，完成流式事件的处理检测。

24、本专利技术所带来的有益效果如下：

25、从上述方案可以看出，本专利技术实施例提供一种基于多特征类簇粗筛的流式事件聚类处理方法及装置，一方面通过引入语义特征的初始化类簇策略初步解决了原始single-pass算法冷启动的问题。另一方面通过引入文档逆文档频率统计特征的粗筛策略解决了计算相似度时随机采样带来的随机性问题。第三方面通过使用重量级模型进行精细检测，并引入时间窗口检测类簇状态来更新已有类簇，能在确保模型有效的前提下，对模型的泛化能力进行了提高。

本文档来自技高网...

【技术保护点】

1.一种基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法还包括：

3.如权利要求2所述的基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法还包括：

4.如权利要求1所述的基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法还包括：

5.如权利要求4所述的基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法还包括：

6.如权利要求5所述的基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法还包括：

7.一种基于多特征类簇粗筛的流式事件聚类处理装置，其特征在于，所述装置包括：

【技术特征摘要】

1.一种基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法还包括：

3.如权利要求2所述的基于多特征类簇粗筛的流式事件聚类处理方法，其特征在于，所述方法还包括：

4.如权利要求1所述的基于多特征类簇粗筛的流式...

【专利技术属性】
技术研发人员：梁惠，范静，宋宪明，童景波，刘恒正，陈旭颖，
申请(专利权)人：中国船舶集团有限公司系统工程研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人