【技术实现步骤摘要】
propagation)的方法、基于密度峰值(density peaks)的方法、基于多蚁群(multi
‑
ant colonies)的方法等。组对法因其思想简单而成为解决共识函数设计问题的主要方法。
[0005]②
重新标注法(re
‑
labeling approach),该类方法试图显式地解决簇标签对应问题,并通过投票算法获得一致结果,其主要思想如下:首先获得一个与所有聚类成员提供的簇标签最一致的参照标签;然后根据参照标签重新标注所有聚类成员的簇标签;最后,采用投票算法将每个对象指派到所属的簇,包括概率兰德指数(probabilistic Rand index)、选择性投票等。
[0006]值得特别指出的是,近年来有一些研究者尝试通过微调CA矩阵进一步提高聚类集成的精度。由于点存在于两个不同的特征空间,即原始数据矩阵和聚类成员提供的簇标签构成的矩阵,仅依据后者会导致信息损失,而从原始特征空间求得点的权值并进行CA矩阵微调能够有效提升聚类集成的精度。Z Tao等根据原始数据矩阵计算点的相似度进而获得归一化 ...
【技术保护点】
【技术特征摘要】
1.一种基于三层加权模型的文本聚类集成方法,其特征在于,包括:步骤S1:获取文本集;步骤S2:对所述文本集进行预处理;步骤S3:基于k
‑
means算法,对预处理结果进行聚类集成;步骤S4:构建三层加权模型,对聚类集成结果进行优化;步骤S5:对优化后的聚类集成结果进行评价。2.如权利要求1所述的一种基于三层加权模型的文本聚类集成方法,其特征在于,所述步骤S2:对所述文本集进行预处理,包括:基于TF
‑
IDF算法,将所述文本集中的文本转换成词
‑
文本共现矩阵;基于熵值法,对所述词
‑
文本共现矩阵进行特征加权处理;基于t
‑
SNE算法,对特征加权结果进行降维;将降维结果作为预处理结果,完成预处理。3.如权利要求1所述的一种基于三层加权模型的文本聚类集成方法,其特征在于,所述步骤S3:基于k
‑
means算法,对预处理结果进行聚类集成,包括:设置不同的k值,对预处理结果进行基聚类;从基聚类结果中挑选优异的聚类成员进行集成,获得聚类集成结果。4.如权利要求1所述的一种基于三层加权模型的文本聚类集成方法,其特征在于,所述步骤S4:构建三层加权模型,对聚类集成结果进行优化,包括:基于PCP构架,构建三层加权模型;将聚类集成结果输入至所述三层加权模型,获得优化后的聚类集成结果。5.如权利要求1所述的一种基于三层加权模型的文本聚类集成方法,其特征在于,步骤S5:对优化后的聚类集成结果进行评价,包括:采用外部指标NMI、F和内部指标DB、Dunn对聚类集成结果进行评价。6.如权利要求1所述的一种基于三层加权模型的文本聚类集成方法,其特征在于,步骤S1:获取文本集,包括:设定获取目标;获取所述获取目标对应的多个第一获取策略;获取所述第一获取策略对应的多个第一历史获取事件;依次遍历所述第一历史获取事件,每次遍历时,对遍历到的所述第一历史获取事件进行事件特征提取,获得多个第一事件特征;获取预设的风险事件特征库,将所述第一事件特征与所述风险事件特征库中的第一风险事件特征进行匹配,若匹配符合,将匹配符合的第一风险事件特征作为第二风险事件特征,同时,将匹配符合的第一事件特征作为第二事件特征;获取所述第二风险事件特征对应的风险特征占比阈值;对所述第二事件特征进行特征占比分析,获得事件特征占比;若所述事件特征占比大于等于所述风险特征占比阈值,将对应所述第一历史获取事件作为第二历史获取事件;模拟发生所述第二历史获取事件,在模拟过程中,进行风险识别,获取第一风险值;否则,计算所述事件特征占比与所述风险特征占比阈值之间的差值;
当所述第一历史获取事件遍历结束时,累加计算所述第一风险值,获得第一风险值和,同时,汇总所述差值,获得差值集;若所述第一风险值和大于等于预设的第一风险阈值和/或所述差值集中小于等于预设的差值阈值的所述差值的数目大于等于预设的数目阈值,剔除对应所述第一获取策略;当需要剔除的所述第一获取策略均剔除后,将剔除剩余的所述第一获取策略作为第二获取策略;对所述第二获取策略进行策略拆分,获得多个第一获取策略项;对所述第一获取策略项进行策略特征提取,获得多个第一策略特征;获取预设的跟踪触发特征库,将所述第一策略特征与所述跟踪触发特征库中的第一跟踪触发特征进行匹配,若匹配符合,将匹配符合的第一跟踪触发特征作为第二跟踪触发特征,将匹配符合的所述第一策略特征作为第二策略特征,同时,将对应所述第一获取策略...
【专利技术属性】
技术研发人员:徐森,李娜,徐秀芳,花小朋,皋军,安晶,蔡娜,陈思博,
申请(专利权)人:盐城工学院技术转移中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。