基于用户意图学习的交互式聚类质量提升方法技术

技术编号:37470918 阅读:41 留言:0更新日期:2023-05-06 09:51
本发明专利技术公开了基于用户意图学习的交互式聚类质量提升方法,属于人机交互、可视分析技术领域,包括以下步骤:步骤一:数据采集和存储,并得到数据集D;步骤二:从D中抽取样本得到样本集S;步骤三:对S进行初始聚类,系统进行数据分析,通过可视化形式推荐聚类调整方案;步骤四:用户调整C

【技术实现步骤摘要】
基于用户意图学习的交互式聚类质量提升方法


[0001]本专利技术属于人机交互、可视分析
,尤其涉及基于用户意图学习的交互式聚类质量提升方法。

技术介绍

[0002]聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。
[0003]现有的聚类算法大多依赖初始状态的设定、输入数据的质量以及用户的先验知识。用户若想获得高质量的输出结果,就需要对数据科学和聚类原理有较深的理解。此外,现有方法容易引发以下问题:
[0004]一、初始参数如簇类数目、距离度量以及一些随机量的设置,会显著影响聚类结果,然而此类参数值的选择缺乏明确的指导,需要用户根据经验或者重复的试错过程来确定;
[0005]二、聚类是一种无监督的机器学习方法,其对应的各种模型属于黑盒系统,缺乏专业背景知本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于用户意图学习的交互式聚类质量提升方法,其特征在于,包括以下步骤:步骤一:数据采集和存储:采集数据并得到数据集D={d1,d2,...,d
n
};步骤二:小批量数据采样:从数据集D中抽取r个样本并得到样本集S={s1,s2,...,s
r
};步骤三:小样本初始聚类:采用任意聚类方法,如kmeans对样本集S进行初始聚类,并得到初步聚类结果C
S
,系统进行数据分析,通过可视化形式推荐聚类调整方案;步骤四:交互式聚类调整:用户根据经验知识或系统推荐对聚类结果C
S
进行调整,得到C

S
,系统通过半监督方法学习用户调整过程中反映的聚类意图,并根据该聚类意图对更大量的未调整样本进行自动化聚类;步骤五:聚类意图传播:构造包含所有样本的全连接图,以在当前小样本与新数据样本之间建立联系,将聚类问题转化为基于GNN模型的半监督学习问题,对未调整样本进行自动校准;步骤六:聚类结果评估:通过Kullback

Leibler(KL)散度来计算两个概率分布之间的距离,样本属于各个簇的概率越接近,模型输出的最终结果越不可靠。2.根据权利要求1所述的基于用户意图学习的交互式聚类质量提升方法,其特征在于,步骤一中采集数据后需对该数据进行清洗、集成等预处理操作,再得到数据集D。3.根据权利要求1所述的基于用户意图学习的交互式聚类质量提升方法,其特征在于,步骤二中从数据集D中抽取r个样本的方法为均匀随机采样或蓝噪音采样。4.根据权利要求1所述的基于用户意图学习的交互式聚类质量提升方法,其特征在于,步骤四中,用户调节聚类结果C
S
时,将样本显示在显示屏上,样本通过t

SNE算法确定位置,特征类似的样本会形成一个样本簇类。5.根据权利要求4所述的基于用户意图学习的交互式聚类质量提升方法,其特征在于,步骤四中对聚类结果C
S
的调整包括:创建:若样本不属于当前的任何簇类,则将其拖至空白处,形成只包含一个样本的新簇类;移动:若与当前样本特征相近的大多数样本属于另一个簇类,则将该样本从当前簇拖至目标簇中;删除:若对当前样本的归属情况不确定,可以选中该样本并删除;...

【专利技术属性】
技术研发人员:王蕴哲
申请(专利权)人:苏州科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1