基于用户意图学习的交互式聚类质量提升方法技术

技术编号:37470918 阅读:21 留言:0更新日期:2023-05-06 09:51
本发明专利技术公开了基于用户意图学习的交互式聚类质量提升方法,属于人机交互、可视分析技术领域,包括以下步骤:步骤一:数据采集和存储,并得到数据集D;步骤二:从D中抽取样本得到样本集S;步骤三:对S进行初始聚类,系统进行数据分析,通过可视化形式推荐聚类调整方案;步骤四:用户调整C

【技术实现步骤摘要】
基于用户意图学习的交互式聚类质量提升方法


[0001]本专利技术属于人机交互、可视分析
,尤其涉及基于用户意图学习的交互式聚类质量提升方法。

技术介绍

[0002]聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。
[0003]现有的聚类算法大多依赖初始状态的设定、输入数据的质量以及用户的先验知识。用户若想获得高质量的输出结果,就需要对数据科学和聚类原理有较深的理解。此外,现有方法容易引发以下问题:
[0004]一、初始参数如簇类数目、距离度量以及一些随机量的设置,会显著影响聚类结果,然而此类参数值的选择缺乏明确的指导,需要用户根据经验或者重复的试错过程来确定;
[0005]二、聚类是一种无监督的机器学习方法,其对应的各种模型属于黑盒系统,缺乏专业背景知识的用户难以理解其内在的工作机制,更无法对其进行改动从而优化性能;
[0006]三、由于输入数据特征的明显差异,同一套参数设置很难在跨领域场景中获得稳定且高精度的结果,用户需要在不同的应用上花费巨大的人力和算力来寻找合适的设置,即现有的聚类方法要想取得理想的结果,需要用户具备坚实的专业知识,导致其难以实现跨学科、跨数据的应用。

技术实现思路

[0007]本专利技术的目的在于:为了解决
技术介绍
中列出的问题,提出基于用户意图学习的交互式聚类质量提升方法。
[0008]为了实现上述目的,本专利技术采用了如下技术方案:
[0009]基于用户意图学习的交互式聚类质量提升方法,包括以下步骤:
[0010]步骤一:数据采集和存储:采集数据并得到数据集D={d1,d2,...,d
n
};
[0011]步骤二:小批量数据采样:从数据集D中抽取r个样本并得到样本集S={s1,s2,...,s
r
};
[0012]步骤三:小样本初始聚类:采用任意聚类方法,如kmeans对样本集S进行初始聚类,并得到初步聚类结果C
S
,系统进行数据分析,通过可视化形式推荐聚类调整方案;
[0013]步骤四:交互式聚类调整:用户根据经验知识或系统推荐对聚类结果C
S
进行调整,得到C

S
,系统通过半监督方法学习用户调整过程中反映的聚类意图,并根据该聚类意图对更大量的未调整样本进行自动化聚类;
[0014]步骤五:聚类意图传播:构造包含所有样本的全连接图,以在当前小样本与新数据样本之间建立联系,将聚类问题转化为基于GNN模型的半监督学习问题,对未调整样本进行自动校准;
[0015]步骤六:聚类结果评估:通过Kullback

Leibler(KL)散度来计算两个概率分布之间的距离,样本属于各个簇的概率越接近,模型输出的最终结果越不可靠。
[0016]优选的,步骤一中采集数据后需对该数据进行清洗、集成等预处理操作,再得到数据集D。
[0017]优选的,步骤二中从数据集D中抽取r个样本的方法为均匀随机采样或蓝噪音采样。
[0018]优选的,步骤四中,用户调节聚类结果C
S
时,将样本显示在显示屏上,样本通过t

SNE算法确定位置,特征类似的样本会形成一个样本簇类。
[0019]优选的,步骤四中对聚类结果C
S
的调整包括:
[0020]创建:若样本不属于当前的任何簇类,则将其拖至空白处,形成只包含一个样本的新簇类;
[0021]移动:若与当前样本特征相近的大多数样本属于另一个簇类,则将该样本从当前簇拖至目标簇中;
[0022]删除:若对当前样本的归属情况不确定,可以选中该样本并删除;
[0023]合并:若两个簇类的特征十分接近,可以拖动其中一个使两者对应的展示区域相交进行合并;
[0024]分割:若一个簇类的特征划分过于粗糙,可以通过套索工具选择多个样本,并将它们拖离当前簇类以构成新的簇类。
[0025]优选的,在用户调节聚类结果C
S
时,系统采用从簇类到样本的调整方案,该方案包括:
[0026]A、利用下列公式确定要调整的簇类:
[0027][0028][0029]rank(C)=variation(C)+1/(density(C)+μ)其中,density表示簇类内部样本之间特征的统一程度,w
i,j
是样本i和j的特征向量的余弦相似度,density的值越小,簇类内部的样本特征越不统一,该簇越需要被调整;variation表示簇类内部样本特征之间的变化程度,variation的值越高,样本特征越不相似,该簇越需要被调整;rank的值表示簇类需要被调整的程度,rank值越大的簇类越需要调整。
[0030]B、确定要调整的样本:根据A中确定的簇类,对其所包含的每个样本查找k近邻,k值与簇类的数目相同,同时计算这些k近邻在各个簇类的分布情况{p1,p2,...,p
k
},系统将推荐样本调整到分布概率最大的簇类。
[0031]优选的,聚类意图的传播通过神经网络模型的训练来实现,该模型包含两层图卷积层,每层都采用ReLU激活函数,最终经过softmax函数,得到每个样本属于各个簇类的概率;模型的损失函数L的定义同时使用已标注和未标注数据的信息,其中未标注数据信息所
占比重
ɑ
(.)随着训练轮数的增加而增大;
[0032]损失函数L的计算公式如下:
[0033][0034]ɑ
(.)的计算公式如下:
[0035][0036]优选的,在聚类结果评估中,新样本所属的簇由半监督模型输出的概率分布P
c
={c1,c2,...,c
k
}决定,其中k代表簇的数目,c
i
(1<=i<=k)表示当前样本属于第i个簇类的可能性,样本最终会被分配至可能性最大的簇类。
[0037]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0038]1、本专利技术的核心在于使用用户调整后的样本的分组信息对更大量的未调整样本进行自动化聚类;具体来说,就是在已调整和未调整样本之间建立关系,使得已调整样本的信息尽大可能只传递给与之具有较强关联的样本;本专利技术通过构建连通的隐式语义关系图对所有样本的关联关系进行建模,特征相近的样本之间相互连接,用户意图可以通过图上的路径从已标注小样本传递至未标注新样本,从而使得用户无需具有较高的专业背景知识即可使用该方法,也有利于实现该方法的跨学科、跨数据的应用;同时,将无监督的聚类问题转化为半监督学习问题,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于用户意图学习的交互式聚类质量提升方法,其特征在于,包括以下步骤:步骤一:数据采集和存储:采集数据并得到数据集D={d1,d2,...,d
n
};步骤二:小批量数据采样:从数据集D中抽取r个样本并得到样本集S={s1,s2,...,s
r
};步骤三:小样本初始聚类:采用任意聚类方法,如kmeans对样本集S进行初始聚类,并得到初步聚类结果C
S
,系统进行数据分析,通过可视化形式推荐聚类调整方案;步骤四:交互式聚类调整:用户根据经验知识或系统推荐对聚类结果C
S
进行调整,得到C

S
,系统通过半监督方法学习用户调整过程中反映的聚类意图,并根据该聚类意图对更大量的未调整样本进行自动化聚类;步骤五:聚类意图传播:构造包含所有样本的全连接图,以在当前小样本与新数据样本之间建立联系,将聚类问题转化为基于GNN模型的半监督学习问题,对未调整样本进行自动校准;步骤六:聚类结果评估:通过Kullback

Leibler(KL)散度来计算两个概率分布之间的距离,样本属于各个簇的概率越接近,模型输出的最终结果越不可靠。2.根据权利要求1所述的基于用户意图学习的交互式聚类质量提升方法,其特征在于,步骤一中采集数据后需对该数据进行清洗、集成等预处理操作,再得到数据集D。3.根据权利要求1所述的基于用户意图学习的交互式聚类质量提升方法,其特征在于,步骤二中从数据集D中抽取r个样本的方法为均匀随机采样或蓝噪音采样。4.根据权利要求1所述的基于用户意图学习的交互式聚类质量提升方法,其特征在于,步骤四中,用户调节聚类结果C
S
时,将样本显示在显示屏上,样本通过t

SNE算法确定位置,特征类似的样本会形成一个样本簇类。5.根据权利要求4所述的基于用户意图学习的交互式聚类质量提升方法,其特征在于,步骤四中对聚类结果C
S
的调整包括:创建:若样本不属于当前的任何簇类,则将其拖至空白处,形成只包含一个样本的新簇类;移动:若与当前样本特征相近的大多数样本属于另一个簇类,则将该样本从当前簇拖至目标簇中;删除:若对当前样本的归属情况不确定,可以选中该样本并删除;...

【专利技术属性】
技术研发人员:王蕴哲
申请(专利权)人:苏州科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1