【技术实现步骤摘要】
热点发现和可视化交互方法与系统
[0001]本专利技术涉及数据处理
,具体而言涉及一种热点发现和可视化交互方法与系统。
技术介绍
[0002]随着互联网的发展,企业拥有了大量形式多样的用户交互数据。例如,用户对企业的投诉工单、用户和客服的聊天数据、政务网站的建设意见、电子商务平台的产品评价等,这些用户交互数据中文字信息拥有极大的商业价值。例如,通过使用无监督聚类算法,在没有人工干预的情况下快速发现数据中潜在规律,能够快速地将相似数据聚合起来,让人们看到数据中用户关注的热点现象,这个数据挖掘过程称作为热点发现。
[0003]现有处理文本数据的方法通常使用有监督分类和无监督聚类这两种算法。有监督分类算法具有明确的标签和具体的评价指标,而无监督聚类算法则没有。所以无监督聚类的处理结果需要人工分析,并且需要数据分析师有一个很好的数据直觉。因为它没有清晰的评判指标,往往需要对同一份数据进行多次聚类,然后横向比较后人工打分,再挑选出一个最好的结果。这是聚类算法本身的难点。
[0004]热点发现过程需要使用到聚类算法 ...
【技术保护点】
【技术特征摘要】
1.一种热点发现和可视化交互方法,其特征在于,包括:接收输入的用户交互数据,所述用户交互数据包括多条顺序排列的文本句子数据,所述文本句子数据包括表格形式存储的文本信息,所述文本信息包括两列,其中一列表示id,另一列为每个id对应的句子信息;对文本句子数据进行粗分组处理,基于选定的无监督聚类算法对所述文本句子数据进行聚类分组处理,将句子分配至不同的簇中,形成多个簇组合,记为集合ClustersA;对聚类分组结果进行全局和局部的提纯处理,获得提纯后的多个簇组合,记为集合ClustersB。2.根据权利要求1所述的热点发现和可视化交互方法,其特征在于,在聚类分组处理过程中,根据用户选择的无监督聚类算法以及设定的聚类参数,进行聚类分组操作,其中:对于K
‑
means聚类算法,设定的聚类参数包括聚类中心个数;对于DBSCAN聚类算法,设定的聚类参数包括初始化参数,即:领域半径Eps和领域半径Eps范围内的最少点数MinPts。3.根据权利要求1所述的热点发现和可视化交互方法,其特征在于,对文本句子数据进行粗分组处理,基于选定的无监督聚类算法对所述文本句子数据进行聚类分组处理,将句子分配至不同的簇中,形成多个簇组合,包括以下步骤:步骤2
‑
1、对列表形式的文本信息进行数据清洗,获得清洗后的文本数据列表,记为集合N;步骤2
‑
2、基于中文预训练语言模型作为中文句向量工具,将每个句子处理成维度大小为1*786的句子向量,则集合N的句子生成的矩阵维度为N*768,记为矩阵A;步骤2
‑
3、将N*768维度的矩阵A进行降维处理,将矩阵A从N*768维转换为N*2大小的矩阵B,使得每一个句子都拥有一个降维坐标;步骤2
‑
4、基于选定的无监督聚类算法对转换输出的矩阵B进行聚类分组操作,将句子分配至不同的簇中,形成多个簇组合,记为所述的集合ClustersA,并计算每个句子到其所在簇的簇心的距离,以及每个簇内的句子个数。4.根据权利要求3所述的热点发现和可视化交互方法,其特征在于,在所述步骤2
‑
4中,使用余弦相似度来表示句子到其所在簇的簇心的距离,通过计算句子与簇心所对应的向量的夹角的余弦值,来度量它们之间的相似性,余弦相似度的结果越趋向1,说明两个句子越相似。5.根据权利要求3所述的热点发现和可视化交互方法,其特征在于,在所述步骤2
‑
2中,还包括以下步骤:使...
【专利技术属性】
技术研发人员:杨萌,杜振东,王清琛,
申请(专利权)人:南京云问网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。