本发明专利技术提供一种热点发现和可视化交互方法与系统,首先接收输入的用户交互数据,然后进行粗分组处理,对文本句子数据进行聚类分组,将句子分配至不同的簇中,形成多个簇组合;最后对聚类分组结果进行全局和局部提纯,获得提纯后的多个簇组合输出。本发明专利技术的热点发现和可视化交互方法将热点发现分成支持多次反复操作的粗分组和提纯阶段,使得聚类和审核过程衔接起来,让用户能够参与挖掘过程,根据粗分组聚类结果决定是否进入提纯阶段,减缓结果评判的困难和审核工作量大的问题;同时设计可视化,将聚类算法融入交互系统中,把调参的过程和结果以图形方式展示给操作人员,让无算法背景的人员能够无痛参与挖掘过程,提高工具的使用率和传播率。用率和传播率。用率和传播率。
【技术实现步骤摘要】
热点发现和可视化交互方法与系统
[0001]本专利技术涉及数据处理
,具体而言涉及一种热点发现和可视化交互方法与系统。
技术介绍
[0002]随着互联网的发展,企业拥有了大量形式多样的用户交互数据。例如,用户对企业的投诉工单、用户和客服的聊天数据、政务网站的建设意见、电子商务平台的产品评价等,这些用户交互数据中文字信息拥有极大的商业价值。例如,通过使用无监督聚类算法,在没有人工干预的情况下快速发现数据中潜在规律,能够快速地将相似数据聚合起来,让人们看到数据中用户关注的热点现象,这个数据挖掘过程称作为热点发现。
[0003]现有处理文本数据的方法通常使用有监督分类和无监督聚类这两种算法。有监督分类算法具有明确的标签和具体的评价指标,而无监督聚类算法则没有。所以无监督聚类的处理结果需要人工分析,并且需要数据分析师有一个很好的数据直觉。因为它没有清晰的评判指标,往往需要对同一份数据进行多次聚类,然后横向比较后人工打分,再挑选出一个最好的结果。这是聚类算法本身的难点。
[0004]热点发现过程需要使用到聚类算法是因为它的无需标注,前期投入的人力少。按照以往的做法是一次性将数据输入到聚类算法中,然后将聚类的结果直接以输出表格的形式,再交给业务人员进行人工审核。这种做法的缺点是人工不能参与挖掘的过程,只能一次性处理后再判断结果,人工审核工作量大,而且需要操作人员接受算法培训,懂得基本的调参方法,门槛较高;如果操作聚类的人员和审核人员是不同的工作组员,那就需要更多沟通成本和时间成本,这些对于热点发现和挖掘来说,是不期望的。
技术实现思路
[0005]根据本专利技术目的的第一方面,提出一种热点发现和可视化交互方法,包括:
[0006]接收输入的用户交互数据,所述用户交互数据包括多条顺序排列的文本句子数据,所述文本句子数据包括表格形式存储的文本信息,所述文本信息包括两列,其中一列表示id,另一列为每个id对应的句子信息;
[0007]对文本句子数据进行粗分组处理,基于选定的无监督聚类算法对所述文本句子数据进行聚类分组处理,将句子分配至不同的簇中,形成多个簇组合,记为集合ClustersA;
[0008]对聚类分组结果进行全局和局部的提纯处理,获得提纯后的多个簇组合,记为集合ClustersB。
[0009]作为可选的方式,在聚类分组处理过程中,根据用户选择的无监督聚类算法以及设定的聚类参数,进行聚类分组操作,其中:
[0010]对于K
‑
means聚类算法,设定的聚类参数包括聚类中心个数;
[0011]对于DBSCAN聚类算法,设定的聚类参数包括初始化参数,即:领域半径Eps和领域半径Eps范围内的最少点数MinPts。
[0012]作为可选的方式,对文本句子数据进行粗分组处理,基于选定的无监督聚类算法对所述文本句子数据进行聚类分组处理,将句子分配至不同的簇中,形成多个簇组合,包括以下步骤:
[0013]步骤2
‑
1、对列表形式的文本信息进行数据清洗,获得清洗后的文本数据列表,记为集合N;
[0014]步骤2
‑
2、基于中文预训练语言模型作为中文句向量工具,将每个句子处理成维度大小为1*786的句子向量,则集合N的句子生成的矩阵维度为N*768,记为矩阵A;
[0015]步骤2
‑
3、将N*768维度的矩阵A进行降维处理,将矩阵A从N*768维转换为N*2大小的矩阵B,使得每一个句子都拥有一个降维坐标;
[0016]步骤2
‑
4、基于选定的无监督聚类算法对转换输出的矩阵B进行聚类分组操作,将句子分配至不同的簇中,形成多个簇组合,记为所述的集合ClustersA,并计算每个句子到其所在簇的簇心的距离,以及每个簇内的句子个数。
[0017]作为可选的方式,在所述步骤2
‑
4中,还包括以下步骤:
[0018]根据每个句子的ClusterID和降维坐标,绘制所述集合ClustersA的二维散点图,其中相同簇的点的标记形状和颜色保持一样,并且不同的簇的标记形状使用不同的样式,由此渲染获得的二维散点图作为记为图像D,表示全量数据分组之后的可视化图。
[0019]作为可选的方式,在粗分组处理之后,根据用户对比全量数据分组前后的可视化图而确认的分组结果,进入提纯处理,否则重新输入聚类参数重新进行粗分组,直到用户确认分组结果。
[0020]作为可选的方式,所述对聚类分组结果进行全局和局部的提纯处理,包括:
[0021]步骤3
‑
1、基于集合ClustersA,进行全局簇提纯处理,剔除不良簇;
[0022]步骤3
‑
2、对全局处理后的集合ClustersA进行局部去噪处理,去除每一个簇内的噪声数据,获得去噪后的多个簇组合输出,即所述的集合ClustersB。
[0023]根据本专利技术目的的第二方面,还提出一种计算机系统,包括:
[0024]一个或多个处理器;
[0025]存储器,存储可被操作的指令,指令在被一个或多个处理器执行时,实现前述的热点发现和可视化交互方法的过程。
[0026]据本专利技术目的的第三方面,还提出一种存储计算机程序的计算机可读取介质,其特征在于,所述计算机程序包括能被一个或多个计算机执行的指令,指令在被一个或多个处理器执行时,实现前述的热点发现和可视化交互方法的过程。
[0027]根据本专利技术的实施例的热点发现和可视化交互方法,基于无监督聚类结果的不可控性,将热点发现过程分成两个大阶段,即粗分组阶段和提纯阶段,每个阶段都支持多次反复操作。其中的第一步粗分组,目的在于尽量找到最合适的聚类分组条件;第二步的提纯,其目的在于尽量删除聚类结果中的噪音和明显不相似的簇,由此提高热点发现的难度和准确性。
[0028]本专利技术提出的热点发现和可视化交互方法中,将两个阶段的聚类和审核过程衔接起来,让操作用户能够参与挖掘过程,根据粗分组聚类的结果决定是否进入提纯阶段,减缓结果评判的困难和审核工作量大的问题;同时,在两个阶段都设计可视化,将聚类算法融入到交互系统中,形成一套完整的前端、后端、算法端的解决方案,形成三者协同的工作流,既
可以把调参的过程和结果以图形的方式展示给操作人员,让无算法背景的人员能够无痛的参与挖掘过程,提高工具的使用率和传播率。
[0029]应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的专利技术主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的专利技术主题的一部分。
[0030]结合附图从下面的描述中可以更加全面地理解本专利技术教导的前述和其他方面、实施例和特征。本专利技术的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本专利技术教导的具体实施方式的实践中得知。
附图说明
[0031]本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种热点发现和可视化交互方法,其特征在于,包括:接收输入的用户交互数据,所述用户交互数据包括多条顺序排列的文本句子数据,所述文本句子数据包括表格形式存储的文本信息,所述文本信息包括两列,其中一列表示id,另一列为每个id对应的句子信息;对文本句子数据进行粗分组处理,基于选定的无监督聚类算法对所述文本句子数据进行聚类分组处理,将句子分配至不同的簇中,形成多个簇组合,记为集合ClustersA;对聚类分组结果进行全局和局部的提纯处理,获得提纯后的多个簇组合,记为集合ClustersB。2.根据权利要求1所述的热点发现和可视化交互方法,其特征在于,在聚类分组处理过程中,根据用户选择的无监督聚类算法以及设定的聚类参数,进行聚类分组操作,其中:对于K
‑
means聚类算法,设定的聚类参数包括聚类中心个数;对于DBSCAN聚类算法,设定的聚类参数包括初始化参数,即:领域半径Eps和领域半径Eps范围内的最少点数MinPts。3.根据权利要求1所述的热点发现和可视化交互方法,其特征在于,对文本句子数据进行粗分组处理,基于选定的无监督聚类算法对所述文本句子数据进行聚类分组处理,将句子分配至不同的簇中,形成多个簇组合,包括以下步骤:步骤2
‑
1、对列表形式的文本信息进行数据清洗,获得清洗后的文本数据列表,记为集合N;步骤2
‑
2、基于中文预训练语言模型作为中文句向量工具,将每个句子处理成维度大小为1*786的句子向量,则集合N的句子生成的矩阵维度为N*768,记为矩阵A;步骤2
‑
3、将N*768维度的矩阵A进行降维处理,将矩阵A从N*768维转换为N*2大小的矩阵B,使得每一个句子都拥有一个降维坐标;步骤2
‑
4、基于选定的无监督聚类算法对转换输出的矩阵B进行聚类分组操作,将句子分配至不同的簇中,形成多个簇组合,记为所述的集合ClustersA,并计算每个句子到其所在簇的簇心的距离,以及每个簇内的句子个数。4.根据权利要求3所述的热点发现和可视化交互方法,其特征在于,在所述步骤2
‑
4中,使用余弦相似度来表示句子到其所在簇的簇心的距离,通过计算句子与簇心所对应的向量的夹角的余弦值,来度量它们之间的相似性,余弦相似度的结果越趋向1,说明两个句子越相似。5.根据权利要求3所述的热点发现和可视化交互方法,其特征在于,在所述步骤2
‑
2中,还包括以下步骤:使...
【专利技术属性】
技术研发人员:杨萌,杜振东,王清琛,
申请(专利权)人:南京云问网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。