对话数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:35098065 阅读:11 留言:0更新日期:2022-10-01 17:02
本公开涉及一种对话数据处理方法、装置、设备及存储介质。本公开通过对每个对话数据中的至少一轮发言内容构成的第一集合内的多轮发言内容进行聚类,从而确定出每个对话数据分别对应的簇标识序列,再由每个对话数据分别对应的簇标识序列构成第二集合。挖掘出第二集合中每个簇标识序列中的候选子序列,并计算每个候选子序列在第二集合中的支持度。根据支持度大于或等于阈值的至少一个候选子序列分别对应的凝聚度,计算出该至少一个候选子序列中出现过的每个簇标识的分数。根据该分数可以对多个聚类簇进行排序,从而将排序靠前的聚类簇作为关键内容。本实施例可以更加准确的确定出对话数据中的关键内容。话数据中的关键内容。话数据中的关键内容。

【技术实现步骤摘要】
对话数据处理方法、装置、设备及存储介质


[0001]本公开涉及信息
,尤其涉及一种对话数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着科技的不断发展,智能客服或人工客服每天都会与用户通话或对话,从而产生大量的对话数据。每个对话数据分别包括多轮发言内容,该多轮发言内容是由智能客服或人工客服、以及用户的发言依次组成的。在该多轮发言内容中部分发言内容是对话中的关键内容,关键内容代表了对话的主要内容和走向。
[0003]但是,本申请的专利技术人发现,在每个对话数据中,只有少量的发言内容是对话的关键内容,而现有技术中无法准确的确定出对话数据中的关键内容。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种对话数据处理方法、装置、设备及存储介质,相比于不经过候选子序列的挖掘,直接将聚类后得到的聚类簇作为关键内容,本实施例可以更加准确的确定出对话数据中的关键内容。
[0005]第一方面,本公开实施例提供一种对话数据处理方法,包括:
[0006]获取至少一个对话数据,每个对话数据分别包括多轮发言内容;
[0007]通过对所述每个对话数据中的至少一轮发言内容构成的第一集合内的多轮发言内容进行聚类,确定所述每个对话数据分别对应的簇标识序列,所述簇标识序列包括所述对话数据中的所述至少一轮发言内容分别对应的聚类簇的簇标识;
[0008]针对所述每个对话数据分别对应的簇标识序列,确定所述簇标识序列中的候选子序列,并确定所述候选子序列在第二集合中的支持度,所述第二集合包括所述每个对话数据分别对应的簇标识序列;
[0009]根据支持度大于或等于阈值的至少一个候选子序列分别对应的凝聚度,计算所述至少一个候选子序列中出现过的每个簇标识的分数;
[0010]根据所述分数,确定满足预设条件的簇标识对应的聚类簇为关键内容。
[0011]第二方面,本公开实施例提供一种对话数据处理装置,包括:
[0012]获取模块,用于获取至少一个对话数据,每个对话数据分别包括多轮发言内容;
[0013]第一确定模块,用于通过对所述每个对话数据中的至少一轮发言内容构成的第一集合内的多轮发言内容进行聚类,确定所述每个对话数据分别对应的簇标识序列,所述簇标识序列包括所述对话数据中的所述至少一轮发言内容分别对应的聚类簇的簇标识;
[0014]第二确定模块,用于针对所述每个对话数据分别对应的簇标识序列,确定所述簇标识序列中的候选子序列,并确定所述候选子序列在第二集合中的支持度,所述第二集合包括所述每个对话数据分别对应的簇标识序列;
[0015]计算模块,用于根据支持度大于或等于阈值的至少一个候选子序列分别对应的凝
聚度,计算所述至少一个候选子序列中出现过的每个簇标识的分数;
[0016]第三确定模块,用于根据所述分数,确定满足预设条件的簇标识对应的聚类簇为关键内容。
[0017]第三方面,本公开实施例提供一种电子设备,包括:
[0018]存储器;
[0019]处理器;以及
[0020]计算机程序;
[0021]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
[0022]第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
[0023]本公开实施例提供的对话数据处理方法、装置、设备及存储介质,通过对每个对话数据中的至少一轮发言内容构成的第一集合内的多轮发言内容进行聚类,从而确定出每个对话数据分别对应的簇标识序列,再由每个对话数据分别对应的簇标识序列构成第二集合。进一步,挖掘出第二集合中每个簇标识序列中的候选子序列,并计算每个候选子序列在第二集合中的支持度,支持度越大,说明候选子序列在第二集合中出现的次数越多,该候选子序列中的各个簇标识分别对应的聚类簇越有可能是关键内容。进一步选取出支持度大于或等于阈值的至少一个候选子序列,然后根据该至少一个候选子序列分别对应的支持度,计算出该至少一个候选子序列分别对应的凝聚度,由于凝聚度代表了候选子序列的稳定性,因此,稳定性越高说明该候选子序列中的各个簇标识构成的组合越稳定。因此,根据该至少一个候选子序列分别对应的凝聚度,计算出该至少一个候选子序列中出现过的每个簇标识的分数时,分数越高说明该簇标识在多种组合中出现的次数越多,或者该簇标识在多种组合中越重要。因此,根据该分数可以对多个聚类簇进行排序,从而将排序靠前的聚类簇作为关键内容。相比于不经过候选子序列的挖掘,直接将聚类后得到的聚类簇作为关键内容,本实施例可以更加准确的确定出对话数据中的关键内容。
附图说明
[0024]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0025]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本公开实施例提供的对话数据处理方法流程图;
[0027]图2为本公开实施例提供的应用场景的示意图;
[0028]图3为本公开另一实施例提供的对话数据处理方法流程图;
[0029]图4为本公开实施例提供的对话数据处理装置的结构示意图;
[0030]图5为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
[0031]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0032]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0033]通常情况下,智能客服或人工客服每天都会与用户通话或对话,从而产生大量的对话数据。每个对话数据分别包括多轮发言内容,该多轮发言内容是由智能客服或人工客服、以及用户的发言依次组成的。在该多轮发言内容中部分发言内容是对话中的关键内容,关键内容代表了对话的主要内容和走向。但是,在每个对话数据中,只有少量的发言内容是对话的关键内容,而现有技术中无法准确的确定出对话数据中的关键内容。针对该问题,本公开实施例提供了一种对话数据处理方法,下面结合具体的实施例对该方法进行介绍。
[0034]图1为本公开实施例提供的对话数据处理方法流程图。该方法可以由对话数据处理装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如服务器或终端,其中,终端具体包括手机、电脑或平板电脑等。另外,本实施例所述的对话数据处理方法可以应用于如图2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话数据处理方法,其中,所述方法包括:获取至少一个对话数据,每个对话数据分别包括多轮发言内容;通过对所述每个对话数据中的至少一轮发言内容构成的第一集合内的多轮发言内容进行聚类,确定所述每个对话数据分别对应的簇标识序列,所述簇标识序列包括所述对话数据中的所述至少一轮发言内容分别对应的聚类簇的簇标识;针对所述每个对话数据分别对应的簇标识序列,确定所述簇标识序列中的候选子序列,并确定所述候选子序列在第二集合中的支持度,所述第二集合包括所述每个对话数据分别对应的簇标识序列;根据支持度大于或等于阈值的至少一个候选子序列分别对应的凝聚度,计算所述至少一个候选子序列中出现过的每个簇标识的分数;根据所述分数,确定满足预设条件的簇标识对应的聚类簇为关键内容。2.根据权利要求1所述的方法,其中,获取至少一个对话数据之后,所述方法还包括:删除所述每个对话数据中不属于关键内容的发言内容,得到所述每个对话数据中的所述至少一轮发言内容。3.根据权利要求1所述的方法,其中,确定所述候选子序列在第二集合中的支持度,包括:将所述第二集合中包含有所述候选子序列的簇标识序列的个数作为所述候选子序列在所述第二集合中的支持度。4.根据权利要求1所述的方法,其中,所述簇标识序列中的候选子序列包括所述簇标识序列中的至少两个簇标识,所述至少两个簇标识在所述簇标识序列中的偏序关系与所述至少两个簇标识在所述候选子序列中的偏序关系相同。5.根据权利要求1所述的方法,其中,所述至少一个候选子序列中任一候选子序列对应的凝聚度是根据所述任一候选子序列的支持度、以及所述任一候选子序列中的每个簇标识分别对应的支持度确定的。6.根据权利要求1所述的方法,其中,根据支持度大于或等于阈值的至少一个候选子序列分别对应的凝聚度,计算所述至少一个候选子序列中出现过的每个簇标识的分...

【专利技术属性】
技术研发人员:王睿刘澈孙健李永彬
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1