处理对话数据的方法及系统技术方案

技术编号:35290452 阅读:25 留言:0更新日期:2022-10-22 12:36
本说明书实施例提供处理对话数据的方法及系统,其中所述方法包括:获取对话数据,其中,所述对话数据中包括多个轮次对话;提取所述多个轮次对话各自的语义向量;利用所述多个轮次对话各自的语义向量进行聚类计算,得到聚类结果,根据所述聚类结果,确定每个类别对应的关键信息,从而处理对话数据的任务可以实际应用于大规模对话数据,使处理对话数据的任务能够在真实场景落地。能够在真实场景落地。能够在真实场景落地。

【技术实现步骤摘要】
处理对话数据的方法及系统


[0001]本说明书实施例涉及计算机
,特别涉及一种处理对话数据的方法。

技术介绍

[0002]随着科学技术的发展,人们通过网络与他人进行交流,与智能对话设备进行交流已经成为人们常用的沟通方式。由此,网络对话数据,人机对话数据的数量日益增加。基于海量的对话数据,对话数据的数据挖掘对改进沟通方式具有非常重要的意义。通过处理对话数据,可以辅助进行对话主题分布统计、对话关键词抽取、对话结构学习和对话摘要等下游任务。
[0003]目前,行业内处理对话数据的任务通过监督学习来实现。但是,对海量对话数据进行人工标注耗费人力,时间,导致该任务缺少可迁移至下游应用的通用方法。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种处理对话数据的方法。本说明书一个或者多个实施例同时涉及一种处理对话数据的系统,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种处理对话数据的方法,包括:获取对话数据,其中,所述对话数据中包括多个轮次对话;提取所述多个轮次对话各自的语义向量;利用所述多个轮次对话的语义向量进行聚类计算,得到聚类结果;根据所述聚类结果,确定每个类别对应的关键信息。
[0006]可选地,所述关键信息为话题,所述根据所述聚类结果,确定每个类别对应的关键信息,包括:根据所述聚类结果,将每个类别的聚类标签作为该类别中每个轮次对话对应的话题。
[0007]可选地,所述关键信息为关键话术,所述根据所述聚类结果,确定每个类别对应的关键信息,包括:根据所述聚类结果,计算每个类别中的轮次对话与该类别的中心点的向量距离;根据所述向量距离,从每个类别中选取距离中心点最近的轮次对话作为关键话术。
[0008]可选地,还包括:将所述关键话术推送到对话构建模块,以便所述对话构建模块将所述关键话术作为待构建对话流模型中对话节点的话术。
[0009]可选地,所述提取所述对话数据中每个轮次对话的语义向量,包括:针对每通对话,将该通对话中的多个轮次对话进行拼接,得到该通对话的对话序列;在每条对话序列的首部添加序列标识符以区分序列,以及,为每个轮次对话添加对应的轮次标识符以区分轮次对话;将所述对话序列输入语义向量提取模型,提取出所述多个轮次对话各自的语义向量。
[0010]可选地,所述利用所述多个轮次对话的语义向量进行聚类计算,得到聚类结果,包括:将多个轮次对话的语义向量存放到特征池;将特征池作为初始的切分范围;在所述切分范围中随机选取一个轮次对话作为切分点;计算所述切分点的前向聚合特征和后向聚合特
征之差,并选取最大差距位置作为所述切分范围的优化切分点;利用所述优化切分点将所述切分范围中的轮次对话分为两部分;将切分的两部分轮次对话分别作为更新的切分范围;针对轮次对话数量不满足预设对话数量要求的切分范围,将该切分范围变为已完成切分部分;如果优化切分点数量未达到预设切分点数量要求,针对更新的切分范围,重新返回到所述在所述切分范围中随机选取一个轮次对话作为切分点的步骤;如果优化切分点数量达到预设要求,获得所有优化切分点作为初始化点来初始化KMeans聚类中心,并通过KMeans聚类算法调整优化切分点并根据调整后的各优化切分点确定聚类结果。
[0011]可选地,还包括:判断所述多个轮次对话各自的话题是否满足预设要求;从所述多个轮次对话的话题中,删除不满足所述预设要求的话题;针对被删除话题的轮次对话,计算该轮次对话的语义向量与其他轮次对话的语义向量之间的距离;根据计算出的距离选择其他轮次对话的话题作为该轮次对话的话题。
[0012]可选地,所述判断所述多个轮次对话各自的话题是否满足预设要求,包括:对每通对话的多个轮次对话的话题中重复出现的话题进行统计,得到每个话题在该通对话中的重复出现次数;将重复出现次数未达到预设重复出现次数范围的话题确定为不满足预设要求的话题。
[0013]可选地,所述判断所述多个轮次对话各自的话题是否满足预设要求,包括:对每通对话的多个轮次对话的话题中连续重复出现的话题进行统计,得到每个话题在该通对话中的连续重复次数;将连续重复次数未达到预设连续重复次数范围的话题确定为不满足预设要求的话题。
[0014]可选地,所述语义向量提取模型为多层Transformer模型;其中,最后一层Transformer,用于根据自回归方式预测所述多个轮次对话各自的语义向量,其中,所述自回归方式是指按照一通对话中多个轮次对话的对话顺序,由排序在前的轮次对话的语义向量预测排序在后的轮次对话的语义向量。
[0015]可选地,还包括:在所述语义向量提取模型进行训练之前,针对每通对话的对话样本集,将该通对话的对话样本集中的多个轮次对话样本以及额外添加的轮次对话样本进行拼接,得到该通对话的对话序列样本;将所述对话序列样本输入所述语义向量提取模型进行训练,得到训练后的语义向量提取模型;其中,所述语义向量提取模型在训练时,所述最后一层Transformer通过所述自回归方式预测各个轮次对话的语义向量,且所述语义向量提取模型基于额外添加的轮次对话的预测结果调整模型参数。
[0016]可选地,所述利用所述多个轮次对话的语义向量进行聚类计算,得到聚类结果,包括:利用所述多个轮次对话的语义向量,基于数据密度的聚类算法进行聚类计算,得到聚类结果。
[0017]可选地,所述利用所述多个轮次对话的语义向量,基于数据密度的聚类算法进行聚类计算,包括:基于第一聚类精度设置所述基于数据密度的聚类算法的聚类参数,并利用所述多个轮次对话的语义向量进行聚类计算,得到第一聚类结果;根据所述第一聚类结果,去除所述多个轮次对话中的噪声点,得到更新的多个轮次对话;基于第二聚类精度设置所述基于数据密度的聚类算法的聚类参数,并利用所述更新的多个轮次对话的语义向量进行聚类计算,得到第二聚类结果,其中,所述第二聚类精度大于所述第一聚类精度。
[0018]根据本说明书实施例的第二方面,提供了一种处理对话数据的系统,包括:客户
端,被配置为向服务端发送对话数据,其中,所述对话数据中包括多个轮次对话,接收所述服务端针对所述对话数据反馈的关键话术,将所述关键话术作为待构建对话流模型中对话节点的话术。服务端,被配置为获取对话数据,提取所述多个轮次对话各自的语义向量,利用所述多个轮次对话的语义向量进行聚类计算,得到聚类结果,根据所述聚类结果,计算每个类别中的轮次对话与该类别的中心点的向量距离,根据所述向量距离,从每个类别中选取距离中心点最近的轮次对话作为关键话术,将所述关键话术发送给客户端。
[0019]根据本说明书实施例的第三方面,提供了一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现本说明书任意实施例所述处理对话数据的方法的步骤。
[0020]根据本说明书实施例的第四方面,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理对话数据的方法,包括:获取对话数据,其中,所述对话数据中包括多个轮次对话;提取所述多个轮次对话各自的语义向量;利用所述多个轮次对话的语义向量进行聚类计算,得到聚类结果;根据所述聚类结果,确定每个类别对应的关键信息。2.根据权利要求1所述的方法,所述关键信息为话题,所述根据所述聚类结果,确定每个类别对应的关键信息,包括:根据所述聚类结果,将每个类别的聚类标签作为该类别中每个轮次对话对应的话题。3.根据权利要求1所述的方法,所述关键信息为关键话术,所述根据所述聚类结果,确定每个类别对应的关键信息,包括:根据所述聚类结果,计算每个类别中的轮次对话与该类别的中心点的向量距离;根据所述向量距离,从每个类别中选取距离中心点最近的轮次对话作为关键话术。4.根据权利要求3所述的方法,还包括:将所述关键话术推送到对话构建模块,以便所述对话构建模块将所述关键话术作为待构建对话流模型中对话节点的话术。5.根据权利要求1所述的方法,所述提取所述对话数据中每个轮次对话的语义向量,包括:针对每通对话,将该通对话中的多个轮次对话进行拼接,得到该通对话的对话序列;在每条对话序列的首部添加序列标识符以区分序列,以及,为每个轮次对话添加对应的轮次标识符以区分轮次对话;将所述对话序列输入语义向量提取模型,提取出所述多个轮次对话各自的语义向量。6.根据权利要求1所述的方法,所述利用所述多个轮次对话的语义向量进行聚类计算,得到聚类结果,包括:将多个轮次对话的语义向量存放到特征池;将特征池作为初始的切分范围;在所述切分范围中随机选取一个轮次对话作为切分点;计算所述切分点的前向聚合特征和后向聚合特征之差,并选取最大差距位置作为所述切分范围的优化切分点;利用所述优化切分点将所述切分范围中的轮次对话分为两部分;将切分的两部分轮次对话分别作为更新的切分范围;针对轮次对话数量不满足预设对话数量要求的切分范围,将该切分范围变为已完成切分部分;如果优化切分点数量未达到预设切分点数量要求,针对更新的切分范围,重新返回到所述在所述切分范围中随机选取一个轮次对话作为切分点的步骤;如果优化切分点数量达到预设要求,获得所有优化切分点作为初始化点来初始化KMeans聚类中心,并通过KMeans聚类算法调整优化切分点并根据调整后的各优化切分点确定聚类结果。7.根据权利要求2所述的方法,还包括:判断所述多个轮次对话各自的话题是否满足预设要求;
从所述多个轮次对话的话题中,删除不满足所述预设要求的话题;针对被删除话题的轮次对话,计算该轮次对话的语义向量与其他轮次对话的语义向量之间的距离;根据计算出的距离选择其他轮次对话的话题作为该轮次对话的话题。8.根据权利要求7所述的方法,所述判断所述多个轮次对话各自的话题是否满足预设要求,包括:对每通对话的多个轮次对话的话题中重复出现的话...

【专利技术属性】
技术研发人员:李博文刘澈惠彬原黎航宇孙健李永彬
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1