一种数据处理方法、装置及计算机设备制造方法及图纸

技术编号:28978714 阅读:21 留言:0更新日期:2021-06-23 09:24
本申请实施例公开了一种数据处理方法、装置及计算机设备,该方法包括:获取问答对数据,问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;通过对多个第一类型文本数据进行聚类处理,得到至少一个包括至少一个第一类型文本数据以及对应的第二类型文本数据的问答对集合;通过对每个问答对集合包括的第二类型文本数据进行聚类处理,得到每个问答对集合对应的候选数据集合,候选数据集合包括至少一个第二类型文本数据;基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。采用本方案,可以对语料数据进行自动化处理,高效地生成参考问答语料库,并且不受语料数据量级的限制,通用性强。

【技术实现步骤摘要】
一种数据处理方法、装置及计算机设备
本申请涉及计算机
,尤其涉及一种数据处理方法、装置及计算机设备。
技术介绍
随着人工智能的发展,智能化机器客服的应用越来越广泛,特别是在各种B2B(BusinesstoBusiness,即企业到企业之间通过网络进行交易的模式)或者B2C(Business-to-Consumer,即企业到消费者之间的交易活动)的平台中,机器客服能够替代人工客服和用户进行交流,回答常见的问题。通常,需要预先构建人机对话语料库,以保证机器客服回答问题的准确度。其中,利用人工客服语料生成人机对话语料库的方式有两种:其一是通过人工的方法依次标注常用问题,然后提炼频繁的问题,并人工确定答案;其二是利用大量相同业务的人工问答,通过生成模型,生成相似问题或对应答案。但是上述的第一种方式靠人工去寻找相似的问题以及频繁问题的答案,生成人机对话语料库的效率低下,第二种方式则需要大量人工客服语料来训练生成模型,而针对一些细分领域,人工客服语料较少,采用这种方式生成人机对话语料库效果可能不佳。因此,如何高效地生成参考问答语料库,并且在生成过程不受人工客服语料的量级限制是一个值得研究的问题。
技术实现思路
本申请实施例提供一种数据处理方法、装置及计算机设备,可以对语料数据进行自动化处理,高效地生成参考问答语料库,并且不受语料数据量级的限制,通用性强。本申请实施例一方面提供了一种数据处理方法,包括:获取问答对数据,问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;通过对多个第一类型文本数据进行聚类处理,得到至少一个问答对集合,每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;通过对每个问答对集合包括的第二类型文本数据进行聚类处理,得到每个问答对集合对应的候选数据集合,候选数据集合包括至少一个第二类型文本数据;基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。本申请实施例一方面提供了一种数据处理装置,包括:获取模块,用于获取问答对数据,问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;聚类模块,用于通过对多个第一类型文本数据进行聚类处理,得到至少一个问答对集合,每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;聚类模块,还用于通过对每个问答对集合包括的第二类型文本数据进行聚类处理,得到每个问答对集合对应的候选数据集合,候选数据集合包括至少一个第二类型文本数据;确定模块,用于基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器以及网络接口;处理器与存储器、网络接口相连,其中,网络接口用于提供网络通信功能,存储器用于存储程序代码,处理器用于调用所述程序代码,使得处理器执行本申请实施例中的数据处理方法。本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的数据处理方法。相应的,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的数据处理方法。在本申请实施例中,通过获取包括第一类型文本数据和第二类型文本数据的问答对数据,并将获取到的第一类型文本数据进行聚类处理得到问答对集合,然后对问答对集合中的第二类型文本数据进行聚类处理,得到候选数据集合,进而根据问答对集合和候选数据集合生成目标问答对集合,整个过程避免了人工标注问答对数据来筛选出目标问答对,而是采用聚类处理将相应的文本数据进行自动归类,得到目标问答对集合,提高了对问答对数据处理的效率,进而能够高效地生成人机对话语料库,此外,针对一些细分领域下收集到的少量问答对数据,同样可以准确得到参考问答语料库,因此可以不受语料数据量级的限制,通用性强。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种数据处理的网络架构示意图;图2是本申请实施例提供的一种相似度计算的处理框架的示意图;图3是本申请实施例提供的一种数据处理方法的流程示意图;图4是本申请实施例提供的一种人工对话历史记录的示意图;图5是本申请实施例提供的一种数据处理方法的流程示意图;图6是本申请实施例提供的一种各数据之间的关系示意图;图7是本申请实施例提供的一种数据处理方法的流程示意图;图8是本申请实施例提供的一种问答对数据处理流程的示意图;图9是本申请实施例提供的一种数据处理装置的结构示意图;图10是本申请实施例提供的一种计算机设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参见图1,图1是本申请实施例提供的一种数据处理的网络架构示意图,如图1所示,包括终端设备101和服务器100,其中,终端设备101可以包括多个,每个终端设备101可以与上述服务器100进行网络连接,网络连接可以包括有线连接或无线连接,以便于每个终端设备101可以通过该网络连接与服务器100进行数据交互,以及服务器100可以接收到来自于每个终端设备101上传的聊天数据。其中,终端设备101中运行有应用程序,作为一种功能客户端,该应用程序包括客服功能,能够给用户提供相关的问题解答的功能,基于终端设备101,能够在客服功能的对话框中输入相关数据来表达交流,如文字、语音、图片、表情等,构成聊天数据,其中包括问题和问题对应的答案,终端设备101可以实时地将这些聊天数据发送给服务器100。服务器100中搭载有聚类算法的处理框架和相似度计算的处理框架,如图2所示,是本申请实施例提供的一种相似度计算的处理框架的示意图,包括句子表示模块和相似度计算模块。其中,句子表示模块和相似度计算模块中可以封装相应功能的程序代码来执行具体的处理逻辑。首先基于相似度计算的处理框架,可以将聊天数据中的文本数据,即相同类型的句子(如两个问句或两个答案)输入,依次经过句子表示模块和相似度计算模块,可以得到一个相似度,来表征两个句子的相似程度本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取问答对数据,所述问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;/n通过对所述多个第一类型文本数据进行聚类处理,得到至少一个问答对集合,每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;/n通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理,得到所述每个问答对集合对应的候选数据集合,所述候选数据集合包括至少一个第二类型文本数据;/n基于所述每个问答对集合以及对应的候选数据集合确定目标问答对集合。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取问答对数据,所述问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;
通过对所述多个第一类型文本数据进行聚类处理,得到至少一个问答对集合,每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据;
通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理,得到所述每个问答对集合对应的候选数据集合,所述候选数据集合包括至少一个第二类型文本数据;
基于所述每个问答对集合以及对应的候选数据集合确定目标问答对集合。


2.如权利要求1所述的方法,其特征在于,所述通过对所述多个第一类型文本数据进行聚类处理,得到至少一个问答对集合,包括:
确定聚类中心和除所述聚类中心之外的第一类型文本数据之间的第一相似度,所述聚类中心是所述多个第一类型文本数据中的任意一个;
根据所述第一相似度对所述多个第一类型文本数据进行聚类处理,得到至少一个第一数据集合,每个第一数据集合包括至少一个第一类型文本数据;
从所述问答对数据中获取所述每个第一数据集合包括的第一类型文本数据对应的第二类型文本数据;
根据所述每个第一数据集合包括的第一类型文本数据以及对应的第二类型文本数据,得到所述每个第一数据集合对应的问答对集合。


3.如权利要求1或2所述的方法,其特征在于,所述通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理,得到所述每个问答对集合对应的候选数据集合,包括:
获取所述每个问答对集合包括的第二类型文本数据之间的第二相似度;
根据所述第二相似度对所述每个问答对集合包括的第二类型文本数据进行聚类处理,得到至少一个第二数据集合,每个第二数据集合包括至少一个第二类型文本数据;
根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合。


4.如权利要求3所述的方法,其特征在于,所述第一类型文本数据为问题,所述第二类型文本数据为答案,所述根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合,包括:
对每个第二数据集合包括的第二类型文本数据的数量由大到小进行排序;
获取所述至少一个第二数据集合中排序在预设位置之前的第二数据集合;
将所述排序在预设位置之前的第二数据集合作为所述每个问答对集合对应的候选数据集合。


5.如权利要求3所述的方法,其特征在于,所述第一类型文本数据为答案,所述第二类型文本数据为问题,所述根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合,包括:
获取所述每个第二数据集合包括的第二类型文本数据的数量;
将所述数量大于或等于参考数量阈值的第二类型文本数据作为所述每个...

【专利技术属性】
技术研发人员:张欢韵朴圣浩
申请(专利权)人:数网金融有限公司
类型:发明
国别省市:中国香港;81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1