一种数据处理方法、装置及计算机设备制造方法及图纸

技术编号：28978714 阅读：21 留言：0更新日期：2021-06-23 09:24

本申请实施例公开了一种数据处理方法、装置及计算机设备，该方法包括：获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；通过对多个第一类型文本数据进行聚类处理，得到至少一个包括至少一个第一类型文本数据以及对应的第二类型文本数据的问答对集合；通过对每个问答对集合包括的第二类型文本数据进行聚类处理，得到每个问答对集合对应的候选数据集合，候选数据集合包括至少一个第二类型文本数据；基于每个问答对集合以及对应的候选数据集合确定目标问答对集合。采用本方案，可以对语料数据进行自动化处理，高效地生成参考问答语料库，并且不受语料数据量级的限制，通用性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置及计算机设备
本申请涉及计算机
，尤其涉及一种数据处理方法、装置及计算机设备。
技术介绍
随着人工智能的发展，智能化机器客服的应用越来越广泛，特别是在各种B2B(BusinesstoBusiness，即企业到企业之间通过网络进行交易的模式)或者B2C(Business-to-Consumer，即企业到消费者之间的交易活动)的平台中，机器客服能够替代人工客服和用户进行交流，回答常见的问题。通常，需要预先构建人机对话语料库，以保证机器客服回答问题的准确度。其中，利用人工客服语料生成人机对话语料库的方式有两种：其一是通过人工的方法依次标注常用问题，然后提炼频繁的问题，并人工确定答案；其二是利用大量相同业务的人工问答，通过生成模型，生成相似问题或对应答案。但是上述的第一种方式靠人工去寻找相似的问题以及频繁问题的答案，生成人机对话语料库的效率低下，第二种方式则需要大量人工客服语料来训练生成模型，而针对一些细分领域，人工客服语料较少，采用这种方式生成人机对话语料库效果可能不佳。因此，如何高效地生成参考问答语料库，并且在生成过程不受人工客服语料的量级限制是一个值得研究的问题。
技术实现思路
本申请实施例提供一种数据处理方法、装置及计算机设备，可以对语料数据进行自动化处理，高效地生成参考问答语料库，并且不受语料数据量级的限制，通用性强。本申请实施例一方面提供了一种数据处理方法，包括：获取问答对数据，问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：/n获取问答对数据，所述问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；/n通过对所述多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；/n通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理，得到所述每个问答对集合对应的候选数据集合，所述候选数据集合包括至少一个第二类型文本数据；/n基于所述每个问答对集合以及对应的候选数据集合确定目标问答对集合。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：
获取问答对数据，所述问答对数据包括多个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；
通过对所述多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，每个问答对集合包括至少一个第一类型文本数据以及与每个第一类型文本数据对应的第二类型文本数据；
通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理，得到所述每个问答对集合对应的候选数据集合，所述候选数据集合包括至少一个第二类型文本数据；
基于所述每个问答对集合以及对应的候选数据集合确定目标问答对集合。

2.如权利要求1所述的方法，其特征在于，所述通过对所述多个第一类型文本数据进行聚类处理，得到至少一个问答对集合，包括：
确定聚类中心和除所述聚类中心之外的第一类型文本数据之间的第一相似度，所述聚类中心是所述多个第一类型文本数据中的任意一个；
根据所述第一相似度对所述多个第一类型文本数据进行聚类处理，得到至少一个第一数据集合，每个第一数据集合包括至少一个第一类型文本数据；
从所述问答对数据中获取所述每个第一数据集合包括的第一类型文本数据对应的第二类型文本数据；
根据所述每个第一数据集合包括的第一类型文本数据以及对应的第二类型文本数据，得到所述每个第一数据集合对应的问答对集合。

3.如权利要求1或2所述的方法，其特征在于，所述通过对所述每个问答对集合包括的第二类型文本数据进行聚类处理，得到所述每个问答对集合对应的候选数据集合，包括：
获取所述每个问答对集合包括的第二类型文本数据之间的第二相似度；
根据所述第二相似度对所述每个问答对集合包括的第二类型文本数据进行聚类处理，得到至少一个第二数据集合，每个第二数据集合包括至少一个第二类型文本数据；
根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合。

4.如权利要求3所述的方法，其特征在于，所述第一类型文本数据为问题，所述第二类型文本数据为答案，所述根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合，包括：
对每个第二数据集合包括的第二类型文本数据的数量由大到小进行排序；
获取所述至少一个第二数据集合中排序在预设位置之前的第二数据集合；
将所述排序在预设位置之前的第二数据集合作为所述每个问答对集合对应的候选数据集合。

5.如权利要求3所述的方法，其特征在于，所述第一类型文本数据为答案，所述第二类型文本数据为问题，所述根据每个第二数据集合包括的第二类型文本数据的数量得到所述每个问答对集合对应的候选数据集合，包括：
获取所述每个第二数据集合包括的第二类型文本数据的数量；
将所述数量大于或等于参考数量阈值的第二类型文本数据作为所述每个...

【专利技术属性】
技术研发人员：张欢韵，朴圣浩，
申请(专利权)人：数网金融有限公司，
类型：发明
国别省市：中国香港;81

全部详细技术资料下载我是这个专利的主人