数据增强方法、装置、电子设备和存储介质制造方法及图纸

技术编号：40822106 阅读：2 留言：0更新日期：2024-04-01 14:41

本发明专利技术提供一种数据增强方法、装置、电子设备和存储介质，涉及自然语言处理技术领域。方法包括：生成目标问答对中的原始问题对应的多个相似问题，以及多个相似问题对应的相似答案；基于上一轮问答对对应的至少一个答案分别与多个相似问题的流畅性度量结果，从至少一个答案中确定出上一轮问答对对应的增强答案，以及从多个相似问题中确定出目标问答对对应的增强问题；将多个相似问题对应的相似答案作为目标问答对对应的多个相似答案，以确定出目标问答对对应的增强答案；基于目标问答对对应的增强问题和目标问答对对应的增强答案，确定目标问答对对应的相似问答对。本发明专利技术可以确保数据的流畅性，从而提高数据质量，进而提高多轮对话效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种数据增强方法、装置、电子设备和存储介质。

技术介绍

1、随着自然语言处理的快速发展，多轮对话的应用场景越来越广泛。多轮对话是指人与模型之间进行连续的多轮对话，以完成特定的任务或获取所需的信息；即在多轮对话中，模型需要根据用户的输入逐步推进对话，并在每个步骤中提供有用的反馈和响应。此外，平均对话轮次往往作为多轮对话效果的评价指标，因此，需要让模型能够和人类进行多轮流畅的对话。

2、目前，通过对原始的多轮对话数据进行数据增强处理，以引入更多的多轮对话数据进行模型训练，以更好地激发模型的多轮对话能力；具体地，将原始的多轮对话数据中的原始问题作为种子，采用大语言模型(large language model，llm)生成与该原始问题相似的一个相似问题，进而基于该相似问题生成对应的相似答案，最终基于该相似问题和相似答案构建新的多轮对话数据。然而，相似问题是基于原始问题生成，相似答案又是基于相似问题生成，因此，相似问题和相似答案的生成来源不同，进而可能导致该相似答案与下一轮的问题出现不连贯的情况，即出现不流畅的情况，甚至当前轮的相似答案与下一轮的问题可能不是一个话题，从而导致模型训练效果降低，进而导致多轮对话效果降低。

技术实现思路

1、本专利技术提供一种数据增强方法、装置、电子设备和存储介质，用以解决现有技术中多轮对话效果低的缺陷。

2、本专利技术提供一种数据增强方法，包括：

3、确定原始多轮对话数据中待增强的目标问

4、生成所述目标问答对中的原始问题对应的多个相似问题，并分别生成所述多个相似问题对应的相似答案；

5、获取所述目标问答对的上一轮问答对对应的至少一个答案，所述至少一个答案包括所述原始多轮对话数据中所述上一轮问答对对应的原始答案和/或所述上一轮问答对对应的多个相似答案；

6、基于所述至少一个答案分别与所述多个相似问题的流畅性度量结果，从所述至少一个答案中确定出所述上一轮问答对对应的增强答案，以及从所述多个相似问题中确定出所述目标问答对对应的增强问题，任一所述流畅性度量结果为所述至少一个答案中任一答案与所述多个相似问题中任一相似问题的流畅性度量值；

7、将所述多个相似问题对应的相似答案作为所述目标问答对对应的多个相似答案，以从所述目标问答对中的原始答案和/或所述目标问答对对应的多个相似答案中确定出所述目标问答对对应的增强答案；

8、基于所述目标问答对对应的增强问题和所述目标问答对对应的增强答案，确定所述目标问答对对应的相似问答对，以基于所述目标问答对对应的相似问答对生成增强后的相似多轮对话数据。

9、根据本专利技术提供的一种数据增强方法，所述获取所述目标问答对的上一轮问答对对应的至少一个答案，包括：

10、在所述上一轮问答对已增强的情况下，获取所述原始多轮对话数据中所述上一轮问答对对应的原始答案和所述上一轮问答对对应的多个相似答案；

11、在所述上一轮问答对未增强的情况下，获取所述原始多轮对话数据中所述上一轮问答对对应的原始答案；

12、所述在所述上一轮问答对已增强的情况下，获取所述原始多轮对话数据中所述上一轮问答对对应的原始答案和所述上一轮问答对对应的多个相似答案，之后还包括：

13、基于所述上一轮问答对对应的增强问题和所述上一轮问答对对应的增强答案，确定所述上一轮问答对对应的相似问答对，以基于所述目标问答对对应的相似问答对和所述上一轮问答对对应的相似问答对生成增强后的相似多轮对话数据。

14、根据本专利技术提供的一种数据增强方法，任一所述流畅性度量结果是基于如下步骤确定：

15、将所述至少一个答案中任一答案的文本与所述多个相似问题中任一相似问题的文本进行文本拼接，得到目标文本；

16、基于所述目标文本的困惑度，确定所述流畅性度量结果。

17、根据本专利技术提供的一种数据增强方法，还包括：

18、对所述原始多轮对话数据进行提取，得到多个目标多轮对话数据，任一所述目标多轮对话数据包括至少两轮连续的问答对；

19、基于所述多个目标多轮对话数据，确定增强后的增强多轮对话数据。

20、根据本专利技术提供的一种数据增强方法，所述基于所述多个目标多轮对话数据，确定增强后的增强多轮对话数据，包括：

21、分别确定所述多个目标多轮对话数据的目标对话轮数；

22、基于各所述目标对话轮数的均值，构建关于对话轮数的泊松分布；

23、基于所述泊松分布，对所述多个目标多轮对话数据进行采样，得到增强后的增强多轮对话数据。

24、根据本专利技术提供的一种数据增强方法，所述基于所述泊松分布，对所述多个目标多轮对话数据进行采样，得到增强后的增强多轮对话数据，包括：

25、基于所述泊松分布，确定多个对话轮数分别对应的概率；

26、基于各所述概率和预设采样个数，对所述多个目标多轮对话数据进行采样，得到所述预设采样个数的所述增强多轮对话数据。

27、根据本专利技术提供的一种数据增强方法，还包括：

28、基于预设样本总数量，获取多个样本数量比例对应的样本集合，任一所述样本数量比例为所述样本集合中所述原始多轮对话数据的样本数量与所述相似多轮对话数据的样本数量的比例；

29、基于各所述样本集合对应的综合损失值，从各所述样本集合中确定出所述综合损失值最小的目标样本集合；

30、将所述目标样本集合对应的样本数量比例确定为目标样本数量比例，以基于所述目标样本数量比例对应的训练样本集合进行模型训练。

31、本专利技术还提供一种数据增强装置，包括：

32、第一确定模块，用于确定原始多轮对话数据中待增强的目标问答对，所述原始多轮对话数据包括多轮问答对；

33、问题生成模块，用于生成所述目标问答对中的原始问题对应的多个相似问题，并分别生成所述多个相似问题对应的相似答案；

34、答案获取模块，用于获取所述目标问答对的上一轮问答对对应的至少一个答案，所述至少一个答案包括所述原始多轮对话数据中所述上一轮问答对对应的原始答案和/或所述上一轮问答对对应的多个相似答案；

35、第二确定模块，用于基于所述至少一个答案分别与所述多个相似问题的流畅性度量结果，从所述至少一个答案中确定出所述上一轮问答对对应的增强答案，以及从所述多个相似问题中确定出所述目标问答对对应的增强问题，任一所述流畅性度量结果为所述至少一个答案中任一答案与所述多个相似问题中任一相似问题的流畅性度量值；

36、第三确定模块，用于将所述多个相似问题对应的相似答案作为所述目标问答对对应的多个相似答案，以从所述目标问答对中的原始答案和/或所述目标问答对对应的多个相似答案中确定出所述目标问答对对应的增强答案；

37、第四确定模块，用于基于所述目标本文档来自技高网...

【技术保护点】

1.一种数据增强方法，其特征在于，包括：

2.根据权利要求1所述的数据增强方法，其特征在于，所述获取所述目标问答对的上一轮问答对对应的至少一个答案，包括：

3.根据权利要求1所述的数据增强方法，其特征在于，任一所述流畅性度量结果是基于如下步骤确定：

4.根据权利要求1所述的数据增强方法，其特征在于，还包括：

5.根据权利要求4所述的数据增强方法，其特征在于，所述基于所述多个目标多轮对话数据，确定增强后的增强多轮对话数据，包括：

6.根据权利要求5所述的数据增强方法，其特征在于，所述基于所述泊松分布，对所述多个目标多轮对话数据进行采样，得到增强后的增强多轮对话数据，包括：

7.根据权利要求1所述的数据增强方法，其特征在于，还包括：

8.一种数据增强装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述数据增强方法。

10.一种非暂态计算机可读存储介

...

【技术特征摘要】

1.一种数据增强方法，其特征在于，包括：

2.根据权利要求1所述的数据增强方法，其特征在于，所述获取所述目标问答对的上一轮问答对对应的至少一个答案，包括：

3.根据权利要求1所述的数据增强方法，其特征在于，任一所述流畅性度量结果是基于如下步骤确定：

4.根据权利要求1所述的数据增强方法，其特征在于，还包括：

5.根据权利要求4所述的数据增强方法，其特征在于，所述基于所述多个目标多轮对话数据，确定增强后的增强多轮对话数据，包括：

6.根据权利要求5所述的数据增强方法，其特征在于，所述基于所...

【专利技术属性】
技术研发人员：张宋诚，吴飞，方四安，柳林，徐承，
申请(专利权)人：合肥讯飞数码科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人