多轮对话训练数据生成方法、系统、设备及存储介质技术方案

技术编号：41156932 阅读：4 留言：0更新日期：2024-04-30 18:21

本发明专利技术涉及人工智能技术领域，具体提供一种多轮对话训练数据生成方法、系统、设备及存储介质，旨在解决由于多轮对话训练数据质量不高引起的语言模型多轮对话能力差的技术问题。为此目的，本发明专利技术方法包括：基于获取的实体词汇，生成包含实体词汇的问题数据，根据问题数据，获得答案，其中，基于问题数据与答案生成n个问答数据对；将n个问答数据对中的k个问答数据对中的问题数据中包含的实体词汇进行指代词替换处理，生成多轮对话数据。因此，基于对部分实体词汇进行指代词处理，使得前后对话联系起来，提高了多轮对话训练数据质量及语言模型多轮对话能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体提供一种多轮对话训练数据生成方法、系统、设备及存储介质。

技术介绍

1、以bert、gpt-2、gpt-3以及t5等模型为代表的大型预训练模型(large pre-trained models，lpms)的快速发展推进了自然语言理解nlp的能力。这些模型通过在大规模文本数据上进行预训练，然后在特定任务上进行微调，达到令人瞩目的性能。尤其是今年来chatgpt突然爆发式的进入人们的视线，自然语言模型通过微调具备出众的解决问题的能力，尤其是对话能力引发各界的关注。

2、越来越多的公司和研究机构加入到聊天自然语言模型的训练研发队伍中，除了大量的算力投入、人力投入外，数据投入也是占比不小的开支。在实际研发中，单轮对话的数据是相对容易构造的，而多轮对话的数据则构造起来较为困难，因为多轮对话数据一方面要构思如何将前后对话联系起来，另一方面还要将每轮对话的前提信息尽量构造在前置对话中，以防多轮对话数据坍缩为简单的多个单轮数据的拼接。因此，众多公司的研发模型往往单轮表现尚可，但是多轮测试下会出现信息跟丢的问题。归根结底，是多轮的训练数据没有构造好、质量比较低的技术问题。

3、相应地，本领域需要一种多轮对话训练数据生成方案来解决上述技术问题。

技术实现思路

1、为了克服上述缺陷，提出了本专利技术，以提供解决或至少部分地解决如何提高多轮对话训练数据质量及语言模型多轮对话能力的技术问题。

2、在第一方面，本专利技术提供一种基于语言模型的多轮

3、基于语言模型获取的每个实体词汇，通过所述语言模型生成包含所述实体词汇的多个问题数据，并根据每个问题数据，通过所述语言模型获得对应的答案，其中，基于所述多个问题数据与对应的答案生成n个问答数据对；

4、通过所述语言模型，将所述n个问答数据对中的k(1≤k≤n-1)个问答数据对中的问题数据中包含的所述实体词汇进行指代词替换处理；

5、基于完成指代词替换处理后的n个问答数据对，生成每个实体词汇对应的多轮对话数据。

6、在一个实施例中，对所述完成指代词替换处理后的n个问答数据对进行拼接处理，生成每个实体词汇对应的多轮对话数据。

7、在一个实施例中，对所述完成指代词替换处理后的n个问答数据对中包含所述实体词汇的问答数据对作为第一轮对话，再对n-1个问答数据对进行拼接，生成每个实体词汇对应的多轮对话数据。

8、在一个实施例中，所述语言模型是指通过大量文本数据训练的深度学习模型；其中，训练方法包括以下至少之一：有监督、自监督、半监督。

9、在一个实施例中，通过向所述语言模型输入第一提示词生成指令，获取对应的实体词汇；其中，所述第一提示词生成指令携带的信息，包括以下至少之一：实体词汇数量、实体词汇类型、反馈的实体词汇之间显示规则。

10、在一个实施例中，将获取的每个实体词汇，在敏感词汇数据库中进行匹配，当匹配成功时，放弃对应的实体词汇；其中，所述敏感词汇数据库中包括敏感词。

11、在一个实施例中，在实体词存储库中进行匹配，当匹配成功时，针对匹配成功的实体词汇，则重新生成。

12、在一个实施例中，当所述实体词存储库中保存的实体词汇达到预设数量，则实体词汇构造完成。

13、在一个实施例中，基于语言模型获取的每个实体词汇，通过所述语言模型生成包含所述实体词汇的多个问题数据，包括：

14、通过向所述语言模型输入第二提示词生成指令，获取对应的问题数据；其中，所述第二提示词生成指令携带的信息，包括以下至少之一：基于实体词汇生成问题、问题生成数量、问题描述中包含对应的实体词汇。

15、在一个实施例中，将获取的每个问题数据，在问题存储库中进行匹配，当匹配成功时，针对匹配成功的问题数据，则重新生成。

16、在一个实施例中，当所述问题存储库中保存的问题数据达到预设数量，则问题数据构造完成。

17、在一个实施例中，通过向所述语言模型输入实体词汇替换指令，获取实体词汇替换后的问题数据；

18、其中，所述实体词汇替换指令携带的信息，包括以下至少之一：基于实体词汇生成问题、待替换实体词汇问题数据的数量、问题数据中的实体词汇替换规则。

19、在第二方面，本专利技术提供一种基于语言模型的多轮对话训练数据生成系统，包括：

20、问答数据对生成模块，用于基于语言模型获取的每个实体词汇，通过所述语言模型生成包含所述实体词汇的多个问题数据，并根据每个问题数据，通过所述语言模型获得对应的答案，其中，基于所述多个问题数据与对应的答案生成n个问答数据对；

21、指代词替换处理模块，用于通过所述语言模型，将所述n个问答数据对中的k(1≤k≤n-1)个问答数据对中的问题数据中包含的所述实体词汇进行指代词替换处理；

22、多轮对话数据生成模块，用于基于完成指代词替换处理后的n个问答数据对，生成每个实体词汇对应的多轮对话数据。

23、在第三方面，提供一种计算机设备，包括处理器和存储装置，其中所述存储器中存储有程序，所述处理器执行所述程序时实现上述方法的技术方案中任一项技术方案所述的多轮对话训练数据生成方法。

24、在第四方面，提供一种计算机可读存储介质，存储有程序，所述程序被执行时实现上述方法的技术方案中任一项技术方案所述的多轮对话训练数据生成方法。

25、本专利技术上述一个或多个技术方案，至少具有如下一种或多种有益效果：

26、在实施本专利技术的技术方案中：基于语言模型获取的每个实体词汇，通过所述语言模型生成包含所述实体词汇的多个问题数据，并根据每个问题数据，通过所述语言模型获得对应的答案，其中，基于所述多个问题数据与对应的答案生成n个问答数据对；通过所述语言模型，将所述n个问答数据对中的k(1≤k≤n-1)个问答数据对中的问题数据中包含的所述实体词汇进行指代词替换处理；基于完成指代词处理后的n个问答数据对，生成每个实体词汇对应的多轮对话数据。因此，基于对部分实体词汇进行指代词处理，使得前后对话联系起来，提高了多轮对话训练数据质量及语言模型多轮对话能力。

27、进一步地，上述方案中基于每个实体词汇生成、问题数据生成、答案的生成、问题数据中包含的所述实体词汇进行指代词替换处理，都是依靠语言模型单轮对话处理的，因此只需要具备单轮对话能力的语言模型就可以通过构造高质量多轮对话训练数据，提升语言模型的多轮对话能力。

28、进一步地，上述方案适用于各类生成式自然语言模型，且易于实施。

本文档来自技高网...

【技术保护点】

1.一种基于语言模型的多轮对话训练数据生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述完成指代词替换处理后的n个问答数据对进行拼接处理，生成每个实体词汇对应的多轮对话数据。

3.根据权利要求2所述的方法，其特征在于，对所述完成指代词替换处理后的n个问答数据对中包含所述实体词汇的问答数据对作为第一轮对话，再对n-1个问答数据对进行拼接，生成每个实体词汇对应的多轮对话数据。

4.根据权利要求1所述的方法，其特征在于，所述语言模型是指通过大量文本数据训练的深度学习模型；其中，训练方法包括以下至少之一：有监督、自监督、半监督。

5.根据权利要求1或4所述的方法，其特征在于，通过向所述语言模型输入第一提示词生成指令，获取对应的实体词汇；其中，所述第一提示词生成指令携带的信息，包括以下至少之一：实体词汇数量、实体词汇类型、反馈的实体词汇之间显示规则。

6.根据权利要求5所述的方法，其特征在于，将获取的每个实体词汇，在敏感词汇数据库中进行匹配，当匹配成功时，放弃对应的实体词汇；其中，所述敏感词汇数据库中包括敏感词。

7.根据权利要求6所述的方法，将获取的每个实体词汇，在实体词存储库中进行匹配，当匹配成功时，针对匹配成功的实体词汇，则重新生成。

8.根据权利要求5所述的方法，其特征在于，基于语言模型获取的每个实体词汇，通过所述语言模型生成包含所述实体词汇的多个问题数据，包括：

9.根据权利要求8所述的方法，其特征在于，将获取的每个问题数据，在问题存储库中进行匹配，当匹配成功时，针对匹配成功的问题数据，则重新生成。

10.根据权利要求5所述的方法，其特征在于，通过向所述语言模型输入实体词汇替换指令，获取实体词汇替换后的问题数据；

11.一种基于语言模型的多轮对话训练数据生成系统，包括：

12.一种计算机设备，包括处理器和存储装置，其中所述存储器中存储有程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被执行时实现权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种基于语言模型的多轮对话训练数据生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述完成指代词替换处理后的n个问答数据对进行拼接处理，生成每个实体词汇对应的多轮对话数据。

6.根据权利要求5所述的方法，其特征在于，将获取的每个实体词汇，在敏感词汇数据库中进行匹配，当匹配成功时，放弃对应的实体词汇...

【专利技术属性】
技术研发人员：袁哲，钟翔，董全超，刘盛中，孙宇轩，郑腾飞，刘康，
申请(专利权)人：芜湖云从科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人