System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向任务型对话中一致性识别的模型化预训练方法、系统及介质技术方案_技高网
当前位置: 首页 > 专利查询>中南大学专利>正文

一种面向任务型对话中一致性识别的模型化预训练方法、系统及介质技术方案

技术编号:40156642 阅读:5 留言:0更新日期:2024-01-26 23:32
本发明专利技术公开了一种面向任务型对话中一致性识别的模块化预训练方法、系统及介质,其中方法包括:选取预训练的骨干网络;获取预训练数据构建查询响应匹配任务数据集、对话历史一致性识别任务数据集、基于知识库的掩码建模任务数据集;基于查询响应匹配任务数据集,对骨干网络进行查询响应一致性识别预训练;进而基于对话历史一致性识别任务数据集,对骨干网络进行对话历史一致性识别预训练;进而通过基于知识库的掩码建模任务数据集,对骨干网络进行基于知识库的一致性识别预训练。三种预训练后,模型可进行面向任务型对话中的一致性识别。解决了预训练因训练目标及训练数据的一般性而导致的难以针对上下文理解和知识库推理能力进行训练的问题。

【技术实现步骤摘要】

本专利技术涉及互联网,尤其涉及一种面向任务型对话中一致性识别的模型化预训练方法、系统及介质


技术介绍

1、面向任务型对话的主要目标是完成特定的任务或交易,例如预订酒店或者订购食物。其中的一致性识别是指识别和维护用户与面向任务型对话系统之间交流的信息和行为的一致性的过程,它可以确保对话系统正确理解和解释用户输入,保持连贯和一致的对话流程,并提供准确、一致的回应。

2、目前关于面向任务型对话的一致性识别(consistency identification intask-oriented dialogue,简称ci-tod)的工作虽然已经在预训练方向有所发展,但由于其训练目标和训练数据的一般性,导致对于ci-tod格外重视的上下文理解和知识库推理能力难以进行针对性进行训练,从而限制了工作性能;同时ci-tod的预训练十分依赖大量多轮基于知识库的对话,这些对话既昂贵又难以收集,严重阻碍了ci-tod预训练的发展。针对以上问题,亟需一种能够对ci-tod的预训练框架和训练数据进行改进的方法。


技术实现思路

1、本专利技术提供了一种面向任务型对话中一致性识别的模块化预训练方法、系统及介质,其中方法(mpftod,modularized pre-training framework)解决了ci-tod预训练因训练目标及训练数据的一般性而导致的难以针对ci-tod格外重视的上下文理解和知识库推理能力进行训练的问题;同时模块化的训练方式摆脱了对大量多轮基于知识库的对话数据的依赖,可以利用海量的无知识基础对话的数据进行训练。

2、第一方面,本专利技术提供了一种面向任务型对话中一致性识别的模块化预训练方法,包括:

3、s1:选取预训练的骨干网络;

4、s2:获取预训练数据构建查询响应匹配任务(qrmt)数据集、对话历史一致性识别任务(dhcit)数据集、基于知识库的掩码建模任务(kbmlm)数据集;

5、s3:基于查询响应匹配任务数据集,对骨干网络进行查询响应一致性识别预训练,使模型可进行用户请求一致性的识别;

6、s4:基于对话历史一致性识别任务数据集,对s3预训练后骨干网络进行对话历史一致性识别预训练,使模型可进行历史对话一致性的识别;

7、s5:通过基于知识库的掩码建模任务数据集,对s4预训练后骨干网络进行基于知识库的一致性识别预训练,使模型可进行基于知识库的一致性识别,最终得到面向任务型对话中一致性识别的模型。

8、所述方法解决了ci-tod预训练因训练目标及训练数据的一般性而导致的难以针对ci-tod格外重视的上下文理解和知识库推理能力进行训练的问题;同时模块化的训练方式摆脱了对大量多轮基于知识库的对话数据的依赖,可以利用海量的无知识基础对话的数据进行训练。

9、进一步地,所述骨干网络选取bert网络,用于判断当前系统响应与当前的用户查询、历史对话、知识库是否一致,判断的计算过程为:

10、

11、其中,y为bert网络的判断结果;yqi为系统响应和用户查询的分类结果;yhi为系统响应和历史对话的分类结果;ykbi为系统响应和知识库分类结果;为历史对话;为知识库;un为当前的用户查询;sn为当前系统响应。

12、进一步地,查询响应匹配任务数据集由单轮无知识基础对话组成;对话历史一致性识别任务数据集由多轮无知识基础对话组成;基于知识库的掩码建模任务数据集由table-to-text数据集组成。table-to-text数据集是一种用于自然语言生成任务的数据集,通常包括表格数据和与之相对应的文本描述。

13、进一步地,所述s3中对骨干网络进行查询响应一致性识别预训练的具体过程为:

14、给定查询响应匹配任务数据集对于任一系统响应si,将其与对应的用户查询ui设为正样本,表示为qrmt(ui,si)=1;将其他对话中的用户查询uj,其中j≠i,设为负样本,表示为qrmt(uj,si)=0。采用这种构造方式可以获得查询响应匹配任务数据集其中,m为样本对的个数;yi∈{0,1},表示相对于系统响应si,用户查询ui是正样本还是负样本。

15、将(u,s)输入进骨干模型bert进行分类,得到查询响应一致性识别预训练结果真实标签yqrmt和进行比较对bert进行训练。

16、进一步地,所述s4中对s3预训练后骨干网络进行对话历史一致性识别预训练的具体过程为:

17、给定对话历史一致性识别任务数据集对于任一多轮对话tsi,将其最后一轮的系统响应sin作为待检测目标,前n-1轮对话作为历史对话则多轮对话tsi变为和sin;

18、基于对话历史一致性识别任务数据集对于任一系统响应sin,将其与对应的历史对话作为一个正样本对,表示为将历史对话中预设数量的对话内容替换为不同历史对话中的对话内容,变为将作为一个负样本对,表示为采用这种构造方式可以获得对话历史一致性识别任务数据集其中n表示一个多轮对话的轮数;yi∈{0,1},表示相对于系统响应sin历史对话hi是正样本还是负样本。

19、将输入进骨干模型bert进行分类,得到对话历史一致性识别预训练结果真实标签ydhcit和进行比较对bert进行训练。

20、进一步地,所述s5中对s4预训练后骨干网络进行基于知识库的一致性识别预训练的具体过程为:

21、给定基于知识库的掩码建模任务数据集c={t,x},将其中的表格t作为知识库文本x作为当前系统响应s,则内容划分后数据集c变为其中m文本个数;

22、对于任一系统响应si,屏蔽知识库和系统响应si上都存在的相关实体x,得到s’i,将输入进骨干模型bert对被屏蔽实体进行预测,得到基于知识库的一致性识别预训练结果p和x进行比较对bert进行训练。

23、更进一步地,预训练采用的损失函数为标准的交叉熵损失函数。

24、第二方面,本专利技术提供了一种面向任务型对话中一致性识别的模块化预训练系统,包括:

25、模型选取模块:用于选取预训练的骨干网络;

26、数据获取模块:获取预训练数据构建查询响应匹配任务数据集、对话历史一致性识别任务数据集、基于知识库的掩码建模任务数据集;

27、预训练模块:基于查询响应匹配任务数据集,对骨干网络进行查询响应一致性识别预训练;进而基于对话历史一致性识别任务数据集,对骨干网络进行对话历史一致性识别预训练;进而通过基于知识库的掩码建模任务数据集,对骨干网络进行基于知识库的一致性识别预训练,最终得到面向任务型对话中一致性识别的模型。

28、第三方面,本专利技术提供了一种计算机可读存储介质,存储了计算机程序,所述计算机程序被处理器调用时以执行如上所述方法的步骤。

29、有益效果

30、本专利技术提出了一种面向任务型对话中一致性识别的模块化预训练方法、系统及介质,其中方法解决了ci-tod预训练因训练本文档来自技高网...

【技术保护点】

1.一种面向任务型对话中一致性识别的模块化预训练方法,其特征在于,包括:

2.根据权利要求1所述的面向任务型对话中一致性识别的模块化预训练方法,其特征在于,所述骨干网络选取BERT网络,用于判断当前系统响应与当前的用户查询、历史对话、知识库是否一致,判断的计算过程为:

3.根据权利要求1所述的面向任务型对话中一致性识别的模块化预训练方法,查询响应匹配任务数据集由单轮无知识基础对话组成;对话历史一致性识别任务数据集由多轮无知识基础对话组成;基于知识库的掩码建模任务数据集由table-to-text数据集组成。

4.根据权利要求2所述的面向任务型对话中一致性识别的模块化预训练方法,所述S3中对骨干网络进行查询响应一致性识别预训练的具体过程为:

5.根据权利要求2所述的面向任务型对话中一致性识别的模块化预训练方法,所述S4中对S3预训练后骨干网络进行对话历史一致性识别预训练的具体过程为:

6.根据权利要求2所述的面向任务型对话中一致性识别的模块化预训练方法,所述S5中对S4预训练后骨干网络进行基于知识库的一致性识别预训练的具体过程为:

7.根据权利要求4-6任一项所述的面向任务型对话中一致性识别的模块化预训练方法,其特征在于,预训练采用的损失函数为标准的交叉熵损失函数。

8.一种面向任务型对话中一致性识别的模块化预训练系统,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用时以执行:权利要求1-7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种面向任务型对话中一致性识别的模块化预训练方法,其特征在于,包括:

2.根据权利要求1所述的面向任务型对话中一致性识别的模块化预训练方法,其特征在于,所述骨干网络选取bert网络,用于判断当前系统响应与当前的用户查询、历史对话、知识库是否一致,判断的计算过程为:

3.根据权利要求1所述的面向任务型对话中一致性识别的模块化预训练方法,查询响应匹配任务数据集由单轮无知识基础对话组成;对话历史一致性识别任务数据集由多轮无知识基础对话组成;基于知识库的掩码建模任务数据集由table-to-text数据集组成。

4.根据权利要求2所述的面向任务型对话中一致性识别的模块化预训练方法,所述s3中对骨干网络进行查询响应一致性识别预训练的具体过程为:

<...

【专利技术属性】
技术研发人员:覃立波李勤政黄仕爵陈麒光刘乾车万翔徐睿峰
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1