训练问答对话系统以避免对抗性攻击技术方案

技术编号：38028208 阅读：19 留言：0更新日期：2023-06-30 10:54

方法、计算机程序产品和/或计算机系统保护问答对话系统免受错误地回答问题的对抗性语句的攻击。计算设备访问能够对问答对话系统进行对抗性攻击的多个对抗性语句，该问答对话系统被训练为提供对特定类型的问题的正确回答。计算设备利用多个对抗性语句来训练用于问答对话系统的机器学习模型。计算设备然后通过将识别多种类型的对抗性语句的对抗性策略引导到经训练的机器学习模型上来强化经训练的机器学习模型。计算设备然后利用经训练的和引导的机器学习模型以在对提交给问答对话系统的问题进行响应时避免对抗性攻击。的问题进行响应时避免对抗性攻击。的问题进行响应时避免对抗性攻击。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】训练问答对话系统以避免对抗性攻击

技术介绍

[0001]本专利技术涉及用于回答问题的问答对话系统的领域。更具体地，本专利技术涉及保护问答对话系统免受破坏这样的问答对话系统的对抗性攻击的领域。

技术实现思路

[0002]在本专利技术的一个或多个实施例中，一种方法保护问答对话系统免受错误地回答问题的对抗性语句的攻击。计算设备访问能够对问答对话系统进行对抗性攻击的多个对抗性语句，该问答对话系统被训练为提供对特定类型的问题的正确回答。计算设备利用多个对抗性语句来训练用于问答对话系统的机器学习模型。计算设备然后通过将识别多种类型的对抗性语句的对抗性策略引导到经训练的机器学习模型上来强化经训练的机器学习模型。计算设备然后利用经训练的和引导的机器学习模型以在对提交给问答对话系统的问题进行响应时避免对抗性攻击。
[0003]在本专利技术的一个或多个实施例中，由计算设备对经训练的和引导的机器学习模型进行测试：将用于问答对话系统的问题转换成具有用于回答的占位符的语句；从回答中随机挑选回答实体，并且添加随机挑选的回答实体来代替占位符，以生成对抗性语句；利用对抗性语句生成对经训练的和引导的机器学习模型的攻击；测量来自经训练的和引导的机器学习模型的对所生成的攻击的响应；以及修改经训练的和引导的机器学习模型，以便增加对所生成的攻击的响应的响应水平。
[0004]在本专利技术的一个或多个实施例中，上下文段落包括正确回答，该正确回答包括正确回答实体，特定类型的问题包括特定类型的问题实体，并且该方法还包括计算设备：生成/检索随机回答随机问题RA...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：由计算设备访问能够对问答对话系统进行对抗性攻击的多个对抗性语句，其中，所述问答对话系统被训练为提供对特定类型的问题的正确回答；由所述计算设备利用所述多个对抗性语句来训练用于所述问答对话系统的机器学习模型；由所述计算设备通过将识别多种类型的对抗性语句的对抗性策略引导到经训练的机器学习模型上来强化经训练的机器学习模型；以及由所述计算设备利用经训练的和引导的机器学习模型以在对提交给所述问答对话系统的问题进行响应时避免对抗性攻击。2.根据权利要求1所述的方法，还包括通过以下操作来测试经训练的和引导的机器学习模型：由所述计算设备将用于所述问答对话系统的问题转换成具有用于回答的占位符的语句；由所述计算设备从所述回答中随机挑选回答实体，并且添加随机挑选的回答实体来代替所述占位符，以生成对抗性语句；由所述计算设备利用所述对抗性语句来生成对经训练的和引导的机器学习模型的攻击；由所述计算设备测量由经训练的和引导的机器学习模型对所生成的攻击的响应；以及由所述计算机设备修改经训练的和引导的机器学习模型，以便增加对所生成的攻击的所述响应的响应水平。3.根据权利要求1所述的方法，其中，所述多个对抗性语句包括采用第一语言的第一对抗性语句和采用不同的第二语言的第二对抗性语句，并且其中，所述第一对抗性语句和所述第二对抗性语句都提供对所述问题的相同的错误回答。4.根据权利要求1所述的方法，其中，所述正确回答包括正确回答实体并且与正确问题实体相关联，并且其中，所述方法还包括：由所述计算设备生成随机回答随机问题RARQ对抗性语句，其中，所述RARQ是第一类型的攻击语句，其中，所述RARQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体，并且其中，所述RARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体；由所述计算设备生成随机回答原始问题RAOQ对抗性语句，其中，所述RAOQ对抗性语句是第二类型的攻击语句，其中，所述RAOQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体，并且其中，所述RAOQ对抗性语句包括来自所述正确回答的所述正确问题实体；由所述计算设备生成无回答随机问题NARQ对抗性语句，其中，所述NARQ对抗性语句是第三类型的攻击语句，其中，所述NARQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体，并且其中，所述NARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体；由所述计算设备生成无回答原始问题NAOQ对抗性语句，其中，所述NAOQ对抗性语句是第四类型的攻击语句，其中，所述NAOQ对抗性语句用无回答来替换所述正确回答中的所述
正确回答实体，并且其中，所述NAOQ对抗性语句包括来自所述正确回答的所述正确问题实体；以及由所述计算设备利用所述RARQ对抗性语句、RAOQ对抗性语句、NARQ对抗性语句和NAOQ对抗性语句作为输入来进一步在上下文段落内训练用于所述问答对话系统的所述机器学习模型，以识别对抗性语句。5.根据权利要求1所述的方法，其中，所述正确回答包括正确回答实体并且与正确问题实体相关联，并且其中，所述方法还包括：检索随机回答随机问题RARQ对抗性语句，其中，所述RARQ对抗性语句是第一类型的攻击语句，其中，所述RARQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体，并且其中，所述RARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体；检索随机回答原始问题RAOQ对抗性语句，其中，所述RAOQ是第二类型的攻击语句，其中，所述RAOQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体，并且其中，所述RAOQ对抗性语句包括来自所述正确回答的所述正确问题实体；检索无回答随机问题NARQ对抗性语句，其中，所述NARQ对抗性语句是第三类型的攻击语句，其中，所述NARQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体，并且其中，所述NARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体；检索无回答原始问题NAOQ对抗性语句，其中，所述NAOQ对抗性语句是第四类型的攻击语句，其中，所述NAOQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体，并且其中，所述NAOQ对抗性语句包括来自所述正确回答的所述正确问题实体；以及由所述计算设备利用所述RARQ对抗性语句、RAOQ对抗性语句、NARQ对抗性语句和NAOQ对抗性语句作为输入来进一步在上下文段落内训练用于所述问答对话系统的所述机器学习模型，以识别和忽略对抗性语句。6.根据权利要求1所述的方法，其中，所述正确回答包括正确回答实体和正确问题实体，并且其中，所述方法还包括：检索随机回答原始问题RAOQ对抗性语句，其中，所述RAOQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体，并且其中，所述RAOQ对抗性语句包括来自所述正确回答的所述正确问题实体；以及由所述计算设备利用所述RAOQ对抗性语句作为输入来进一步训练用于所述问答对话系统的所述机器学习模型，以识别和忽略对抗性语句。7.根据权利要求1所述的方法，其中，所述正确回答包括正确回答实体和正确问题实体，并且其中，所述方法还包括：检索无回答随机问题NARQ对抗性语句，其中，所述NARQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体，并且其中，所述NARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体；以及由所述计算设备利用所述NARQ对抗性语句作为输入来进一步训练用于所述问答对话系统的所述机器学习模型，以识别和忽略对抗性语句。8.根据权利要求1所述的方法，其中，所述正确回答包括正确回答实体和正确问题实
体，并且其中，所述方法还包括：检索无回答原始问题NAOQ对抗性语句，其中，所述NAOQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体，并且其中，所述NAOQ对抗性语句包括来自所述正确回答的所述正确问题实体；以及由所述计算设备利用所述NAOQ对抗性语句作为输入来进一步训练用于所述问答对话系统的所述机器学习模型，以识别和忽略对抗性语句。9.一种计算机程序产品，包括具有体现在其中的程序代码的计算机可读存储介质，其中，所述计算机可读存储介质本身不是瞬态信号本身，其中，所述程序代码是由处理器可读和可执行的，以执行避免对问答对话系统的对抗性攻击的方法，并且其中，所述方法包括：访问能够对问答对话系统进行对抗性攻击的多个对抗性语句，其中，所述问答对话系统被训练为提供对特定类型的问题的正确回答；利用所述多个对抗性语句来训练用于所述问答对话系统的机器学习模型；通过将识别多种类型的对抗性语句的对抗性策略引导到经训练的机器学习模型上来强化经训练的机器学习模型；以及利用经训练的和引导的机器学习模型以在对提交给所述问答对话系统的问题进行响应时避免对抗性攻击。10.根据权利要求9所述的计算机程序产品，其中，所述方法还包括通过以下操作来测试经训练的和引导的机器学习模型：将用于所述问答对话系统的问题转换成具有用于回答的占位符的语句；从所述回答中随机挑选回答实体，并且添加随机挑选的回答实体来代替所述占位符，以生成对抗性语句；将所述对抗性语句随机输入到段落中以创建对抗性段落；利用所述对抗性段落来生成对经训练的和引导的机器学习模型的攻击；测量由经训练的和引导的机器学习模型对所生成的攻击的响应；以及由所述计算机设备修改经训练的和引导的机器学习模型，以便增加对所生成的攻击的所述响应的响应水平。11.根据权利要求9所述的计算机程序产品，其中，所述多个对抗性语句包括采用第一语言...

【专利技术属性】
技术研发人员：S，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人