训练问答对话系统以避免对抗性攻击技术方案

技术编号:38028208 阅读:19 留言:0更新日期:2023-06-30 10:54
方法、计算机程序产品和/或计算机系统保护问答对话系统免受错误地回答问题的对抗性语句的攻击。计算设备访问能够对问答对话系统进行对抗性攻击的多个对抗性语句,该问答对话系统被训练为提供对特定类型的问题的正确回答。计算设备利用多个对抗性语句来训练用于问答对话系统的机器学习模型。计算设备然后通过将识别多种类型的对抗性语句的对抗性策略引导到经训练的机器学习模型上来强化经训练的机器学习模型。计算设备然后利用经训练的和引导的机器学习模型以在对提交给问答对话系统的问题进行响应时避免对抗性攻击。的问题进行响应时避免对抗性攻击。的问题进行响应时避免对抗性攻击。

【技术实现步骤摘要】
【国外来华专利技术】训练问答对话系统以避免对抗性攻击

技术介绍

[0001]本专利技术涉及用于回答问题的问答对话系统的领域。更具体地,本专利技术涉及保护问答对话系统免受破坏这样的问答对话系统的对抗性攻击的领域。

技术实现思路

[0002]在本专利技术的一个或多个实施例中,一种方法保护问答对话系统免受错误地回答问题的对抗性语句的攻击。计算设备访问能够对问答对话系统进行对抗性攻击的多个对抗性语句,该问答对话系统被训练为提供对特定类型的问题的正确回答。计算设备利用多个对抗性语句来训练用于问答对话系统的机器学习模型。计算设备然后通过将识别多种类型的对抗性语句的对抗性策略引导到经训练的机器学习模型上来强化经训练的机器学习模型。计算设备然后利用经训练的和引导的机器学习模型以在对提交给问答对话系统的问题进行响应时避免对抗性攻击。
[0003]在本专利技术的一个或多个实施例中,由计算设备对经训练的和引导的机器学习模型进行测试:将用于问答对话系统的问题转换成具有用于回答的占位符的语句;从回答中随机挑选回答实体,并且添加随机挑选的回答实体来代替占位符,以生成对抗性语句;利用对抗性语句生成对经训练的和引导的机器学习模型的攻击;测量来自经训练的和引导的机器学习模型的对所生成的攻击的响应;以及修改经训练的和引导的机器学习模型,以便增加对所生成的攻击的响应的响应水平。
[0004]在本专利技术的一个或多个实施例中,上下文段落包括正确回答,该正确回答包括正确回答实体,特定类型的问题包括特定类型的问题实体,并且该方法还包括计算设备:生成/检索随机回答随机问题RARQ对抗性语句,其中,RARQ对抗性语句包括对正确回答中的正确回答实体进行替换的随机回答实体,并且其中,RARQ对抗性语句包括对正确回答中的正确问题实体进行替换的随机问题实体;生成/检索随机回答原始问题RAOQ对抗性语句,其中,RAOQ对抗性语句包括对正确回答中的正确回答实体进行替换的随机回答实体,并且其中,RAOQ对抗性语句包括来自正确回答的正确问题实体;生成/检索无回答随机问题NARQ对抗性语句,其中,NARQ对抗性语句用无回答来替换正确回答中的正确回答实体,并且其中,NARQ对抗性语句包括对正确回答中的正确问题实体进行替换的随机问题实体;生成/检索无回答原始问题(NAOQ)对抗性语句,其中,NAOQ对抗性语句用无回答来替换正确回答中的正确回答实体,并且其中,NAOQ对抗性语句包括来自正确回答的正确问题实体;以及利用RARQ对抗性语句、RAOQ对抗性语句、NARQ对抗性语句和NAOQ对抗性语句作为输入来进一步训练用于问答对话系统的机器学习模型,以识别对抗性语句。
[0005]在本专利技术的一个或多个实施例中,在问答对话系统中使用的原始问题、在问答对话系统中使用的原始上下文段落和/或为问答对话系统生成的对抗性语句采用一种或多种不同的语言,使得问答对话系统能够处理多种语言的对抗性攻击。
[0006]在一个或多个实施例中,通过计算机程序产品和/或计算机系统的执行来执行本文中描述的方法。
附图说明
[0007]图1描绘了在各种实施例中实现本专利技术的示例性系统和网络;
[0008]图2示出了根据本专利技术的一个或多个实施例的当运行在上下文段落中具有对抗性语句的问答(QA)对话/学习系统时使用的示例攻击流水线的高级概要;
[0009]图3描绘了在本专利技术的一个或多个实施例中使用的不同类型的对抗性段落;
[0010]图4示出了在本专利技术的一个或多个实施例中用于生成对抗性语句的示例性步骤流程;
[0011]图5示出了根据本专利技术的一个或多个实施例的用于在问答对话系统中使用经训练的模型来防御对抗性语句/攻击的示例处理;
[0012]图6示出了根据本专利技术的一个或多个实施例的转换器模型系统的递归训练的高级概要;
[0013]图7描绘了根据本专利技术的一个或多个实施例的使用来自转换器的多语言双向编码器表示(例如MBERT)的、图6中所示的转换器模型系统的示例性实施例;
[0014]图8示出了在本专利技术的一个或多个实施例中使用的示例性问答对话系统;
[0015]图9描绘了根据本专利技术的一个或多个实施例的由图8中所示的QA对话系统800所使用的对新问题进行响应的示例性深度神经网络;
[0016]图10示出了由根据本专利技术的一个或多个实施例的方法执行的一个或多个步骤的高级流程图;
[0017]图11描绘了根据本专利技术的一个或多个实施例的云计算环境;以及
[0018]图12示出了根据本专利技术的一个或多个实施例的云计算机环境的抽象模型层。
具体实施方式
[0019]在一个或多个实施例中,本专利技术是处于任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。在一个或多个实施例中,计算机程序产品包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),该计算机可读程序指令用于使处理器执行本专利技术的各方面。
[0020]计算机可读存储介质可以是可以保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD

ROM)、数字多功能盘(DVD)、记忆棒、软盘、其上记录有指令的机械编码设备(诸如打孔卡或凹槽中的凸起结构)、以及前述各项的任何适当的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤光缆传送的光脉冲)、或通过导线传输的电信号。
[0021]本文中描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交
换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并且转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
[0022]在一个或多个实施例中,用于执行本专利技术的操作的计算机可读程序指令包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设定数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言(诸如Java、Smalltalk、C++等)以及常规的过程编程语言(诸如“C”编程语言或类似的编程语言)。在一个或多个实施例中,计算机可读程序指令完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:由计算设备访问能够对问答对话系统进行对抗性攻击的多个对抗性语句,其中,所述问答对话系统被训练为提供对特定类型的问题的正确回答;由所述计算设备利用所述多个对抗性语句来训练用于所述问答对话系统的机器学习模型;由所述计算设备通过将识别多种类型的对抗性语句的对抗性策略引导到经训练的机器学习模型上来强化经训练的机器学习模型;以及由所述计算设备利用经训练的和引导的机器学习模型以在对提交给所述问答对话系统的问题进行响应时避免对抗性攻击。2.根据权利要求1所述的方法,还包括通过以下操作来测试经训练的和引导的机器学习模型:由所述计算设备将用于所述问答对话系统的问题转换成具有用于回答的占位符的语句;由所述计算设备从所述回答中随机挑选回答实体,并且添加随机挑选的回答实体来代替所述占位符,以生成对抗性语句;由所述计算设备利用所述对抗性语句来生成对经训练的和引导的机器学习模型的攻击;由所述计算设备测量由经训练的和引导的机器学习模型对所生成的攻击的响应;以及由所述计算机设备修改经训练的和引导的机器学习模型,以便增加对所生成的攻击的所述响应的响应水平。3.根据权利要求1所述的方法,其中,所述多个对抗性语句包括采用第一语言的第一对抗性语句和采用不同的第二语言的第二对抗性语句,并且其中,所述第一对抗性语句和所述第二对抗性语句都提供对所述问题的相同的错误回答。4.根据权利要求1所述的方法,其中,所述正确回答包括正确回答实体并且与正确问题实体相关联,并且其中,所述方法还包括:由所述计算设备生成随机回答随机问题RARQ对抗性语句,其中,所述RARQ是第一类型的攻击语句,其中,所述RARQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体,并且其中,所述RARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体;由所述计算设备生成随机回答原始问题RAOQ对抗性语句,其中,所述RAOQ对抗性语句是第二类型的攻击语句,其中,所述RAOQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体,并且其中,所述RAOQ对抗性语句包括来自所述正确回答的所述正确问题实体;由所述计算设备生成无回答随机问题NARQ对抗性语句,其中,所述NARQ对抗性语句是第三类型的攻击语句,其中,所述NARQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体,并且其中,所述NARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体;由所述计算设备生成无回答原始问题NAOQ对抗性语句,其中,所述NAOQ对抗性语句是第四类型的攻击语句,其中,所述NAOQ对抗性语句用无回答来替换所述正确回答中的所述
正确回答实体,并且其中,所述NAOQ对抗性语句包括来自所述正确回答的所述正确问题实体;以及由所述计算设备利用所述RARQ对抗性语句、RAOQ对抗性语句、NARQ对抗性语句和NAOQ对抗性语句作为输入来进一步在上下文段落内训练用于所述问答对话系统的所述机器学习模型,以识别对抗性语句。5.根据权利要求1所述的方法,其中,所述正确回答包括正确回答实体并且与正确问题实体相关联,并且其中,所述方法还包括:检索随机回答随机问题RARQ对抗性语句,其中,所述RARQ对抗性语句是第一类型的攻击语句,其中,所述RARQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体,并且其中,所述RARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体;检索随机回答原始问题RAOQ对抗性语句,其中,所述RAOQ是第二类型的攻击语句,其中,所述RAOQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体,并且其中,所述RAOQ对抗性语句包括来自所述正确回答的所述正确问题实体;检索无回答随机问题NARQ对抗性语句,其中,所述NARQ对抗性语句是第三类型的攻击语句,其中,所述NARQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体,并且其中,所述NARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体;检索无回答原始问题NAOQ对抗性语句,其中,所述NAOQ对抗性语句是第四类型的攻击语句,其中,所述NAOQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体,并且其中,所述NAOQ对抗性语句包括来自所述正确回答的所述正确问题实体;以及由所述计算设备利用所述RARQ对抗性语句、RAOQ对抗性语句、NARQ对抗性语句和NAOQ对抗性语句作为输入来进一步在上下文段落内训练用于所述问答对话系统的所述机器学习模型,以识别和忽略对抗性语句。6.根据权利要求1所述的方法,其中,所述正确回答包括正确回答实体和正确问题实体,并且其中,所述方法还包括:检索随机回答原始问题RAOQ对抗性语句,其中,所述RAOQ对抗性语句包括对所述正确回答中的所述正确回答实体进行替换的随机回答实体,并且其中,所述RAOQ对抗性语句包括来自所述正确回答的所述正确问题实体;以及由所述计算设备利用所述RAOQ对抗性语句作为输入来进一步训练用于所述问答对话系统的所述机器学习模型,以识别和忽略对抗性语句。7.根据权利要求1所述的方法,其中,所述正确回答包括正确回答实体和正确问题实体,并且其中,所述方法还包括:检索无回答随机问题NARQ对抗性语句,其中,所述NARQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体,并且其中,所述NARQ对抗性语句包括对所述正确回答中的所述正确问题实体进行替换的随机问题实体;以及由所述计算设备利用所述NARQ对抗性语句作为输入来进一步训练用于所述问答对话系统的所述机器学习模型,以识别和忽略对抗性语句。8.根据权利要求1所述的方法,其中,所述正确回答包括正确回答实体和正确问题实
体,并且其中,所述方法还包括:检索无回答原始问题NAOQ对抗性语句,其中,所述NAOQ对抗性语句用无回答来替换所述正确回答中的所述正确回答实体,并且其中,所述NAOQ对抗性语句包括来自所述正确回答的所述正确问题实体;以及由所述计算设备利用所述NAOQ对抗性语句作为输入来进一步训练用于所述问答对话系统的所述机器学习模型,以识别和忽略对抗性语句。9.一种计算机程序产品,包括具有体现在其中的程序代码的计算机可读存储介质,其中,所述计算机可读存储介质本身不是瞬态信号本身,其中,所述程序代码是由处理器可读和可执行的,以执行避免对问答对话系统的对抗性攻击的方法,并且其中,所述方法包括:访问能够对问答对话系统进行对抗性攻击的多个对抗性语句,其中,所述问答对话系统被训练为提供对特定类型的问题的正确回答;利用所述多个对抗性语句来训练用于所述问答对话系统的机器学习模型;通过将识别多种类型的对抗性语句的对抗性策略引导到经训练的机器学习模型上来强化经训练的机器学习模型;以及利用经训练的和引导的机器学习模型以在对提交给所述问答对话系统的问题进行响应时避免对抗性攻击。10.根据权利要求9所述的计算机程序产品,其中,所述方法还包括通过以下操作来测试经训练的和引导的机器学习模型:将用于所述问答对话系统的问题转换成具有用于回答的占位符的语句;从所述回答中随机挑选回答实体,并且添加随机挑选的回答实体来代替所述占位符,以生成对抗性语句;将所述对抗性语句随机输入到段落中以创建对抗性段落;利用所述对抗性段落来生成对经训练的和引导的机器学习模型的攻击;测量由经训练的和引导的机器学习模型对所生成的攻击的响应;以及由所述计算机设备修改经训练的和引导的机器学习模型,以便增加对所生成的攻击的所述响应的响应水平。11.根据权利要求9所述的计算机程序产品,其中,所述多个对抗性语句包括采用第一语言...

【专利技术属性】
技术研发人员:S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1