对抗测试看图说话系统的方法和装置制造方法及图纸

技术编号：22076616 阅读：42 留言：0更新日期：2019-09-12 14:26

本公开提供了一种对抗测试看图说话系统的方法和相关装置。该方法包括：构造概率对数函数；将所述概率对数函数分解成第一函数项和第二函数项；为第二函数项指定对抗噪声，求解第二函数项最小时的非预定观测位置出现的词组合的概率，并将解出的非预定观测位置出现的词组合的概率代入第一函数项，求解第一函数项最大时的对抗噪声，反复进行迭代，直到满足迭代终止条件；将迭代后得到的对抗噪声叠加到所述看图说话系统要识别的图片上，以期望所述看图说话系统识别出的语句的预定观测位置出现指定的词。本公开实施例不但能够使看图说话系统生成的图像描述语句含有指定的词，还能够指定这些词出现的位置，即在指定的位置出现指定的词。

The Method and Device of Graphic Speech System in Countermeasure Test

全部详细技术资料下载

【技术实现步骤摘要】
对抗测试看图说话系统的方法和装置
本公开涉及看图说话领域，具体涉及一种对抗测试看图说话系统的方法、装置、对抗测试组件和介质。
技术介绍
看图说话系统是这样一种系统，它利用机器学习的原理，当将图片输入到该系统后，该系统就会识别图片的内容，输出解说图的语句，或说出解说图的话。看图说话系统对于人工智能机器人解析图片和视频等具有重大的意义。对抗测试看图说话系统是指对看图说话系统要识别的图片加噪声，干扰看图说话系统的识别，使之输出与图片内容不符的解析语句或语音，甚至让其解析出对抗测试者想要其输出的语句或语音，从而测试出看图说话系统的使用效果是否达到预期，并在不达到预期时改进看图说话系统。目前，对抗测试看图说话系统的技术只有Show-And-Fool。这种技术提供了两种类型的对抗测试，分别是对整句话的对抗测试(targetedcaptions)和针对句子中关键词的对抗测试(targetedkeywords)。Show-And-Fool对句子中关键词对抗测试仅仅是要求生成的图像描述语句中含有指定的关键词，但是无法指定其出现的位置。
技术实现思路
本公开的一个目的在于提出一种对抗测试...

【技术保护点】
1.一种对抗测试看图说话系统的方法，其特征在于，所述方法包括：构造概率对数函数，所述概率对数函数将在看图说话系统要识别的图片上将要叠加的对抗噪声作为自变量，基于所述看图说话系统输出语句在预定观测位置出现的词的组合为预定观测词组合的概率的对数构造因变量；将所述概率对数函数分解成第一函数项和第二函数项，所述第一函数项和第二函数项都是所述将要叠加的对抗噪声、以及所述看图说话系统输出语句在非预定观测位置出现的词组合的概率的函数；为第二函数项指定对抗噪声，求解第二函数项最小时的非预定观测位置出现的词组合的概率，并将解出的非预定观测位置出现的词组合的概率代入第一函数项，求解第一函数项最大时的对抗噪声，作为...

【技术特征摘要】
1.一种对抗测试看图说话系统的方法，其特征在于，所述方法包括：构造概率对数函数，所述概率对数函数将在看图说话系统要识别的图片上将要叠加的对抗噪声作为自变量，基于所述看图说话系统输出语句在预定观测位置出现的词的组合为预定观测词组合的概率的对数构造因变量；将所述概率对数函数分解成第一函数项和第二函数项，所述第一函数项和第二函数项都是所述将要叠加的对抗噪声、以及所述看图说话系统输出语句在非预定观测位置出现的词组合的概率的函数；为第二函数项指定对抗噪声，求解第二函数项最小时的非预定观测位置出现的词组合的概率，并将解出的非预定观测位置出现的词组合的概率代入第一函数项，求解第一函数项最大时的对抗噪声，作为为第二函数项指定的对抗噪声，代替之前为第二函数项指定的对抗噪声，进行下一轮迭代，直至满足迭代终止条件；将迭代后得到的对抗噪声叠加到所述看图说话系统要识别的图片上，以期望所述看图说话系统识别出的语句的预定观测位置出现指定的词。2.根据权利要求1所述的方法，其特征在于，所述因变量为所述看图说话系统输出语句在预定观测位置出现的词的组合为预定观测词组合的概率的对数减去所述对抗噪声的二范数的平方的预定比例的差。3.根据权利要求2所述的方法，其特征在于，所述第一函数项为在非预定观测位置出现的所有不同词组合的情况下的第一子函数的和减去所述对抗噪声的二范数的平方的预定比例的差，所述第一子函数通过以下方式构造：构造给定将要叠加的对抗噪声时所述看图说话系统输出语句在预定观测位置出现的词的组合、以及所述看图说话系统输出语句在非预定观测位置出现的不同词组合的联合概率；将所述联合概率除以所述看图说话系统输出语句在非预定观测位置出现的词组合的概率，得到的商求对数；用得到的对数乘以所述看图说话系统输出语句在非预定观测位置出现的词组合的概率。4.根据权利要求2所述的方法，其特征在于，所述第二函数项为第一和与第二和的差，所述第一和为在非预定观测位置出现的所有不同词组合的情况下的第二子函数的和，所述第二和为在非预定观测位置出现的所有不同词组合的情况下的第三子函数的和，所述第二子函数为所述看图说话系统输出语句在非预定观测位置出现的词组合的概率的对数乘以所述看图说话系统输出语句在非预定观测位置出现的词组合的概率，所述第三子函数为给定将要叠加的对抗噪声时所述看图说话系统输出语句在预定观测位置出现的词的组合、以及所述看图说话系统输出语句在非预定观测位置出现的不同词组合的联合概率乘以所述看图说话系统输出语句在非预定观测位置出现的词组合的概率。5.根据权利要求4所述的方法，其特征在于，所述求解第二函数项最小时的非预定观测位置出现的词组合的概率，包括：对第二函数项求导数，该导数中含有所述看图说话系统输出语句在非预定观测位置中的任一个观测位置上出现的词是词典中每个候选词的概率；令所述导数等于0，求出所述看图说话系统输出语句在一个位置出现的词是词典中一个词的概率，从而得到所述看图说话系统输出语句在每一个非预定观测位置出现的词是所述预定观测词组合中的相应词的概率；将所述看图说话系统输出语句在每一个非预定观测位置出现的词是所述预定观测词组合中的相应词的概率相乘，得到第二函数项最小时的非预定观测位置出现的词组合的概率。6.根据权利要求5所述的方法，其特征在于，所述令所述导数等于0，求出所述看图说话系统输出语句在一个位置出现的词是词典中一个词的概率，从而得到所述看图说话系统输出语句在每一个非预定观测位置出现的词是所述预定观测词组合中的相应词的概率，包括：令所述导数等于0，求出所述看图说话系统输出语句在一个位置出现的词是词典中一个词的概率；将所述看图说话系统输出语句在一个位置出现的词是词典中一个词的概率归一化，所述归一化通过将所述看图说话系统输出语句在该位置出现的词是该词的概率除以所述看图说话系统输出语句在该位置出现的词是词典中各词的概率的和实现；基于归一化的所述看图说话系统输出语句在一个位置出现的词是词典中一个词的概率，确定所述看图说话系统输出语句在每一个非预定观测位置出现的词是所述预定观测词组合中的相应词的...

【专利技术属性】
技术研发人员：吴保元，许焱，樊艳波，张勇，刘威，沈复民，申恒涛，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人