当前位置: 首页 > 专利查询>哈尔滨工程大学三亚南海创新发展基地价值链技术深圳有限公司专利>正文

一种基于HMM和降噪自编码器的中文对抗样本恢复方法技术

技术编号：39405892 阅读：6 留言：0更新日期：2023-11-19 15:58

本发明专利技术公开一种基于HMM和降噪自编码器的中文对抗样本恢复方法，涉及对抗文本处理技术领域，包括，获取对抗文本，对对抗文本进行符号清洗；基于隐马尔可夫模型将所述对抗文本中的拼音串转换为汉字序列，并将汉字序列拼接为汉字串；通过降噪自编码器对所述对抗文本中的汉字字符及汉字串进行噪声去除，得到候选词序列；通过置信度

全部详细技术资料下载

【技术实现步骤摘要】
一种基于HMM和降噪自编码器的中文对抗样本恢复方法

[0001]本专利技术涉及对抗文本处理
，特别涉及一种基于隐马尔可夫模型(Hidden Markov Model，HMM)和降噪自编码器(Denoising Autoencoder，DAE)的中文对抗样本恢复方法。

技术介绍

[0002]中文文本对抗攻击的攻击者通过手工制作字库生成对抗样本，从而绕开社交网络的敏感词审查系统和发垃圾短信，由于攻击者数量庞大，采取的变体策略繁多，这使得中文文本的对抗防御算法开发困难。
[0003]现有的防御技术主要分为两大类。第一种是传统的拼写纠错。通过手工构建庞大的纠错字典，将对抗样本中被扰动的字段当作拼写错误进行纠错，这种方法被专利技术的最初目的是为了纠正打字中人为失误的产生错误，所以字典中包含的错误类型单一，难以满足当前蓄意制作的各种样式的对抗攻击。第二种是对抗训练，通过将对抗样本混入到模型训练的原始训练集中，对模型进行重训练或者微调，从而提升模型鲁棒性。但这种方法同样需要模型的训练者提前收集对抗样本，且模型的重训练需要耗费大量的时间和算力，同时该方法无法在不同模型之间迁移。
[0004]综上，现有技术中无法提供中文对抗文本样本的高效恢复方法。

技术实现思路

[0005]为解决上述现有技术中所存在的问题，本专利技术提供一种基于HMM和降噪自编码器的中文对抗样本恢复方法，无需收集大量对抗样本进行训练，也无需对原始模型进行修改，该方法省时省力，且具有较强的通用性，方便在不同模型之间进行迁移以实现中...

【技术保护点】

【技术特征摘要】
1.一种基于HMM和降噪自编码器的中文对抗样本恢复方法，其特征在于，包括：获取对抗文本，对对抗文本进行符号清洗，保留对抗文本中的汉字字符及英文字母字符；基于隐马尔可夫模型将所述对抗文本中的拼音串转换为汉字序列，并将汉字序列拼接为汉字串；通过降噪自编码器对所述对抗文本中的汉字字符及汉字串进行噪声去除，得到候选词序列，其中降噪自编码器基于BERT模型进行构建，所述候选词序列根据对应置信度进行排序；通过置信度
‑
相似度解码器对所述候选词序列进行解码，得到修正文本；通过双向机器翻译对所述修正文本进行处理，生成恢复汉字文本。2.根据权利要求1所述的方法，其特征在于：采用正则表达式对对抗文本进行符号清洗。3.根据权利要求1所述的方法，其特征在于：将所述拼音序列转换为汉字序列的过程包括：将拼音串按照声母和韵母的组合进行拆分，以将拼音串转换为拼音序列；根据拼音序列构建有向概率图，并通过训练预料对所述有向概率图进行参数设置，其中设置的参数包括状态转移矩阵、观测概率矩阵及初始状态分布；通过动态规划算法对有向概率图进行最优路径求解，得到汉字序列。4.根据权利要求3所述的方法，其特征在于：其中所述动态算法采用维特比算法。5.根据权利要求1所述的方法，其特征在于：所述降噪自编码器的构建过程包括：获取无噪声语料，随机选取无噪声语料中不超过15％的单词进行处理，其中对80％被选取的单词通过“[MASK]...

【专利技术属性】
技术研发人员：王巍，韩子屹，蔡成涛，陆蓓婷，蒋文创，杨玉东，曲晓威，杨东梅，张海涛，王小芳，张万松，张越，庄园，苘大鹏，李伟，玄世昌，郭方方，
申请(专利权)人：哈尔滨工程大学三亚南海创新发展基地价值链技术深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人