一种基于句法捷径注入的文本数据保护方法技术

技术编号：41586368 阅读：16 留言：0更新日期：2024-06-07 00:00

本发明专利技术公开了一种基于句法捷径注入的文本数据保护方法，包含：1获取并预处理文本数据，得到每个文本数据的句法解析树；2通过从给定文本句法中选择出n个出现频率最高的句法模板构建句法模板库；3根据给定文本的句法和构建的句法模板库，计算某一类别内文本句法和句法模板库中句法的相似度，选择出相似度最高的句法模板；4根据为每个类别选择的句法模板，为不同类别的数据添加不同的扰动，进而生成不可学习文本数据。本发明专利技术通过向文本注入句法特征，能够在不改变文本语义的同时，为文本数据添加了易于学习的特征，进而误导模型学习句法特征，而忽略文本语义特征，从而防止文本数据在被未经授权下用于模型训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理领域，尤其涉及一种文本数据保护方法。

技术介绍

1、

2、近年来，人们基于快捷学习的思路提出不可学习样本生成算法来保护公开数据不被未经授权用于训练模型，例如huang等人通过向图像数据中添加扰动，进而将训练数据的损失降低到接近于零来构造模型学习的捷径。yu等人证明huang等人添加的扰动是线性可分离的，并直接生成线性可分离扰动来构造快捷特征，降低了生成扰动的时间复杂度。wu等人证明了模型学习图像的快捷方式可以简单地实例化为单个像素，并通过仅修改一个像素点来为模型创建更易于学习的快捷方式来保护数据。

3、然而上述不可学习样本生成算法虽然在计算机视觉领域已经取得了巨大进展，但是这些为图像数据生成捷径的策略在文本数据中不起作用。比如扰动单词中的一个字符可能会改变语义或产生拼写错误，这些错误可以被大模型轻松识别和纠正，更不用说生成有效的捷径来误导模型。此外，同义词替换是在不改变语义的情况下进行文本扰动的常用方法。然而，因为不同的单词有不同的同义词，同义词和类别之间几乎没有相关性，所以这种策略并不能产

【技术保护点】

1.一种基于句法捷径注入的文本数据保护方法，其特征在于，包括以下步骤：

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述文本数据保护方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

3.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1所述文本数据保护方法的步骤。

【技术特征摘要】

1.一种基于句法捷径注入的文本数据保护方法，其特征在于，包括以下步骤：

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述文本数据保护方法的程序，所述...

【专利技术属性】
技术研发人员：张琨，李博，洪日昌，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人