文本数据的保密处理方法和装置制造方法及图纸

技术编号:32112159 阅读:19 留言:0更新日期:2022-01-29 18:55
本说明书实施例提供了一种文本数据的保密处理方法和装置。该方法包括:得到原始文本数据;将所述原始文本数据输入预先训练的文本生成模型,得到该文本生成模型输出的相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;提供所述相似文本数据。本说明书实施例能够更为有效地阻止文本数据内容的泄露。据内容的泄露。据内容的泄露。

【技术实现步骤摘要】
文本数据的保密处理方法和装置


[0001]本说明书一个或多个实施例涉及电子信息技术,尤其涉及文本数据的保密处理方法和装置。

技术介绍

[0002]在很多业务场景中,需要对文本数据进行保密处理,以便在不破坏原文内容的情况下,阻止文本数据被泄露以及泄露之后的追溯。目前,主要是通过在文本数据的背景中增加水印的方式进行保密处理。水印不会破坏原有文本内容的语义,让阅读者能够获知文本的内容,并且,还能够通过所增加的水印来追查泄露途径。例如企业或者机构内网通常会在保密材料的背景上加上特有的水印信息,防止员工把信息直接截图或者拍照进行外发。
[0003]但是此种增加水印的方式,无法有效地阻止文本内容的泄露。

技术实现思路

[0004]本说明书一个或多个实施例描述了文本数据的保密处理方法和装置,能够更为有效地阻止文本内容的泄露。
[0005]根据第一方面,提供了一种文本数据的保密处理方法,其中,包括:得到原始文本数据;将所述原始文本数据输入预先训练的文本生成模型,得到该文本生成模型输出的相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;提供所述相似文本数据。
[0006]其中,所述文本生成模型的训练方法包括如下中的至少一项:针对第一文本数据,将该第一文本数据中的至少一个字符替换为该字符的同义字符,得到第一变换数据,利用该第一文本数据及该第一变换数据作为训练样本训练所述文本生成模型;针对第二文本数据,在该第二文本数据中增加或者减少非语义字符,得到第二变换数据,利用该第二文本数据及该第二变换数据作为训练样本训练所述文本生成模型;其中,非语义字符为不改变语义的字符;针对第三文本数据,改变该第三文本数据中至少一处文本内容的语序,得到第三变换数据,利用该第三文本数据及该第三变换数据作为训练样本训练所述文本生成模型。
[0007]其中,所述得到该文本生成模型输出的相似文本数据,包括:得到该文本生成模型输出的至少两个版本的相似文本数据;不同版本的相似文本数据的文本内容不同;所述提供所述相似文本数据,包括:将各个阅读者划分在至少两个分组中;将至少两个版本的相似文本数据分别分发给至少两个分组。
[0008]该方法进一步包括:获取被泄露的相似文本数据;根据被泄露的相似文本数据的版本,确定该被泄露的相似文本数据被分发到的分组;将该分组中的阅读者确定为泄露方。
[0009]在所述得到该文本生成模型输出的相似文本数据之后,并在所述提供所述相似文本数据之前,进一步包括:根据原始文本数据的语义,对文本生成模型输出的相似文本数据进行修正,以增加该相似文本数据与原始文本数据的语义相似度;所述提供所述相似文本数据,包括:提供修正后的相似文本数据。
[0010]根据第二方面,提供了一种文本数据的保密处理装置,其中,包括:原始文本获取模块,配置为得到原始文本数据;文本生成模型,配置为对输入的所述原始文本数据进行模型处理,输出相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;分发模块,配置为提供所述相似文本数据。
[0011]其中,所述文本生成模型在训练阶段被配置为执行如下中的至少一项:接收第一训练样本,该第一训练样本包括第一文本数据及第一变换数据,其中第一变换数据是将该第一文本数据中的至少一个字符替换为该字符的同义字符后得到的,对该第一训练样本进行学习;接收第二训练样本,该第二训练样本包括第二文本数据及第二变换数据,其中第二变换数据是在该第二文本数据中增加或者减少非语义字符后得到的,对该第二训练样本进行学习;接收第三训练样本,该第三训练样本包括第三文本数据及第三变换数据,其中第三变换数据是改变该第三文本数据中至少一处文本内容的语序之后得到的,对该第三训练样本进行学习;其中,第三文本数据及该第三变换数据的语义相似度大于预定值。
[0012]其中,所述文本生成模型被配置为执行:得到该文本生成模型输出的至少两个版本的相似文本数据;不同版本的相似文本数据的文本内容不同;所述分发模块,被配置为执行将各个阅读者划分在至少两个分组中;将至少两个版本的相似文本数据分别分发给至少两个分组。
[0013]其中,该装置进一步包括:追溯模块,配置为获取被泄露的相似文本数据;根据被泄露的相似文本数据的版本,确定该被泄露的相似文本数据被分发到的分组;将该分组中的阅读者确定为泄露方。
[0014]根据第三方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书任一实施例所述的方法。
[0015]本说明书实施例提供的文本数据的保密处理方法及装置,没有采用在背景中额外增加水印的方式来进行保密处理,而是对原始的文本数据进行变形,即生成了相似文本数据,因为相似文本数据与原始文本数据的语义相似度大于预定值,也就是说,相似文本数据保留了原始文本数据的真实语义,因此满足了上述第一方面的要求,同时,相似文本数据与
原始文本数据的文本内容不同,阅读者无法获得原始的文本数据,因此满足了上述第二方面的要求。因此,能够更为有效地阻止文本内容被泄露,更为有效地追溯泄露方。
附图说明
[0016]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本说明书一个实施例中文本数据的保密处理方法的流程图。
[0018]图2是本说明书另一个实施例中文本数据的保密处理方法的流程图。
[0019]图3是本说明书一个实施例中文本数据的保密处理装置的一种结构示意图。
[0020]图4是本说明书一个实施例中文本数据的保密处理装置的又一种结构示意图。
[0021]图5是本说明书一个实施例中文本数据的保密处理装置的再一种结构示意图。
具体实施方式
[0022]现有技术中是在文本数据的背景上增加水印。而增加水印的方式并不能有效地阻止内容泄露。比如,阅读者看到增加有水印的文件后,可以通过手动抄写文件中的文本内容的方式或者通过用扫描仪扫描文件的方式,得到文件中的文本内容,而同时又去除了水印。此后,则可以将既包括原始文本内容又去除了水印的文件进行外发。假如,系统总共向1万个阅读者提供过增加有水印的文件,那么,很难确定这1万个阅读者中的哪些人员是外发泄露原始文本内容的泄露方,导致阅读者会更加无所顾忌地进行泄露行为。可见,现有技术的方法无法有效地阻止文本内容的泄露,更无法有效地追查泄露人员。
[0023]下面结合附图,对本说明书提供的方案进行描述。
[0024]图1是本说明书一个实施例中文本数据的保密处理方法的流程图。该方法的执行主体为文本数据的保密处理装置。可以理解,该方法也可以通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.文本数据的保密处理方法,其中,包括:得到原始文本数据;将所述原始文本数据输入预先训练的文本生成模型,得到该文本生成模型输出的相似文本数据;该相似文本数据与原始文本数据的文本内容不同,但,该相似文本数据与原始文本数据的语义相似度大于预定值;提供所述相似文本数据。2.根据权利要求1所述的方法,其中,所述文本生成模型的训练方法包括如下中的至少一项:针对第一文本数据,将该第一文本数据中的至少一个字符替换为该字符的同义字符,得到第一变换数据,利用该第一文本数据及该第一变换数据作为训练样本训练所述文本生成模型;针对第二文本数据,在该第二文本数据中增加或者减少非语义字符,得到第二变换数据,利用该第二文本数据及该第二变换数据作为训练样本训练所述文本生成模型;其中,非语义字符为不改变语义的字符;针对第三文本数据,改变该第三文本数据中至少一处文本内容的语序,得到第三变换数据,利用该第三文本数据及该第三变换数据作为训练样本训练所述文本生成模型。3.根据权利要求1所述的方法,其中,所述得到该文本生成模型输出的相似文本数据,包括:得到该文本生成模型输出的至少两个版本的相似文本数据;不同版本的相似文本数据的文本内容不同;所述提供所述相似文本数据,包括:将各个阅读者划分在至少两个分组中;将至少两个版本的相似文本数据分别分发给至少两个分组。4.根据权利要求3所述的方法,该方法进一步包括:获取被泄露的相似文本数据;根据被泄露的相似文本数据的版本,确定该被泄露的相似文本数据被分发到的分组;将该分组中的阅读者确定为泄露方。5.根据权利要求1所述的方法,在所述得到该文本生成模型输出的相似文本数据之后,并在所述提供所述相似文本数据之前,进一步包括:根据原始文本数据的语义,对文本生成模型输出的相似文本数据进行修正,以增加该相似文本数据与原始文本数据的语义相似度;所述提供所述相似文本数据,包括:提供修正后的相似文本数据...

【专利技术属性】
技术研发人员:崔世文孟昌华李志峰王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1