当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于差分隐私的文本内容保护方法技术

技术编号:37180943 阅读:37 留言:0更新日期:2023-04-20 22:47
本发明专利技术涉及文本数据隐私保护中的差分隐私方法和深度学习技术领域,公开了一种基于差分隐私的文本内容保护方法,包括如下步骤:客户端对差分隐私和文本分析任务的阈值进行设定;客户端根据敏感信息内容,按照内容类型和字符长度进行分类和标记,构建敏感属性字典;根据具有相同标签的敏感属性内容集合,在语料库中查询到满足相似度阈值范围的语料内容;利用基于本地化差分隐私的广义随机响应机制,将敏感信息内容替换为在语料库中查询到的语料内容;由服务器聚合当前所有文本数据,并将其配置到文本分析任务模型中计算文本分析任务的准确率;服务器将文本分析任务的准确率发送给所有客户端,并由其判断是否在可接受的文本准确率阈值范围内。准确率阈值范围内。准确率阈值范围内。

【技术实现步骤摘要】
一种基于差分隐私的文本内容保护方法


[0001]本专利技术涉及文本数据隐私保护中的差分隐私方法和深度学习
,具体涉及一种基于差分隐私的文本内容保护方法。

技术介绍

[0002]在过去的几十年里,各种社交平台和应用软件已广泛地进入人们的生活。用户在这些平台上的评论和对话产生了大量的文本数据,其中包含名字性别、手机号码、位置信息和疾病史等多种敏感信息。深度学习通过对这些文本数据进行聚合和处理,使得模型学习到的内容表示更加完备,从而为医疗保健、智慧家居、自动驾驶等场景提供强大的支撑。
[0003]然而,一些攻击研究表明,深度学习模型有泄露用户数据敏感信息的风险。这不仅会给用户的利益造成损害,而且还成为阻碍其广泛应用的瓶颈。因此,如何针对用户的文本数据做进一步的隐私保护成为亟待解决的问题。目前,差分隐私由于其提供经过严格数学证明的隐私保护强度衡量方法,因此被广泛应用在数据分析中。在文本数据分析中,研究学者们常将差分隐私机制添加在数据特征中或者是利用差分隐私合成近似数据。Feyisetan等提出了一种基于差分隐私的文本向量表示方法,通过在文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私的文本内容保护方法,其特征在于,包括如下步骤:步骤1,客户端对差分隐私和文本分析任务的阈值范围进行设定;步骤2,客户端根据敏感信息内容S
i
,按照敏感内容类型T
i
、敏感内容字符长度C
i
进行分类和标记,构建敏感属性字典Dict
i
;步骤3,客户端设定语料相似度阈值范围[S
low
,S
high
],根据具有相同标签L
it
的敏感属性内容集合A
it
,在语料库合集中查询到满足相似度阈值范围的语料内容;其中敏感属性内容集合A
it
={W1,W2,W3,

,W
Z
},W
Z
表示标签为L
it
的敏感属性内容,Z表示标签为L
it
的敏感属性内容数量;步骤4,利用ε

本地化差分隐私思想和广义随机响应机制,将敏感信息内容替换为在语料库中查询到的语料内容,其中替换后的敏感属性内容集合R
it
={W1',W2',W3',

,W
Z
'},W
Z
'表示标签为L
it
的敏感属性替换内容,Z'表示标签为L
it
的敏感属性替换内容数量;步骤5,由服务器聚合当前替换后的所有文本数据,并将其配置到文本分析任务模型中计算文本分析任务的准确率Acc
T
;步骤6,服务器将文本分析任务的准确率Acc
T
发送给所有客户端,并由其判断是否在可接受的文本准确率阈值范围内,可接受的文本准确率阈值范围为[Acc
low
,Acc
high
],Acc
low
表示可接受的文本准确率的最小值,Acc
high
表示可接受的文本准确率的最大值。2.根据权利要求1的基于差分隐私的文本内容保护方法,其特征在于,于步骤1中,要设定的阈值范围具体包括客户端可接受的隐私预算阈值范围[ε
low

high
],其中ε
low
表示可接受的隐私预算的最小值,ε
high
表示可接受的隐私预算的最大值,以及客户端可...

【专利技术属性】
技术研发人员:孙哲殷丽华林思昕王滨张美范李然
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1