一种基于黑盒对抗样本的社交文本人格隐私保护方法技术

技术编号:31712486 阅读:38 留言:0更新日期:2022-01-01 11:16
一种基于黑盒对抗样本的社交文本人格隐私保护方法属于社会工程学领域。本发明专利技术主要利用自然语言处理技术,使用Bert预处理模型和注意力机制为主的方法进行社交文本对抗样本的生成。通过使用Bert模型对文本进行预处理,并去除掉停用词,再通过注意力机制self

【技术实现步骤摘要】
一种基于黑盒对抗样本的社交文本人格隐私保护方法


[0001]本专利技术属于社会工程学领域,尤其涉及一种基于黑盒对抗样本的社交文本人格隐私保护方法。

技术介绍

[0002]人格是一个人显著的性格、习惯、气质、能力、态度等的有机结合,具有独特性、稳定性、统合性、功能性这几个特征。因此,我们可以说每个人都不会有完全一样的人格特点,而且,每个人的人格具有很大的稳定性,这就为人格分析和预测带来了契机。
[0003]在很早时期人们就开始对人格进行研究,现有的人格研究主要有六个流派,有弗洛伊德创立的精神分析学派,以奥尔伯特、卡特尔为代表的特质流派,以华生、斯金纳和赫尔为代表人物的行为主义流派,以班杜拉为代表人物的社会学习理论,以马斯洛为代表的人本主义流派,以及以凯利为重要代表的认知学派。近年来,研究者们提出了一种基于特质流派的大五人格模型,大五包括五个维度:宜人性、尽责性、外向性、进取性、情绪性,可以包含对每个人的人格进行描述的所有方面。
[0004]随着科学和计算机技术的发展,很多研究人员已经通过技术实现了人格计算和人格分类的研究,并取得了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种生成人格分类的黑盒对抗样本的方法,其特征在于包括以下步骤:1、对数据集进行预处理,输入到Bert模型,得到文本所对应的字符向量编码序列,并去除停用词;2、对于每个文本样本,首先利用自注意力机制,计算其中每个单词的自注意力分数作为每个单词对句子的语义贡献度W1,并由低到高排序,按序依此标记前m个单词作为之后进行词级替换的单词,取m=1

5;3、将原文本中,除已标记的n个单词以外的其他单词都依次用空格替代并输入到Bert模型,计算替换后的[CLS]标志与原句[CLS]标志的欧氏距离作为单词对标签的贡献度W2,并由大到小排序,按序依此标记前n个单词,等待进行字符级替换,取n=1

5;4、对已标记的m个单词通过在语料库中寻找该单词的近义词来进行词级替换,己标记的n个单词通过设置字符替换对应表对该单词进行字符级替换,从而生成对抗样本。2.根据权利要求1所述的方法,其特征在于包括以下步骤:步骤1、对数据集进行预处理,输入到Bert模型,得到文本所对应的字符向量编码序列,并去除停用词步骤2、对于每个文本样本,首先利用自注意力机制,计算其中每个单词的自注意力分数作为每个单词对句子的语义贡献度W1,并由低到高排序,按序依此标记前m个单词作为之后进行词级替换的单词白注意力机制的Self

attention分数值决定了某个词对输入句子的其他部分的重要程度,也就是要计算的语义贡献度W1;这个分数的计算方法是其中A是Self

attention分数值,Q、K、V是上文提到的三个向量,d是向量的维度,矩阵相乘再与维数开根号的结果做除法,再做一个so...

【专利技术属性】
技术研发人员:王秀娟曹思玮郑康锋石雨桐随艺
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1